小さな町の若者たちが大規模なAIモデルにラベル付けをしている

By: blockbeats|2026/04/07 13:08:33
0
シェア
copy
著者 | Sleepy.md

かつて石炭産業に支えられていたが、今ではその煤塵を振り払った山西省大同市では、鋭いつるはしが炭鉱に取って代わり、もう一つの目に見えない鉱山へと向かっている。

平城区にある金茂国際センターのオフィスビル内には、もはや坑道も石炭運搬車も見当たらない。その代わりに、何千台ものコンピュータワークステーションが密集して配置されている。上海潤迅クラウド・ソニックバレー・ビッグデータ・スマートサービスセンターは数フロアにまたがり、数千人の若い従業員たちがヘッドフォンを装着し、画面を見つめながら、クリックしたり、ドラッグしたり、選択したりしている。

公式データによると、2025年11月時点で、大同市は74万5000台のサーバーを稼働させ、69社のデータラベリング企業を誘致し、3万人以上の雇用を創出し、生産額は7億5000万元に達している。このデジタル鉱山では、従事者の94%が地元の人々です。

大同だけではない。国家統計局が特定したデータラベリング拠点の第1陣には、山西省の永和県、貴州省の畢節、雲南省の蒙自など、西部地域の県が名を連ねている。永和県のデータラベリング拠点では、従業員の80%が女性である。その多くは、地方に住む専業主婦や、適切な仕事が見つからない地方の若者たちです。

100年前、英国マンチェスターの繊維工場には、土地を持たない農民たちが溢れかえっていた。今日、こうした地方の町のパソコン画面の前には、実体経済の中で居場所を見つけられない若者たちが座っている。

彼らは、未来的でありながら極めて原始的な出来高制の仕事に従事し、北京、深セン、そしてシリコンバレーのAI大手企業に必要なデータフィードを生み出している。

誰もこれに問題はないと考えている。

黄土高原に新設された組立ライン

データラベリングの本質は、機械に世界について教えることにある。

自動運転には信号機や歩行者を認識する機能が必要であり、大規模なモデルには猫と犬を見分ける機能が必要です。機械自体には常識がないため、何百万枚もの画像を学習して歩行者を認識できるようになるには、まず人間が画像上に四角い枠を描き、「これが歩行者だ」と教える必要がある。

この仕事には高い学歴は必要ありません。必要なのは忍耐力と、ひたすらクリックし続けられる指だけです。

2017年の全盛期には、単純な2Dボックス1つで1セント以上するケースもあり、中には0.5元という高値を提示する企業さえあった。クリック作業の速いラベラーなら、1日10時間働けば500~600元稼げる。その郡の郡庁所在地では、これは間違いなく高給でまともな仕事と見なされています。

しかし、大規模なモデルが発展するにつれ、このパイプラインの厳しい現実が明らかになり始めた。

2023年までに、単純な画像アノテーションの単価は3~4セントまで低下し、90%以上の下落となった。点の密度が非常に高く、エッジを識別するために大幅なズームが必要なような、より処理が困難な3D点群画像であっても、アノテーターは、車両や歩行者をシームレスに囲み込むように、長さ、幅、高さ、および向き角度を含む3次元ボックスを空間上に丹念に描画しなければなりません。しかし、これほど複雑な3Dボックスでも、価格はたったの5セントです。

小さな町の若者たちが大規模なAIモデルにラベル付けをしている

この価格急落の直接的な結果として、労働集約度が劇的に高まっている。月収2,000~3,000ドルを維持するためには、アノテーターは絶えず、そして倦むことなく作業スピードを向上させ続けなければならない。

これは決して楽なホワイトカラーの仕事ではありません。多くのアノテーションセンターでは、管理が非常に厳しく、息が詰まるほどだ。従業員は勤務中に電話に出ることが許されず、携帯電話はロッカーに施錠して保管しなければならない。このシステムは、従業員一人ひとりのマウスの動きやアイドル時間を細かく記録しており、3分以上の休憩があると、バックエンドから鞭のように警告が発せられる。

さらに苛立たしいのは、許容率だ。この業界では、合格基準は通常95%以上であり、98%~99%を要求する企業もある。つまり、100個のボックスを描いて2か所ミスをすると、画像全体が手直しのために差し戻されることになります。

動的な画像はフレームで構成されており、車線変更中の車両は画像の一部が隠れてしまうため、アノテーターは想像力を働かせて各車両を特定する必要があります。3D点群画像では、10点を超える点を持つオブジェクトはすべてボックスで囲む必要があります。複雑な駐車スペースのプロジェクトでは、線が長すぎたり、何か見落としがあったりすると、品質検査で必ず不備が見つかります。画像が4、5回手直しされるのはよくあることだ。結局のところ、1時間も働いた挙句、手に入るのはほんの数セントに過ぎない。

湖南省のあるアノテーターが、自身の決済明細をSNSに投稿した。それによると、1日の作業で700個以上のボックスを描き、1個あたり4セントの報酬を受け取り、合計30.2元を稼いだことが示されていた。

この業界は極めて細分化されている。

一方では、カンファレンスの場で、AGIが人類を解放する方法を議論する輝かしいテック大手企業たちがいる。他方では、黄土高原の地方都市や南西部の山間部で、若者たちが1日8~10時間も画面を見つめ、機械的に何千、何万もの四角形を描き続け、夜には夢の中でも指で空中に車線をなぞっている。

ある人がこう言った。「人工知能の外見は轟音を響かせる高級車のようなものだが、ドアを開けて中を覗けば、百人の人々が歯を食いしばって必死にペダルをこいでいるのが見えるだろう」と。

誰も、これについて何か問題があるとは思っていない。

出来高制の職人が機械に「愛し方」を教える

画像認識というボトルネックを突破した後、大規模モデルはさらなる進化を遂げ、人間のように思考し、会話し、さらには「共感」さえ示すことを学ぶ必要に迫られている。

これにより、大規模モデル学習において最も重要かつコストのかかる部分であるRLHF(人間からのフィードバックに基づく強化学習)が生まれました。

簡単に言えば、AIが生成した回答を実際の人間が評価し、どの回答がより優れており、人間の価値観や感情的な好みに合致しているかをAIに教えるというものです。

ChatGPTが「人間らしい」ように見えるのは、その背後で無数のRLHFアノテーターがChatGPTに学習させているからである。

クラウドソーシングプラットフォームでは、こうしたアノテーション作業の単価は、多くの場合、3~7人民元と明確に設定されています。アノテーターは、AIの応答が「温かみがある」「共感的である」「ユーザーの感情に配慮している」かどうかを評価するために、極めて主観的な感情スコアを付ける必要があります。

月収わずか数千元で、現実の泥沼でもがき、自分の感情さえまともにケアできないような人間が、今やこのシステムの中で、AIの感情の指導者や価値観の仲裁役を務めることを求められている。

彼らは、温かみや共感といった、極めて複雑で微妙な人間の感情を、1から5までの冷たい点数に無理やり分解しなければならない。その採点がシステムのあらかじめ定められた正解と一致しない場合、その正確性は不十分とみなされ、わずかな出来高給から減額されることになる。

これは精神的に疲れる。人間の感情、道徳、そして思いやりといった、極めて複雑で微妙な要素が、アルゴリズムという漏斗に無理やり押し込められている。定量化と標準化という冷徹な領域において、彼らからは最後の温もりの一片までもが奪い取られてしまう。画面上のサイバー巨人が、詩を書き、音楽を創作し、思いやりを示し、さらには憂いを帯びた繊細ささえまとうようになったことに驚嘆している間、画面の外では、かつて活気に満ちていた人間たちは、日々の機械的な判断を通じて、感情のない採点マシンへと退行してしまった。

これは業界全体の中で最も秘密主義的な側面であり、資金調達のニュースや技術ホワイトペーパーには決して登場することはない。

誰も、これについて何か問題があるとは思っていない。

985 修士号取得者 vs.田舎町の若者

AIの足跡によって、単純な組立ライン作業は押しつぶされつつあり、その結果、このサイバネティックなコンベアベルトは上層へと広がり、より高度な知的労働までも飲み込み始めている。

大規模モデルの需要は変化した。もはやありふれた常識をかじりつくだけでは満足せず、今や人間の専門知識や高度な論理を貪り尽くそうとしている。

主要な求人サイトでは、「大規模モデルの論理的推論アノテーション」や「AI人文トレーナー」といった、新しいタイプのアルバイト求人が頻繁に見られるようになってきた。このアルバイトは応募条件が非常に厳しく、多くの場合「985プロジェクト/211プロジェクト指定大学の修士号以上」が求められ、法学、医学、哲学、文学などの専門分野が対象となります。

名門大学の多くの大学院生が、こうした大手テクノロジー企業のアウトソーシング部門に惹かれて入社している。しかし、彼らはすぐに、これが単なる簡単な頭の体操などではなく、むしろ一種の精神的拷問であることに気づく。

正式に業務を引き受ける前に、彼らは数十ページに及ぶ採点基準や評価基準の文書を精読し、2~3回の試行的なアノテーションを行う必要があります。基準を満たした後、正式なアノテーション作業において、その精度が平均レベルを下回った場合、資格を剥奪され、グループチャットから追放されます。

何よりも息が詰まるのは、これらの基準がまったく定まっていないという点だ。同じような質問や回答に直面した場合、同じ思考プロセスで評価すると、まったく逆の結果になることがある。まるで、正解のない終わりのない試験問題に取り組んでいるようなものだ。正確さは、自分の努力や勉強だけでは向上させることができない。ただその場で足踏みし続けるだけで、心身のエネルギーを消耗するばかりだ。

これが、大規模モデル時代の新たな搾取の形態――クラス・フォールディングである。

かつては障壁を打ち破り、上へと登るための黄金の梯子と見なされていた知識は、今やアルゴリズムに咀嚼されるための、より複雑なデジタルな餌と化してしまった。アルゴリズムとシステムの絶対的な力の前に、象牙の塔に閉じこもった名門大学の大学院生たちと、黄土高原の小さな町から来た若者たちは、最も奇妙な融合の道を歩み始めた。

彼らは共に、この底知れぬサイバー採掘の深淵へと転落していく。光輪を剥ぎ取られ、違いを消し去られ、誰もがいつでも交換可能な、コンベアベルト上の安っぽい歯車へと変えられていく。

海外でも同じです。2024年、アップルはサンディエゴにある121人のAI音声アノテーションチームを直接解雇した。これらの従業員は、Siriの多言語処理機能の向上を担当していました。かつて彼らは、あるテクノロジー大手企業の基幹事業部門の一員だと信じていたが、その直後に失業という奈落の底へと突き落とされた。

テック大手企業から見れば、地方の小さな町で食料品店を営む中年女性であれ、名門校出身のロジックトレーナーであれ、根本的には、いつでも置き換え可能な「消耗品」に過ぎない。

誰も、これについて何か問題があるとは考えていない。

--価格

--

数セントの搾取で築かれた、1兆ドルのバベルの塔

中国情報通信研究院が発表したデータによると、中国のデータアノテーション市場は2023年に60.8億元規模に達し、2025年までに200~300億元に達すると見込まれている。2030年までに、世界のデータアノテーションおよびサービス市場の売上高は1,171億元にまで急増すると予測されている。

こうした数字の背景には、OpenAI、マイクロソフト、バイトダンスといったテック大手企業があり、その企業価値は数兆ドルに達している。

しかし、この莫大な富は、AIを真に「支えている」人々の元には流れていない。

中国のデータラベリング業界では、典型的な逆ピラミッド型のアウトソーシング構造が見て取れる。最上層には、中核となるアルゴリズムを強固に掌握するテック大手が存在する。第2層は大手データサービスプロバイダーで構成され、第3層は全国各地に点在するデータラベリングセンターや中小のアウトソーシング企業から成る。そして最下層にあって初めて、出来高制で報酬を得る「足軽」――ラベリング作業員たちの姿が見て取れる。

各アウトソーシングの段階ごとに、多額の手数料が差し引かれる。大手工場が単価0.5元を提示しても、幾重もの搾取を経て、地方の町のラベル貼り作業員の手に渡る金額は、0.05元にも満たないことがある。

ギリシャの元財務大臣ヤニス・ヴァルファキスは著書『テクノ・フェオダリズム』の中で、鋭い見解を提示している。すなわち、今日のテック大手企業はもはや従来の意味での資本家ではなく、「クラウドリスト」であるというのだ。

彼らは工場や機械を所有しているのではなく、アルゴリズムやプラットフォーム、そして計算能力――つまりサイバー時代のデジタル領域を所有しているのだ。この新しい封建制度において、ユーザーは消費者ではなく、デジタル農奴である。ソーシャルメディアでの「いいね!」やコメント、閲覧のすべてが、クラウドリストにデータを提供する無償の労働力となっている。

一方、新興市場におけるデータラベリング作業員は、このシステムにおいて最下層のデジタル農奴に他ならない。彼らはデータを生成するだけでなく、膨大な生データを整理・分類・評価し、大規模なモデルが処理できる高品質なデータストリームへと変換しなければならない。

これは、秘密裏に行われる認知的囲い込み運動である。19世紀のイギリスで囲い込み法が農民を紡績工場へと追いやったのと同様に、今日のAIの波は、実体経済の中で居場所を見つけられない若者たちを画面の前に追いやっている。

AIは階級格差を解消したわけではない。むしろ、中国中西部の中小県から、北京、上海、広州、深センにあるテック大手企業の本社へと直結する「データと血と汗のコンベアベルト」を構築してしまったのである。技術革命の物語は常に壮大で華々しいものだが、その根底には常に安価な労働力の大量投入がある。

誰も、これについて何か問題があるとは思っていないようだ。

人間がいなくても成り立つ明日

最も残酷な結末が、ますます速いペースで迫りつつある。

大規模なモデル技術の進展に伴い、かつては人間が昼夜を問わず労力を費やして行っていた作業が、AIそのものによって担われるようになってきている。

2023年4月、理想汽車(Ideal Auto)の創業者である李翔氏は、あるフォーラムで、かつて同社が年間約1,000万フレームの自動運転用画像を手作業でラベリングしており、その外注費用は10億元近くに上っていたことを明らかにした。しかし、自動ラベリングに大規模なモデルを導入した結果、以前は1年かかっていた作業が、今では約3時間で完了するようになった。

その効率は人間の1000倍であり、早くも2023年には達成されていた。去年の3月だけでも、Idealsは次世代の自動アノテーションエンジン「MindVLA-o1」をリリースした。

業界では、皮肉を込めて自嘲的な言葉が囁かれている:「知能が高ければ高いほど、人工的になる。」しかし現在、大手テクノロジー企業によるデータアノテーションの外部委託が、崖から転げ落ちるような勢いで40~50%も減少している。

小さな町の若者たちは、数え切れないほどの昼夜をパソコンの前に座り続け、目の疲れで充血したまま、自らの手で巨大な存在を育て上げた。そして今、この巨人が方向転換し、彼らの生計の糧を打ち砕こうとしている。

夜が更けても、大同市平城区のオフィスビルは昼間のように明るく照らされている。勤務中の若者たちは、エレベーターホールで疲れ切った表情を無言で交わし合っている。無数の多角形に閉じ込められたこの折り重なった空間では、海の向こう側でトランスフォーマーアーキテクチャが成し遂げた画期的な飛躍など、誰も気にも留めていない。また、1,000億ものパラメータの背後に潜む計算能力の轟音など、誰も理解していない。

彼らの視線は、バックステージに映し出された「合格ライン」を示す赤と緑の進捗バーに釘付けになっている。わずかな出来高給で、月末までにまともな生活を送れるかどうかを計算しているのだ。

一方では、ナスダックの取引終了の鐘やテックメディアによる絶え間ない報道に後押しされ、巨大企業たちはAGI(汎用人工知能)の到来を祝って杯を掲げている。他方では、自らの血肉をAIに注ぎ込んできたこれらの「デジタルの農奴」たちは、苦痛に満ちた眠りの中で、自らの手で育て上げた巨獣が、ある平凡な朝、何気なく自分たちの飯の種を蹴り飛ばすのを、ただ不安げに待ち続けることしかできない。

誰も、これについて何か問題があるとは思っていない。

関連記事

米国イラン戦争が石油とビットコインの価格に与える影響(最新分析)

2026年2月28日の米国イラン戦争の勃発は、地政学的な石油ショックがますます制度化された暗号通貨市場とどのように相互作用するかを理解するための前例のないリアルタイムの実験室を提供しました。この記事では、紛争中の原油価格とビットコインの関係を調査し、価格変動、相関パターン、およびその根底にある伝達メカニズムを分析します。

OpenAIは独自のルールを作りたいと考えている|Rewireニュース速報

資本は国家のための独自のマントラを作曲しなければならない

Chaos Labsが撤退、AaveのRiskを引き継ぐのは誰だ?

リスク管理が撤退すると、DeFiのセキュリティ基盤が再評価される

隠れた金融戦争?イランはストレート通行料をステーブルコインで徴収

これは主権国家が戦略的な支払いインフラにステーブルコインを組み込んだ初めての事例です。

OpenAlice:一人暮らしならジェーン・ストリート | プロジェクト概要

AIを活用したクオンツチームが24時間365日体制で現地トレーディングエージェントを運営

早報 | Strategyは先週4871枚のBTCを増持した;Tossは独自のブロックチェーンを開発し、ネイティブ暗号通貨を発行する予定;OpenAIのCFOは2026年の上場タイミングについて私的に疑問を呈した。

4月6日の市場重要イベント一覧

人気のコイン

最新暗号資産ニュース

もっと見る