Les jeunes de la petite ville étiquetant de grands modèles d'IA

By: blockbeats|2026/04/07 13:04:26

Auteur | Sleepy.md

À Datong, dans le Shanxi, une ville qui était autrefois soutenue par le charbon et qui s'est maintenant débarrassée de la poussière de charbon, une pioche tranchante a remplacé les mines de charbon, se dirigeant vers une autre mine invisible.

À l'intérieur de l'immeuble de bureaux du Centre international Jinmao, dans le district de Pingcheng, il n'y a plus de puits de mine ni de camions à charbon. Au lieu de cela, il existe des milliers de postes de travail informatiques étroitement disposés. Shanghai Runxun Cloud Sonic Valley Big Data Smart Service Center occupe plusieurs étages, avec des milliers de jeunes employés portant des écouteurs, fixant les écrans, cliquant, faisant glisser et sélectionnant.

Selon les données officielles, en novembre 2025, la ville de Datong a mis en service 745 000 serveurs, introduit 69 entreprises d'étiquetage de données d'appel, conduit plus de 30 000 personnes à l'emploi, pour une valeur de production de 750 millions de yuans. Dans cette mine numérique, 94% des pratiquants sont des locaux.

Il n'y a pas que Datong. Dans le premier lot de bases d'étiquetage des données identifiées par le Bureau national des statistiques, des comtés de la région occidentale tels que le comté de Yonghe dans le Shanxi, Bijie dans le Guizhou et Mengzi dans le Yunnan sont répertoriés. Dans la base d'étiquetage des données du comté de Yonghe, 80 % des employés sont des femmes. La plupart sont des mères au foyer rurales ou des jeunes ruraux qui ne trouvent pas d'emploi convenable.

Il y a cent ans, les usines textiles de Manchester au Royaume-Uni étaient bondées d'agriculteurs sans terre. Aujourd'hui, dans les écrans d'ordinateur de ces villes de comté reculées, des jeunes qui ne trouvent pas leur place dans l'économie réelle sont assis devant eux.

Ils sont engagés dans un travail futuriste mais extrêmement primitif à la pièce, produisant le flux de données nécessaire pour les géants de l'IA à Pékin, Shenzhen et Silicon Valley.

Personne n'y voit de problème.

Une nouvelle chaîne de montage sur le plateau de Loess

L'essence de l'étiquetage des données est d'enseigner aux machines sur le monde.

La conduite autonome doit reconnaître les feux de circulation et les piétons, et les grands modèles doivent distinguer les chats des chiens. Les machines elles-mêmes n'ont pas de bon sens et doivent demander à un humain de dessiner une boîte sur l'image pour lui dire "c'est un piéton" avant de pouvoir apprendre à le reconnaître après avoir digéré des millions d'images.

Ce métier ne nécessite pas un niveau d'éducation élevé, seulement de la patience, et un doigt qui peut cliquer sans cesse.

Pendant l’âge d’or de 2017, une simple boîte 2D pouvait coûter plus d’un centime, et certaines entreprises proposaient même un prix élevé d’un demi-yuan. Un étiqueteur à clic rapide pouvait gagner cinq à six cents yuans en travaillant dix heures par jour. Dans la ville de comté, c'est certainement considéré comme un travail bien payé et décent.

Mais avec l'évolution des grands modèles, la dure réalité de ce pipeline a commencé à émerger.

En 2023, le prix unitaire de la simple annotation d'image avait été ramené à 3 à 4 centimes, soit une baisse de plus de 90%. Même pour les images de nuages de points 3D plus difficiles, où les points sont si denses que les bords nécessitent un zoom important pour être discernés, les annotateurs doivent dessiner méticuleusement une boîte tridimensionnelle dans l'espace qui englobe la longueur, la largeur, la hauteur et l'angle d'orientation pour s'enrouler parfaitement autour d'un véhicule ou d'un piéton. Cependant, le prix pour un boîtier 3D aussi complexe n'est que de 5 centimes.

Les jeunes de la petite ville étiquetant de grands modèles d'IA

La conséquence directe de ce plongeon des prix est une augmentation spectaculaire de l'intensité du travail. Afin de conserver un salaire mensuel de deux à trois mille dollars, les annotateurs doivent continuellement et inlassablement améliorer leur vitesse.

Ce n'est pas un travail facile en col blanc. Dans de nombreux centres d'annotation, la gestion est si stricte que c'est étouffant; les employés ne sont pas autorisés à répondre aux appels téléphoniques pendant le travail, et les téléphones portables doivent être verrouillés dans des compartiments de rangement. Le système enregistre méticuleusement les mouvements de souris et le temps d'inactivité de chaque employé, et s'il y a une pause de plus de trois minutes, un avertissement dorsal frappera comme un fouet.

Encore plus frustrant est le taux de tolérance. La note de passage de l'industrie est habituellement supérieure à 95 %, certaines entreprises exigeant même 98 % à 99 %. Cela signifie que si vous dessinez 100 cases et faites 2 erreurs, l'image entière sera renvoyée pour retravail.

Les images dynamiques sont constituées de cadres, les véhicules changeant de voie étant masqués, ce qui oblige les annotateurs à utiliser leur imagination pour identifier chacun d'eux ; dans les images en nuage de points 3D, tout objet ayant plus de 10 points doit être encadré. Dans un projet de place de stationnement complexe, si les files sont trop longues ou si quelque chose est manqué, l'inspection de la qualité trouvera toujours des défauts. Il est courant qu'une image soit retravaillée quatre ou cinq fois. Au final, après avoir passé une heure de travail, vous ne gagnez que quelques centimes.

Une annotatrice de la province du Hunan a publié sa déclaration de règlement sur les réseaux sociaux, montrant qu'après une journée de travail, elle a dessiné plus de 700 boîtes au tarif de 4 cents chacune, gagnant un total de 30,2 yuans.

C'est une scène extrêmement fragmentée.

D’un côté, les brillants géants de la technologie qui assistent à des conférences discutant de la manière dont l’AGI va libérer l’humanité ; de l’autre, dans les villes de comté du plateau de Loess et dans les montagnes du sud-ouest, les jeunes fixent les écrans huit à dix heures par jour, dessinant mécaniquement des boîtes, des milliers, des dizaines de milliers, et rêvant même la nuit, les doigts traçant les lignes de ruelles dans les airs.

Quelqu'un a dit un jour que la façade de l'intelligence artificielle est une voiture de luxe rugissante, mais quand vous ouvrez la porte, vous trouverez une centaine de personnes qui pédalent à vélo à l'intérieur, serrent les dents et pédalent fort.

Personne ne pense qu'il y ait quelque chose de mal à ça.

L'artisan de la pièce enseignant les machines "Comment aimer"

Après avoir franchi le goulot d'étranglement de la reconnaissance d'image, les grands modèles ont connu une évolution plus profonde, ayant besoin d'apprendre à penser, à converser, et même à faire preuve d'"empathie" comme les humains.

Cela a donné naissance à la partie la plus critique et la plus coûteuse de la formation modèle à grande échelle — RLHF (Human Feedback-based Reinforcement Learning).

En termes simples, il s'agit de faire en sorte que les gens réels obtiennent des réponses générées par l'IA, lui indiquant quelles réponses sont les meilleures, les plus alignées sur les valeurs humaines et les préférences émotionnelles.

La raison pour laquelle ChatGPT ressemble à un être humain est que derrière, il y a d'innombrables annotateurs RLHF qui l'enseignent.

Sur les plateformes de crowdsourcing, ces tâches d'annotation sont souvent clairement tarifées: un coût unitaire de 3 à 7 RMB. Les annotateurs doivent fournir des scores émotionnels extrêmement subjectifs aux réponses de l'IA pour évaluer si la réponse est « chaleureuse », « empathique » ou « compte tenu des émotions de l'utilisateur ».

Quelqu'un qui gagne seulement quelques milliers de RMB par mois, qui se débat dans la boue de la réalité, qui est à peine capable de s'occuper de ses propres émotions, est maintenant requis dans le système pour agir comme mentor émotionnel et arbitre des valeurs de l'IA.

Ils ont besoin de décomposer de force la chaleur, l'empathie et d'autres émotions humaines très complexes et subtiles en scores froids allant de 1 à 5. Si leurs scores ne correspondent pas aux bonnes réponses prédéfinies du système, leur précision sera jugée insuffisante, ce qui entraînera des retenues sur leurs maigres salaires à la pièce.

C'est une fuite cognitive. Les émotions humaines, la morale et la compassion, si complexes et nuancées, sont enfoncées de force dans l'entonnoir de l'algorithme. Dans le domaine glacé des échelles de quantification et de normalisation, ils sont vidés de leur dernier brin de chaleur. Alors que vous vous émerveillez devant le cybermastodonte à l'écran ayant appris à écrire de la poésie, à composer de la musique, à faire preuve de soin et même à revêtir une peau de sensibilité mélancolique; hors écran, ce groupe d'humains autrefois vivants a, par des jugements mécaniques quotidiens, régressé en machines à marquer sans émotions.

C'est le côté le plus secret de toute la chaîne de l'industrie, n'apparaissant jamais dans les nouvelles de financement ou les livres blancs technologiques.

Personne ne pense qu'il y ait quelque chose de mal à ça.

985 Titulaire d'une maîtrise vs. Jeunes des petites villes

Le travail de chaîne de montage de bas niveau est écrasé par les bandes de roulement de l'IA, ce qui provoque la propagation de ce tapis roulant cybernétique vers le haut, commençant à engloutir le travail cérébral d'ordre supérieur.

L'appétit des grands modèles a changé. Ne se contentant plus de croquer le bon sens de base, ils nécessitent désormais une expertise humaine dévorante et une logique avancée.

Sur diverses grandes plateformes de recrutement, un nouveau type d'emploi à temps partiel a commencé à apparaître fréquemment, comme "Annotation de raisonnement logique grand modèle" et "Formateur en sciences humaines IA." Cet emploi à temps partiel a un seuil extrêmement élevé, exigeant souvent une « maîtrise ou plus des universités du Projet 985/Projet 211 » et impliquant des domaines professionnels tels que le droit, la médecine, la philosophie et la littérature.

De nombreux étudiants diplômés d'universités prestigieuses sont attirés par les groupes d'externalisation de ces géants de la technologie et s'y joignent. Cependant, ils réalisent rapidement qu'il ne s'agit pas d'un exercice mental facile mais plutôt d'une forme de torture mentale.

Avant d'entreprendre officiellement des tâches, ils doivent lire des douzaines de pages de documents sur les dimensions de notation et les critères d'évaluation, et subir deux à trois séries d'annotations d'essai. Une fois qu'ils ont satisfait aux normes, lors de l'annotation formelle, si leur précision tombe en dessous du niveau moyen, ils perdront leur qualification et seront expulsés du chat de groupe.

Le plus suffocant est que ces normes ne sont pas fixes du tout. Face à des questions et des réponses similaires, les noter avec le même processus de réflexion peut donner des résultats complètement opposés. C'est comme travailler sur un examen sans fin sans réponse standard. La précision ne peut être améliorée par l'effort personnel ou l'étude; on ne peut que tourner en place à l'infini, épuisant l'énergie mentale et physique.

C’est la nouvelle forme d’exploitation à l’ère des grands modèles – le pliage de classe.

Le savoir, autrefois considéré comme une échelle dorée pour briser les barrières et grimper, est maintenant devenu une chair numérique plus complexe offerte aux algorithmes pour mâcher. Face à la puissance absolue des algorithmes et des systèmes, les étudiants en master des universités d'élite dans leurs tours d'ivoire et les jeunes des petites villes du plateau de Loess se sont engagés dans la voie de convergence la plus bizarre.

Ensemble, ils dégringolent dans ce puits de cyber-exploitation sans fond, débarrassés de leurs auréoles, effaçant les différences, le tout transformé en engrenages bon marché sur le tapis roulant qui peuvent être remplacés à tout moment.

C'est pareil à l'étranger. En 2024, Apple a directement licencié une équipe d'annotation vocale de 121 membres de l'IA à San Diego. Ces employés étaient chargés d'améliorer les capacités de traitement multilingue de Siri. Ils pensaient autrefois se trouver au cœur de l'activité d'un géant de la technologie, pour plonger instantanément dans les abysses du chômage.

Aux yeux des géants de la technologie, qu'il s'agisse d'une dame d'âge mûr gérant une épicerie dans un petit comté ou d'une formatrice logique ayant fait des études prestigieuses, fondamentalement, ce sont tous des "consommables" qui peuvent être remplacés à tout moment.

Personne ne pense qu'il y a quelque chose de mal à cela.

Une tour de Babel de mille milliards de dollars, construite avec quelques cents d'exploitation

Selon les données publiées par l'Institut chinois de recherche en information et communications, le marché chinois de l'annotation des données a atteint une échelle de 6,08 milliards de yuans en 2023 et devrait atteindre 20 à 30 milliards de yuans d'ici 2025. On prévoit que d'ici 2030, les ventes mondiales d'annotations de données et de services grimperont en flèche pour atteindre 117,1 milliards de yuans.

Derrière ces chiffres se cachent des géants de la technologie comme OpenAI, Microsoft et ByteDance, dont les valorisations atteignent les milliers de milliards de dollars.

Cependant, cette richesse fulgurante n'a pas été versée à ceux qui "nourrissent" réellement l'IA.

Dans l'industrie chinoise de l'étiquetage des données, une structure typique d'externalisation pyramidale inversée est évidente. Au sommet, il y a les géants de la technologie qui tiennent fermement les algorithmes de base; le deuxième niveau comprend les grands fournisseurs de services de données; le troisième niveau comprend les centres d'étiquetage de données et les petites et moyennes entreprises d'externalisation dispersées dans le pays; ce n'est qu'en bas que nous trouvons les fantassins gagnant à la pièce - les travailleurs de l'étiquetage.

Chaque couche d'externalisation prend une coupe lourde. Lorsque les grandes usines offrent un prix unitaire de 0,5 RMB, après des couches d'exploitation, ce qui se retrouve entre les mains d'un ouvrier étiqueteur dans une ville de comté peut être inférieur à 0,05 RMB.

Dans son livre "Techno-Feudalism", l'ancien ministre grec des Finances Yanis Varoufakis a mis en avant un point de vue pénétrant: les géants de la technologie d'aujourd'hui ne sont plus des capitalistes au sens traditionnel du terme mais des "Cloudalistes".

Ils ne possèdent pas d'usines et de machines mais des algorithmes, des plateformes et de la puissance de calcul, les territoires numériques de l'ère cybernétique. Dans ce nouveau système féodal, les utilisateurs ne sont pas des consommateurs mais des serfs numériques. Chaque like, commentaire et navigation sur les réseaux sociaux est une main-d’œuvre gratuite fournissant des données aux Cloudalistes.

Pendant ce temps, les travailleurs de l'étiquetage des données dans les marchés émergents sont les serfs numériques de plus bas niveau dans ce système. Ils doivent non seulement produire des données, mais aussi nettoyer, catégoriser et noter des données brutes massives, les transformant en aliments de haute qualité que les grands modèles peuvent digérer.

Il s'agit d'un mouvement secret d'enceinte cognitive. À l'instar de la façon dont les Enclosure Acts du XIXe siècle en Angleterre ont poussé les agriculteurs dans les usines textiles, la vague d'IA d'aujourd'hui pousse devant les écrans les jeunes qui ne trouvent pas leur place dans l'économie physique.

L'IA n'a pas réduit le clivage entre les classes sociales; elle a plutôt mis en place une « ceinture transporteuse de données et de sueur de sang » à partir de petits comtés du centre et de l'ouest de la Chine, directement aux sièges des géants de la technologie à Pékin, Shanghai, Canton et Shenzhen. Le récit de la révolution technologique est toujours grandiose et magnifique, mais son fondement est à jamais la consommation à grande échelle de main-d'œuvre bon marché.

Personne ne semble penser qu'il y ait quelque chose de mal à cela.

Un lendemain sans besoin d'humains

La conclusion la plus brutale approche à grands pas, de plus en plus vite.

Avec la montée en puissance des capacités des modèles à grande échelle, les tâches qui nécessitaient autrefois du travail humain jour et nuit sont en train d'être prises en charge par l'IA elle-même.

En avril 2023, Li Xiang, le fondateur d'Ideal Auto, a révélé lors d'un forum que dans le passé, Ideal avait l'habitude d'étiqueter manuellement environ 10 millions d'images de conduite autonome en un an, avec des coûts d'externalisation proches du milliard. Cependant, après avoir utilisé de grands modèles pour l'étiquetage automatisé, ce qui prenait un an à accomplir peut maintenant être fait en environ 3 heures.

L'efficacité est 1000 fois supérieure à celle des humains, et elle a été atteinte dès 2023. Rien qu'en mars dernier, Ideals a lancé le moteur d'annotation automatique MindVLA-o1 de nouvelle génération.

Un sinistre dicton d'autodérision circule dans l'industrie: "Plus il y a d'intelligence, plus c'est artificiel." Mais maintenant, il y a eu une chute de 40% à 50% de l'externalisation pour l'annotation des données par les géants de la technologie.

Ces jeunes de petites villes qui sont restés assis devant des ordinateurs pendant d'innombrables jours et nuits, les yeux injectés de sang par la tension, ont personnellement élevé un mastodonte. Et maintenant, ce mastodonte se retourne, brisant leurs bols de riz.

À la tombée de la nuit, les immeubles de bureaux du district de Pingcheng à Datong restent aussi lumineux que le jour. Les jeunes de quart échangent silencieusement leurs coquilles fatiguées dans le hall de l'ascenseur. Dans cet espace replié emprisonné par d'innombrables polygones, personne ne se soucie du saut épique de l'architecture Transformer de l'autre côté de l'océan, ni ne comprend le grondement de la puissance de calcul derrière les cent milliards de paramètres.

Leur regard est soudé à la barre de progression rouge/verte de l'arrière-scène représentant la « ligne de passage », calculant si les maigres numéros de pièces peuvent rapiécer une vie décente d'ici la fin du mois.

D'un côté, la cloche de clôture du Nasdaq et la couverture continue par les médias technologiques font lever les verres des géants pour célébrer l'avènement d'AGI; de l'autre, ces serfs numériques qui ont nourri l'IA avec leur chair et leur sang ne peuvent qu'attendre nerveusement, au milieu d'un sommeil douloureux, que le mastodonte qu'ils ont levé de leurs propres mains jette nonchalamment leurs bols de riz un matin ordinaire.

Personne ne pense qu'il y ait quelque chose de mal à ça.

Vous pourriez aussi aimer

Rapport du matin | Coinbase Ventures réalise son premier investissement dans ENA ; SpaceX prévoit de fixer le prix de son introduction en bourse à 135 $ par action

Aperçu des événements importants du marché le 3 juin

Texte intégral et analyse du discours du PDG de SanDisk lors de la 42e conférence annuelle sur les décisions stratégiques de Bernstein

La valeur fondamentale du discours de Goeckeler réside dans la fourniture d'un cadre narratif très transparent et logiquement clair pour la transformation de l'entreprise.

Prévision du prix du Bitcoin pour 2030 : Ark Invest anticipe 710 000 $

Découvrez les prévisions de prix du bitcoin pour 2030 d'Ark Invest et de Standard Chartered, ainsi que les risques clés et comment positionner votre portefeuille. Analyse complète sur WEEX.

Prix du SOL aujourd'hui : cours en direct de Solana, graphiques et données de marché

Découvrez le prix du SOL aujourd'hui avec des données en temps réel, ainsi que les facteurs clés influençant le mouvement de Solana et des conseils de trading exploitables. Lisez l'analyse complète sur WEEX.

Rapport du matin | Strategy a vendu 32 BTC et plus de 800 000 actions MSTR la semaine dernière ; Binance a officiellement annoncé son portail de trading d'actions américaines ; Polymarket a conclu un partenariat exclusif avec OneFootball

Aperçu des événements importants du marché au 1er juin

Bootcamp de trading WEEXPERIENCE en Pologne : comment WEEX et FireCrew rendent le trading crypto accessible à tous

WEEX s'est associé à Firecrew en Pologne le 29 mai pour le bootcamp de trading WEEXPERIENCE. Découvrez le compte-rendu des sessions d'experts sur l'analyse technique, la psychologie du trading et les outils d'IA qui prouvent la mission de WEEX : rendre le trading crypto accessible à tous.

Le sacre de Paris : comment le PSG a brisé le rêve d'Arsenal lors d'une finale de Ligue des champions historique

PSG contre Arsenal, drame, destin et une malédiction de 20 ans enfin brisée. Revivez la finale de la Ligue des champions 2026 où le PSG a défendu son titre lors d'une séance de tirs au but sous haute tension, alors que le moment de gloire d'Ousmane Dembélé et un raté déchirant ont marqué l'histoire à Budapest.

TaiJi finalise un financement stratégique de 3,5 millions de dollars, avec la participation de Castrum Capital, Becker Ventures et Coinvestor Ventures

La plateforme d'intelligence de marché on-chain Web3 pilotée par l'IA, TaiJi, a annoncé la clôture d'un financement stratégique de 3,5 millions de dollars, qui accélérera la construction d'un nouveau moteur de simulation de marché par IA.

Bitcoin stagne près de 73 000 $ ? Comment les traders trouvent des opportunités dans un marché latéral en juin

Le Bitcoin stagne près de 73 000 $ alors que les flux des ETF ralentissent et que l'incertitude macroéconomique rend les traders prudents. Découvrez comment des campagnes de récompenses comme la WEEX Joker Party aident les traders à rester actifs durant ce marché latéral de juin.

Comment staker Solana : un guide étape par étape pour 2026

Découvrez les meilleures cryptomonnaies IA de 2026 grâce à des sélections basées sur les données : Bittensor, Render et des projets émergents. Métriques on-chain, risques et guide de trading WEEX inclus.

Le prix garanti est désormais disponible sur WEEX : exécutez vos ordres avec une plus grande précision

Pour offrir une expérience de trading de contrats à terme plus fluide, WEEX futures a lancé une fonctionnalité de « Prix garanti ».

Dernières recherches de la BRI : L'avenir des stablecoins et le paysage monétaire mondial

Le rapport estime que les stablecoins renforceront la domination du dollar américain à court terme, faisant peser des risques sur la souveraineté monétaire des marchés émergents et des économies en développement, tandis que leur trajectoire à long terme dépendra de leurs modèles d'adoption, des réponses réglementaires et de la synergie de...

Entretien avec l'expert macro Raoul Pal : La course à l'IA mène à une « singularité économique », ne lâchez pas vos jetons trop facilement au cours des quatre prochaines années

Par rapport au Nasdaq, le Bitcoin se trouve actuellement dans une position de survente sévère au sein de sa tendance à long terme.

Pourquoi Peter Thiel, l'homme derrière Palantir, prépare-t-il une sortie en Argentine ?

Palantir, risque politique et autopréservation des oligarques technologiques.

La crise de la quarantaine des GP Crypto : sans PMF, pas de nouveau chèque des LP

Après avoir perdu la grandeur des étoiles et de la mer, la plupart des GP Crypto qui n'ont pas réussi à générer des rendements excédentaires lors de ce cycle doivent lancer de manière pragmatique un produit avec un PMF, soit en prouvant leur capacité à aider les LP à obtenir des rendements excédentaires sur un marché de niche, soit en résolvant des problèmes spécifiques pour les LP/partenaires...

Rapport du matin | Coinbase Ventures réalise son premier investissement dans ENA ; SpaceX prévoit de fixer le prix de son introduction en bourse à 135 $ par action

Aperçu des événements importants du marché le 3 juin

Texte intégral et analyse du discours du PDG de SanDisk lors de la 42e conférence annuelle sur les décisions stratégiques de Bernstein

La valeur fondamentale du discours de Goeckeler réside dans la fourniture d'un cadre narratif très transparent et logiquement clair pour la transformation de l'entreprise.