Les jeunes de la petite ville étiquetant de grands modèles d'IA

By: blockbeats|2026/04/07 13:08:19
0
Partager
copy
Auteur | Sleepy.md

À Datong, dans le Shanxi, une ville qui était autrefois soutenue par le charbon et qui s'est maintenant débarrassée de la poussière de charbon, une pioche tranchante a remplacé les mines de charbon, se dirigeant vers une autre mine invisible.

À l'intérieur de l'immeuble de bureaux du Centre international Jinmao, dans le district de Pingcheng, il n'y a plus de puits de mine ni de camions à charbon. Au lieu de cela, il existe des milliers de postes de travail informatiques étroitement disposés. Shanghai Runxun Cloud Sonic Valley Big Data Smart Service Center occupe plusieurs étages, avec des milliers de jeunes employés portant des écouteurs, fixant les écrans, cliquant, faisant glisser et sélectionnant.

Selon les données officielles, en novembre 2025, la ville de Datong a mis en service 745 000 serveurs, introduit 69 entreprises d'étiquetage de données d'appel, conduit plus de 30 000 personnes à l'emploi, pour une valeur de production de 750 millions de yuans. Dans cette mine numérique, 94% des pratiquants sont des locaux.

Il n'y a pas que Datong. Dans le premier lot de bases d'étiquetage des données identifiées par le Bureau national des statistiques, des comtés de la région occidentale tels que le comté de Yonghe dans le Shanxi, Bijie dans le Guizhou et Mengzi dans le Yunnan sont répertoriés. Dans la base d'étiquetage des données du comté de Yonghe, 80 % des employés sont des femmes. La plupart sont des mères au foyer rurales ou des jeunes ruraux qui ne trouvent pas d'emploi convenable.

Il y a cent ans, les usines textiles de Manchester au Royaume-Uni étaient bondées d'agriculteurs sans terre. Aujourd'hui, dans les écrans d'ordinateur de ces villes de comté reculées, des jeunes qui ne trouvent pas leur place dans l'économie réelle sont assis devant eux.

Ils sont engagés dans un travail futuriste mais extrêmement primitif à la pièce, produisant le flux de données nécessaire pour les géants de l'IA à Pékin, Shenzhen et Silicon Valley.

Personne n'y voit de problème.

Une nouvelle chaîne de montage sur le plateau de Loess

L'essence de l'étiquetage des données est d'enseigner aux machines sur le monde.

La conduite autonome doit reconnaître les feux de circulation et les piétons, et les grands modèles doivent distinguer les chats des chiens. Les machines elles-mêmes n'ont pas de bon sens et doivent demander à un humain de dessiner une boîte sur l'image pour lui dire "c'est un piéton" avant de pouvoir apprendre à le reconnaître après avoir digéré des millions d'images.

Ce métier ne nécessite pas un niveau d'éducation élevé, seulement de la patience, et un doigt qui peut cliquer sans cesse.

Pendant l’âge d’or de 2017, une simple boîte 2D pouvait coûter plus d’un centime, et certaines entreprises proposaient même un prix élevé d’un demi-yuan. Un étiqueteur à clic rapide pouvait gagner cinq à six cents yuans en travaillant dix heures par jour. Dans la ville de comté, c'est certainement considéré comme un travail bien payé et décent.

Mais avec l'évolution des grands modèles, la dure réalité de ce pipeline a commencé à émerger.

En 2023, le prix unitaire de la simple annotation d'image avait été ramené à 3 à 4 centimes, soit une baisse de plus de 90%. Même pour les images de nuages de points 3D plus difficiles, où les points sont si denses que les bords nécessitent un zoom important pour être discernés, les annotateurs doivent dessiner méticuleusement une boîte tridimensionnelle dans l'espace qui englobe la longueur, la largeur, la hauteur et l'angle d'orientation pour s'enrouler parfaitement autour d'un véhicule ou d'un piéton. Cependant, le prix pour un boîtier 3D aussi complexe n'est que de 5 centimes.

Les jeunes de la petite ville étiquetant de grands modèles d'IA

La conséquence directe de ce plongeon des prix est une augmentation spectaculaire de l'intensité du travail. Afin de conserver un salaire mensuel de deux à trois mille dollars, les annotateurs doivent continuellement et inlassablement améliorer leur vitesse.

Ce n'est pas un travail facile en col blanc. Dans de nombreux centres d'annotation, la gestion est si stricte que c'est étouffant; les employés ne sont pas autorisés à répondre aux appels téléphoniques pendant le travail, et les téléphones portables doivent être verrouillés dans des compartiments de rangement. Le système enregistre méticuleusement les mouvements de souris et le temps d'inactivité de chaque employé, et s'il y a une pause de plus de trois minutes, un avertissement dorsal frappera comme un fouet.

Encore plus frustrant est le taux de tolérance. La note de passage de l'industrie est habituellement supérieure à 95 %, certaines entreprises exigeant même 98 % à 99 %. Cela signifie que si vous dessinez 100 cases et faites 2 erreurs, l'image entière sera renvoyée pour retravail.

Les images dynamiques sont constituées de cadres, les véhicules changeant de voie étant masqués, ce qui oblige les annotateurs à utiliser leur imagination pour identifier chacun d'eux ; dans les images en nuage de points 3D, tout objet ayant plus de 10 points doit être encadré. Dans un projet de place de stationnement complexe, si les files sont trop longues ou si quelque chose est manqué, l'inspection de la qualité trouvera toujours des défauts. Il est courant qu'une image soit retravaillée quatre ou cinq fois. Au final, après avoir passé une heure de travail, vous ne gagnez que quelques centimes.

Une annotatrice de la province du Hunan a publié sa déclaration de règlement sur les réseaux sociaux, montrant qu'après une journée de travail, elle a dessiné plus de 700 boîtes au tarif de 4 cents chacune, gagnant un total de 30,2 yuans.

C'est une scène extrêmement fragmentée.

D’un côté, les brillants géants de la technologie qui assistent à des conférences discutant de la manière dont l’AGI va libérer l’humanité ; de l’autre, dans les villes de comté du plateau de Loess et dans les montagnes du sud-ouest, les jeunes fixent les écrans huit à dix heures par jour, dessinant mécaniquement des boîtes, des milliers, des dizaines de milliers, et rêvant même la nuit, les doigts traçant les lignes de ruelles dans les airs.

Quelqu'un a dit un jour que la façade de l'intelligence artificielle est une voiture de luxe rugissante, mais quand vous ouvrez la porte, vous trouverez une centaine de personnes qui pédalent à vélo à l'intérieur, serrent les dents et pédalent fort.

Personne ne pense qu'il y ait quelque chose de mal à ça.

L'artisan de la pièce enseignant les machines "Comment aimer"

Après avoir franchi le goulot d'étranglement de la reconnaissance d'image, les grands modèles ont connu une évolution plus profonde, ayant besoin d'apprendre à penser, à converser, et même à faire preuve d'"empathie" comme les humains.

Cela a donné naissance à la partie la plus critique et la plus coûteuse de la formation modèle à grande échelle — RLHF (Human Feedback-based Reinforcement Learning).

En termes simples, il s'agit de faire en sorte que les gens réels obtiennent des réponses générées par l'IA, lui indiquant quelles réponses sont les meilleures, les plus alignées sur les valeurs humaines et les préférences émotionnelles.

La raison pour laquelle ChatGPT ressemble à un être humain est que derrière, il y a d'innombrables annotateurs RLHF qui l'enseignent.

Sur les plateformes de crowdsourcing, ces tâches d'annotation sont souvent clairement tarifées: un coût unitaire de 3 à 7 RMB. Les annotateurs doivent fournir des scores émotionnels extrêmement subjectifs aux réponses de l'IA pour évaluer si la réponse est « chaleureuse », « empathique » ou « compte tenu des émotions de l'utilisateur ».

Quelqu'un qui gagne seulement quelques milliers de RMB par mois, qui se débat dans la boue de la réalité, qui est à peine capable de s'occuper de ses propres émotions, est maintenant requis dans le système pour agir comme mentor émotionnel et arbitre des valeurs de l'IA.

Ils ont besoin de décomposer de force la chaleur, l'empathie et d'autres émotions humaines très complexes et subtiles en scores froids allant de 1 à 5. Si leurs scores ne correspondent pas aux bonnes réponses prédéfinies du système, leur précision sera jugée insuffisante, ce qui entraînera des retenues sur leurs maigres salaires à la pièce.

C'est une fuite cognitive. Les émotions humaines, la morale et la compassion, si complexes et nuancées, sont enfoncées de force dans l'entonnoir de l'algorithme. Dans le domaine glacé des échelles de quantification et de normalisation, ils sont vidés de leur dernier brin de chaleur. Alors que vous vous émerveillez devant le cybermastodonte à l'écran ayant appris à écrire de la poésie, à composer de la musique, à faire preuve de soin et même à revêtir une peau de sensibilité mélancolique; hors écran, ce groupe d'humains autrefois vivants a, par des jugements mécaniques quotidiens, régressé en machines à marquer sans émotions.

C'est le côté le plus secret de toute la chaîne de l'industrie, n'apparaissant jamais dans les nouvelles de financement ou les livres blancs technologiques.

Personne ne pense qu'il y ait quelque chose de mal à ça.

985 Titulaire d'une maîtrise vs. Jeunes des petites villes

Le travail de chaîne de montage de bas niveau est écrasé par les bandes de roulement de l'IA, ce qui provoque la propagation de ce tapis roulant cybernétique vers le haut, commençant à engloutir le travail cérébral d'ordre supérieur.

L'appétit des grands modèles a changé. Ne se contentant plus de croquer le bon sens de base, ils nécessitent désormais une expertise humaine dévorante et une logique avancée.

Sur diverses grandes plateformes de recrutement, un nouveau type d'emploi à temps partiel a commencé à apparaître fréquemment, comme "Annotation de raisonnement logique grand modèle" et "Formateur en sciences humaines IA." Cet emploi à temps partiel a un seuil extrêmement élevé, exigeant souvent une « maîtrise ou plus des universités du Projet 985/Projet 211 » et impliquant des domaines professionnels tels que le droit, la médecine, la philosophie et la littérature.

De nombreux étudiants diplômés d'universités prestigieuses sont attirés par les groupes d'externalisation de ces géants de la technologie et s'y joignent. Cependant, ils réalisent rapidement qu'il ne s'agit pas d'un exercice mental facile mais plutôt d'une forme de torture mentale.

Avant d'entreprendre officiellement des tâches, ils doivent lire des douzaines de pages de documents sur les dimensions de notation et les critères d'évaluation, et subir deux à trois séries d'annotations d'essai. Une fois qu'ils ont satisfait aux normes, lors de l'annotation formelle, si leur précision tombe en dessous du niveau moyen, ils perdront leur qualification et seront expulsés du chat de groupe.

Le plus suffocant est que ces normes ne sont pas fixes du tout. Face à des questions et des réponses similaires, les noter avec le même processus de réflexion peut donner des résultats complètement opposés. C'est comme travailler sur un examen sans fin sans réponse standard. La précision ne peut être améliorée par l'effort personnel ou l'étude; on ne peut que tourner en place à l'infini, épuisant l'énergie mentale et physique.

C’est la nouvelle forme d’exploitation à l’ère des grands modèles – le pliage de classe.

Le savoir, autrefois considéré comme une échelle dorée pour briser les barrières et grimper, est maintenant devenu une chair numérique plus complexe offerte aux algorithmes pour mâcher. Face à la puissance absolue des algorithmes et des systèmes, les étudiants en master des universités d'élite dans leurs tours d'ivoire et les jeunes des petites villes du plateau de Loess se sont engagés dans la voie de convergence la plus bizarre.

Ensemble, ils dégringolent dans ce puits de cyber-exploitation sans fond, débarrassés de leurs auréoles, effaçant les différences, le tout transformé en engrenages bon marché sur le tapis roulant qui peuvent être remplacés à tout moment.

C'est pareil à l'étranger. En 2024, Apple a directement licencié une équipe d'annotation vocale de 121 membres de l'IA à San Diego. Ces employés étaient chargés d'améliorer les capacités de traitement multilingue de Siri. Ils pensaient autrefois se trouver au cœur de l'activité d'un géant de la technologie, pour plonger instantanément dans les abysses du chômage.

Aux yeux des géants de la technologie, qu'il s'agisse d'une dame d'âge mûr gérant une épicerie dans un petit comté ou d'une formatrice logique ayant fait des études prestigieuses, fondamentalement, ce sont tous des "consommables" qui peuvent être remplacés à tout moment.

Personne ne pense qu'il y a quelque chose de mal à cela.

Prix de --

--

Une tour de Babel de mille milliards de dollars, construite avec quelques cents d'exploitation

Selon les données publiées par l'Institut chinois de recherche en information et communications, le marché chinois de l'annotation des données a atteint une échelle de 6,08 milliards de yuans en 2023 et devrait atteindre 20 à 30 milliards de yuans d'ici 2025. On prévoit que d'ici 2030, les ventes mondiales d'annotations de données et de services grimperont en flèche pour atteindre 117,1 milliards de yuans.

Derrière ces chiffres se cachent des géants de la technologie comme OpenAI, Microsoft et ByteDance, dont les valorisations atteignent les milliers de milliards de dollars.

Cependant, cette richesse fulgurante n'a pas été versée à ceux qui "nourrissent" réellement l'IA.

Dans l'industrie chinoise de l'étiquetage des données, une structure typique d'externalisation pyramidale inversée est évidente. Au sommet, il y a les géants de la technologie qui tiennent fermement les algorithmes de base; le deuxième niveau comprend les grands fournisseurs de services de données; le troisième niveau comprend les centres d'étiquetage de données et les petites et moyennes entreprises d'externalisation dispersées dans le pays; ce n'est qu'en bas que nous trouvons les fantassins gagnant à la pièce - les travailleurs de l'étiquetage.

Chaque couche d'externalisation prend une coupe lourde. Lorsque les grandes usines offrent un prix unitaire de 0,5 RMB, après des couches d'exploitation, ce qui se retrouve entre les mains d'un ouvrier étiqueteur dans une ville de comté peut être inférieur à 0,05 RMB.

Dans son livre "Techno-Feudalism", l'ancien ministre grec des Finances Yanis Varoufakis a mis en avant un point de vue pénétrant: les géants de la technologie d'aujourd'hui ne sont plus des capitalistes au sens traditionnel du terme mais des "Cloudalistes".

Ils ne possèdent pas d'usines et de machines mais des algorithmes, des plateformes et de la puissance de calcul, les territoires numériques de l'ère cybernétique. Dans ce nouveau système féodal, les utilisateurs ne sont pas des consommateurs mais des serfs numériques. Chaque like, commentaire et navigation sur les réseaux sociaux est une main-d’œuvre gratuite fournissant des données aux Cloudalistes.

Pendant ce temps, les travailleurs de l'étiquetage des données dans les marchés émergents sont les serfs numériques de plus bas niveau dans ce système. Ils doivent non seulement produire des données, mais aussi nettoyer, catégoriser et noter des données brutes massives, les transformant en aliments de haute qualité que les grands modèles peuvent digérer.

Il s'agit d'un mouvement secret d'enceinte cognitive. À l'instar de la façon dont les Enclosure Acts du XIXe siècle en Angleterre ont poussé les agriculteurs dans les usines textiles, la vague d'IA d'aujourd'hui pousse devant les écrans les jeunes qui ne trouvent pas leur place dans l'économie physique.

L'IA n'a pas réduit le clivage entre les classes sociales; elle a plutôt mis en place une « ceinture transporteuse de données et de sueur de sang » à partir de petits comtés du centre et de l'ouest de la Chine, directement aux sièges des géants de la technologie à Pékin, Shanghai, Canton et Shenzhen. Le récit de la révolution technologique est toujours grandiose et magnifique, mais son fondement est à jamais la consommation à grande échelle de main-d'œuvre bon marché.

Personne ne semble penser qu'il y ait quelque chose de mal à cela.

Un lendemain sans besoin d'humains

La conclusion la plus brutale approche à grands pas, de plus en plus vite.

Avec la montée en puissance des capacités des modèles à grande échelle, les tâches qui nécessitaient autrefois du travail humain jour et nuit sont en train d'être prises en charge par l'IA elle-même.

En avril 2023, Li Xiang, le fondateur d'Ideal Auto, a révélé lors d'un forum que dans le passé, Ideal avait l'habitude d'étiqueter manuellement environ 10 millions d'images de conduite autonome en un an, avec des coûts d'externalisation proches du milliard. Cependant, après avoir utilisé de grands modèles pour l'étiquetage automatisé, ce qui prenait un an à accomplir peut maintenant être fait en environ 3 heures.

L'efficacité est 1000 fois supérieure à celle des humains, et elle a été atteinte dès 2023. Rien qu'en mars dernier, Ideals a lancé le moteur d'annotation automatique MindVLA-o1 de nouvelle génération.

Un sinistre dicton d'autodérision circule dans l'industrie: "Plus il y a d'intelligence, plus c'est artificiel." Mais maintenant, il y a eu une chute de 40% à 50% de l'externalisation pour l'annotation des données par les géants de la technologie.

Ces jeunes de petites villes qui sont restés assis devant des ordinateurs pendant d'innombrables jours et nuits, les yeux injectés de sang par la tension, ont personnellement élevé un mastodonte. Et maintenant, ce mastodonte se retourne, brisant leurs bols de riz.

À la tombée de la nuit, les immeubles de bureaux du district de Pingcheng à Datong restent aussi lumineux que le jour. Les jeunes de quart échangent silencieusement leurs coquilles fatiguées dans le hall de l'ascenseur. Dans cet espace replié emprisonné par d'innombrables polygones, personne ne se soucie du saut épique de l'architecture Transformer de l'autre côté de l'océan, ni ne comprend le grondement de la puissance de calcul derrière les cent milliards de paramètres.

Leur regard est soudé à la barre de progression rouge/verte de l'arrière-scène représentant la « ligne de passage », calculant si les maigres numéros de pièces peuvent rapiécer une vie décente d'ici la fin du mois.

D'un côté, la cloche de clôture du Nasdaq et la couverture continue par les médias technologiques font lever les verres des géants pour célébrer l'avènement d'AGI; de l'autre, ces serfs numériques qui ont nourri l'IA avec leur chair et leur sang ne peuvent qu'attendre nerveusement, au milieu d'un sommeil douloureux, que le mastodonte qu'ils ont levé de leurs propres mains jette nonchalamment leurs bols de riz un matin ordinaire.

Personne ne pense qu'il y ait quelque chose de mal à ça.

Vous pourriez aussi aimer

Comment une guerre entre les États-Unis et l'Iran pourrait influencer les cours du pétrole et du bitcoin (dernière analyse)

Le déclenchement de la guerre entre les États-Unis et l'Iran, le 28 février 2026, a offert un terrain d'expérimentation en temps réel sans précédent pour comprendre comment les chocs pétroliers géopolitiques interagissent avec un marché des cryptomonnaies de plus en plus institutionnalisé. Cet article examine la relation entre les prix du pétrole brut et le Bitcoin tout au long du conflit, en analysant les fluctuations des prix, les schémas de corrélation et les mécanismes de transmission sous-jacents.

OpenAI veut écrire ses propres règles | ReWire News Brief

Le capital doit composer son propre mantra pour la nation

Sorties de Chaos Labs, qui prendra le risque d'Aave ?

Quand la gestion des risques sort, le pied de sécurité de DeFi est réévalué

Une guerre financière dissimulée ? L'Iran perçoit les droits de passage dans le détroit en stablecoin

C'est la première fois qu'un État souverain intègre un stablecoin dans son infrastructure stratégique de paiement.

OpenAlice : Une personne, c'est un aperçu du projet Jane Street

Équipe quantique alimentée par l'IA, fonctionnant 24/7 avec un agent de trading local

Rapport du matin | Stratégie a augmenté ses avoirs de 4 871 BTC la semaine dernière ; Toss prévoit de développer sa propre blockchain et d'émettre une cryptomonnaie native ; le directeur financier d'OpenAI a mis en doute en privé le calendrier de l'introd

Aperçu des événements importants du marché du 6 avril

Cryptos populaires

Dernières actus crypto

Lire plus