سه سال بعد: نگاهی به قضاوتهای من درباره ChatGPT در سال ۲۰۲۳
نویسنده: وانگ جیانشو
در ۶ مارس ۲۰۲۳، اندکی پس از انتشار ChatGPT و پیش از عرضه GPT-4، سارا و من مصاحبهای درباره ChatGPT انجام دادیم؛ سومین قسمت از «سری زبان ساده» در Traders' Talk (پادکست مربوط به ChatGPT منتشر شده است، از شنیدن آن استقبال میکنیم).
در آن زمان، ChatGPT تازه عرضه شده بود و افراد بسیار کمی واقعاً از آن استفاده کرده بودند. این مصاحبه سه ساعته بعداً در ردهبندی ChatGPT در Xiaoyuzhou رتبه اول را کسب کرد. من تنها با تکیه بر شهود و اطلاعات محدود، بدون دادههای کافی، حدود بیست قضاوت و پیشبینی را یکجا مطرح کردم. متن کامل و دقیق آن مصاحبه همچنان در حساب عمومی موجود است.
اکنون اواخر مه ۲۰۲۶ است، سه سال گذشته و هوش مصنوعی به شیوههایی توسعه یافته که در آن زمان غیرقابل تصور بود.
من میخواهم یک کار انجام دهم: آن بیست قضاوت گذشته را بردارم و با استفاده از جدیدترین دادههای موجود امروز، آنها را به طور عینی بازبینی کنم. تا به وضوح ببینم جهان در این سه سال به چه چیزی تبدیل شده و همچنین بفهمم که وانگ جیانشوی سه سال پیش کجا درست میگفت و کجا اشتباه کرده بود.
برای پرهیز از سوگیری، این بازبینی را به هوش مصنوعی سپردم: متن دقیق مصاحبه را به یک گردش کار دادم که ۴۱ عامل (Agent) Opus 4.8 را برای بررسی تکتک بیست قضاوت اعزام کرد. سپس هر کدام به جستجوی آنلاین برای جدیدترین دادهها پرداختند، آنها را یک به یک متقاطعسنجی کردند و در نهایت به وانگ جیانشوی سه سال پیش امتیاز دادند. این گروه از عاملها حدود ۲۰ دقیقه زمان صرف کردند و ۱.۴ میلیون توکن (تقریباً ۳۵ دلار) مصرف کردند تا گزارش زیر را تولید کنند. قضاوتها همگی از سوی آنهاست، نه من. تاریخ معیار برای این گزارش، مه ۲۰۲۶ تعیین شده است.
۱. جدول امتیازات
نمادهای قضاوت: ✅ صحیح · 🟢 اساساً صحیح · 🟡 تا حدی صحیح · ❌ نادرست
در یک نگاه، اکثر جهتگیریهای کلی وانگ جیانشو در آن زمان درست از آب درآمدند و تنها یک خطای فاحش وجود داشت: اشتباه در مورد پارامترهای GPT-4 که ۱۰۰ تریلیون تصور شده بود. اما شیطان در جزئیات نهفته است: تقریباً هر قضاوت «صحیح»، دنبالهای دارد که در آن زمان به دقت بیان نشده بود. هیچکدام از بیست قضاوت در وضعیت «هنوز نامشخص» باقی نماندند؛ سه سال زمان کافی است تا اکثر مسائل به سمت یک پاسخ متمایل شوند. در ادامه، دستهبندیهای دقیق آمده است.
۲. قضاوتهای صحیح
وجه اشتراک این گروه این است که قضاوتهای وانگ جیانشو در مورد جهت، مکانیسمها و حتی زمانبندی عمدتاً دقیق بود و خطاها تنها در «درجه» و «لحن مطلق» بود.
معماری RAG و بازیابی (قضاوتهای ۲ و ۳)
در سال ۲۰۲۳، وانگ جیانشو گفت: روش اصلی برای حل مشکل دانش و توهمات، تغییر مدل نیست، بلکه تزریق دانش از طریق بازیابی برداری به عنوان «یادداشتهای تقلب» است؛ معماری صحیح این است که موتورهای جستجو بازیابی را انجام دهند و نتایج را به مدلهای زبانی بزرگ (LLM) تغذیه کنند.
این استاندارد واقعی برای تمام محصولات هوش مصنوعی امروز است. RAG به معماری پیشفرض برای هوش مصنوعی سازمانی تبدیل شده و OpenAI، گوگل و Anthropic آن را به یک قابلیت در سطح پلتفرم تبدیل کردهاند؛ ChatGPT Search دقیقاً به معنای «ابتدا استفاده از بینگ برای بازیابی نمایهسازی، تغذیه نتایج به GPT و سپس تولید پاسخ با استناد» است. Google AI Overviews با استفاده از این روش به حدود ۲ میلیارد کاربر فعال ماهانه دست یافت و Perplexity، شرکتی که صرفاً بر این معماری تکیه دارد، ارزشی حدود ۲۰ میلیارد دلار دارد.
زمانی که GPT-4 هنوز منتشر نشده بود و صنعت به طور پیشفرض به دنبال «تزریق دانش از طریق تنظیم دقیق (Fine-tuning)» بود، او پیشبینی کرد که «تغییر پارامترهای مدل نه، بلکه استفاده از بازیابی خارجی» راهکار درست است و هم مکانیسم و هم زمانبندی آن صحیح بود.
باید صادقانه اشاره کرد که او «بازیابی ایستا و یکباره» را تصور میکرد، در حالی که واقعیت پیچیدهتر است؛ متنهای طولانی (Long Context)، GraphRAG و بازیابی عاملی (Agentic Retrieval) همگی برای تقویت آن آمدهاند. بحث سال ۲۰۲۶ مبنی بر اینکه «RAG مرده است» دقیقاً ثابت میکند که جهت کلی نمرده است؛ این بحث تنها «بازیابی ساده و یکباره» را رد کرد و به این نتیجه رسید که این روش به بازیابی ترکیبی ارتقا یافته است، نه اینکه به تغییر پارامترهای مدل بازگردد. یک نکته دیگر: اصطلاح RAG در مقاله سال ۲۰۲۰ متا پیشنهاد شد و ایده اصلی او نبود؛ او فقط به درستی پیشبینی کرد که در آن بازه زمانی به جریان اصلی تبدیل میشود.
LUI یک مرز جدید است (قضاوت ۷)
در سال ۲۰۲۳، وانگ جیانشو گفت: بزرگترین جنبه ChatGPT نه AIGC، بلکه گشودن درهای LUI (رابط کاربری زبان طبیعی) است که تعامل انسان و کامپیوتر را مانند GUI در گذشته بازسازی خواهد کرد و صنعتی بسیار بزرگتر از خودِ «ساخت مدلهای بزرگ» ایجاد میکند.
این بخش «مرز جدید» تقریباً کاملاً دقیق بود. زبان طبیعی به لایه تعاملی غالب برای عموم تبدیل شده است (ChatGPT دارای ۹۰۰ میلیون کاربر فعال هفتگی است) و یک صنعت مستقل جدید ایجاد کرده است؛ عاملها، عاملهای کدنویسی و لایههای پروتکلی همگی محقق شدهاند. دقیقترین ادعا که «بسیار بزرگتر از ساخت مدلهاست» به شدت تأیید شده است: پروتکل MCP به «استاندارد سیستمعامل» عصر LUI تبدیل شده که تا سال ۲۰۲۵ توسط OpenAI، گوگل و مایکروسافت به طور کامل پذیرفته شد و تا پایان سال به بنیاد لینوکس منتقل گردید؛ تنها Claude Code به درآمد سالانه حدود ۲.۵ میلیارد دلار دست یافت.
با این حال، او از عبارات قوی مانند «بازسازی و جایگزینی GUI» استفاده کرد که با نگاه به سه سال بعد، بیشتر به معنای همزیستی است تا جایگزینی. سه مثال نقض جدی: گزارش MIT نشان میدهد که ۹۵ درصد پروژههای آزمایشی GenAI شرکتی هیچ بازگشت سرمایه (ROI) قابل اندازهگیری ندارند؛ عاملهای استفاده از کامپیوتر که مستقیماً رابطها را کنترل میکنند، تنها به حدود ۷۸ درصد در مجموعههای آزمایشی دست مییابند که به سختی به سطح پایه انسانی میرسد؛ سختافزارهای زبانی که کاملاً صفحهنمایش را حذف کردند، تقریباً همگی شکست خوردند (Humane Pin در سال ۲۰۲۵ برای همیشه تعطیل شد). بیانیه دقیقتر این است که LUI یک لایه تعاملی جدید است که بر روی GUI ساخته شده است.
شبکههای رباتیک و آدرسدهی جدید (قضاوت ۹)
در سال ۲۰۲۳، وانگ جیانشو گفت: در دهه آینده، «شبکههای رباتیک» ظهور خواهند کرد؛ عاملها به طور خودکار با استفاده از زبان طبیعی با یکدیگر دست داده و تماس برقرار میکنند و دیگر نیازی به APIهای سنتی نخواهند داشت؛ یک سیستم آدرسدهی دامنه کاملاً جدید متولد خواهد شد. این کار «در دو تا سه سال تکمیل میشود».
اصابت به هدف از نظر جهتگیری حیرتانگیز است. MCP و A2A (که به بنیاد لینوکس اهدا شده و توسط بیش از ۱۵۰ سازمان پشتیبانی میشود) قابلیت همکاری عاملها را حل میکنند؛ پروتکل شبکه عامل مستقیماً بر اساس DID کنسرسیوم W3C برای «آدرسدهی عاملهای معتبر غیرمتمرکز» است و هدف آن «شبکهای از میلیاردها عامل همکار» است؛ این با آنچه او به عنوان «سیستم دامنه کاملاً جدید» توصیف کرد، بسیار همریخت است.
دو اصلاح لازم است: اول، «دیگر نیازی به API نداشتن» معتبر نیست؛ ساختار زیربنایی پروتکل اصلی یک طرح ساختاریافته است که در اصل یک استاندارد را بر روی APIها لایهبندی میکند؛ دوم، «تکمیل در دو تا سه سال» محقق نشده است و دادههای گارتنر نشان میدهد که تا سال ۲۰۲۶، تنها حدود ۱۷ درصد سازمانها واقعاً عاملها را مستقر کردهاند. جالب اینجاست که او در آن زمان اظهارات خود را لایهبندی کرده بود: «نمونه اولیه در دو تا سه سال»، «بلوغ در حدود ده سال». ریتم نمونه اولیه بسیار دقیق پیشبینی شده بود و چرخه بلوغ واقعاً در مقیاس ده ساله است. وقتی جداگانه بررسی شود، کیفیت این قضاوت بالاتر از آن چیزی است که به نظر میرسد.
چین قطعاً مدلهای بزرگ قابل استفاده تولید خواهد کرد (قضاوتهای ۱۰ و ۲۰)
در سال ۲۰۲۳، وانگ جیانشو گفت: چین قطعاً قادر خواهد بود مدلهای بزرگ قابل استفاده تولید کند و شکاف با مدلهای برتر در عرض حدود سه سال به سرعت بسته خواهد شد (مشابه نحوه تعقیب نتاسکیپ توسط مرورگر هونگچی).
زمانبندی این قضاوت به طرز شگفتآوری همسو است. شاخص هوش مصنوعی استنفورد در سال ۲۰۲۶ اندازهگیری کرد که شکاف معیار بین مدلهای برتر در چین و ایالات متحده از ۱۷.۵ تا ۳۱.۶ درصد در مه ۲۰۲۳ به ۲.۷ درصد کاهش یافته است؛ در حالی که سرمایهگذاری خصوصی هوش مصنوعی در ایالات متحده حدود ۲۳ برابر چین است؛ بستن شکاف با سرمایهگذاریهای بسیار کمتر. DeepSeek، Qwen، Kimi و GLM به جریانهای اصلی جهانی تبدیل شدهاند و اکوسیستم متنباز حتی پیشرو است.
با این حال، کلمه «به سرعت» بیش از حد خوشبینانه است؛ بلوغ واقعی حدود ۱۴ ماه بعد رخ داد، نه «در چند ماه». علاوه بر این، این موضوع در مورد رسیدن به قابلیت استفاده است، نه تعریف لبه تکنولوژی: تا اوایل سال ۲۰۲۶، هیچ مدل چینی از o3 شرکت OpenAI پیشی نگرفته است. در قضاوت ۲۰، او به وضوح اشتباه کرد: ادعای اینکه «وقتی در باز شود، بسته نخواهد شد» مستقیماً توسط OpenAI با قطع دسترسی API به چین در ژوئیه ۲۰۲۴ نقض شد؛ در توسط تأمینکننده بسته شد؛ مدلی که او به عنوان پیشرو نام برد (ونشین ییان) عقب ماند، در حالی که جانشینان واقعی، DeepSeek، Doubao و Qianwen بودند که قبلاً کمتر برجسته بودند.
بدون آگاهی، آزمون تورینگ فقط ظاهر را میسنجد (قضاوت ۱۳)
در سال ۲۰۲۳، وانگ جیانشو گفت: ChatGPT آگاهی ندارد؛ این «عدم قصد گوینده و احساساتی بودن شنونده» است؛ آزمون تورینگ فقط «آیا باعث میشود فکر کنید آگاهی دارد» را میسنجد، نه اینکه آیا واقعاً دارد یا خیر.
قضاوت اصلی در مورد «سنجش ظاهر» پابرجا است و به طور طعنهآمیزی توسط یک آزمایش تأیید شد: در آزمون تورینگ سال ۲۰۲۵ در دانشگاه کالیفرنیا، سن دیگو، GPT-4.5 در ۷۳ درصد مواقع تحت دستورالعمل «ایفای نقش انسانی» به عنوان انسان قضاوت شد، حتی بالاتر از انسانهای واقعی، اما صرفاً بر مهارتهای عملکردی تکیه داشت؛ این بهترین حاشیه برای «فقط سنجش اینکه آیا باعث میشود فکر کنید آگاهی دارد» است.
باید اضافه کرد که ادعای مطلق و قوی مبنی بر اینکه «ماشینها قطعاً آگاهی ندارند» در طول سه سال گذشته به یک منطقه خاکستری رانده شده است. Anthropic یک موقعیت تحقیقاتی «رفاه مدل» ایجاد کرد که احتمال آگاهی را حدود ۱۵ تا ۲۰ درصد پیشنهاد میدهد و قابلیتی به Claude اضافه کرد تا «مکالماتی که مورد سوءاستفاده قرار میگیرند را فعالانه پایان دهد». اینها «قطعاً نه» را به «احتمال کم اما غیرممکن نیست» تبدیل کردهاند. با این حال، اینها بر اساس «ممکن است، باید فرض کرد» هستند نه «اثبات شده»، و هسته اصلی نقض نشده است؛ فقط لحن آن زمان بیش از حد قوی بود.
سایر قضاوتهای صحیح (قضاوتهای ۶، ۱۱، ۱۲، ۱۶، ۱۸، ۱۹)
- نه AGI اما یک گام بزرگ به جلو: هر دو انتها درست هستند. خود آلتمن در دوران GPT-5 بیان کرد که «این AGI نیست، یادگیری مداوم ندارد»؛ در عین حال، مدالهای طلای IMO و ARC-AGI از تقریباً صفر به ۸۵ درصد جهش کردند که «یک گام بزرگ به جلو» بودن آن غیرقابل انکار است.
- بدون موج بیکاری: در آوریل ۲۰۲۶، نرخ بیکاری ایالات متحده تنها ۴.۳ درصد بود. نقطه کور در «توزیع» است؛ تحقیقات استنفورد نشان میدهد که مشاغل از دست رفته دقیقاً مربوط به جوانان تازهوارد ۲۲ تا ۲۵ ساله در اولین سطح نردبان شغلی بود، جایی که مکانیسم «جذب نرم» شکست خورد.
- غرق نشدن در زبالههای هوش مصنوعی: جهت رفاه خالص درست است، اما او مقیاس را به شدت دستکم گرفت؛ محتوای هوش مصنوعی اکنون حدود ۵۲ درصد از صفحات وب جدید را تشکیل میدهد و «AI slop» به کلمه سال تبدیل شده است.
- سال کارآفرینی: نقطه عطف به درستی شناسایی شد، به طوری که xAI (تأسیس شده در مارس ۲۰۲۳) به ارزش ۲۳۰ میلیارد دلار رسید. با این حال، او «شرکتهای بزرگ» را به سال ۲۰۲۳ محدود کرد؛ شرکتهای تریلیون دلاری OpenAI و Anthropic بسیار زودتر تأسیس شده بودند.
- لحظه مرورگر ۱۹۹۴: رتبهبندی نسبی تأیید شد، به طوری که OpenAI در سال ۲۰۲۵ مرورگر Atlas را راهاندازی کرد و استعاره را به واقعیت تبدیل کرد. با این حال، گسترش ChatGPT حتی سریعتر از مرورگرها بود که استعاره را محافظهکارانه کرد.
- پرامپت با حقایق توهمات را کاهش میدهد: جهت تأیید شد؛ نرخ توهم GPT-5 هنگام قطع شدن از بازیابی به ۴۷ درصد رسید که تأکید میکند «حقایق» متغیر کلیدی هستند. او فقط دستکم گرفت که علت اصلی در انگیزههای آموزشی است، نه پرامپتها.
۳. قضاوتهای نادرست یا گمراهکننده
GPT-4 دارای ۱۰۰ تریلیون پارامتر است (قضاوت ۴) — کاملاً اشتباه
در سال ۲۰۲۳، وانگ جیانشو گفت: (شایعه شده) GPT-4 دارای ۱۰۰ تریلیون پارامتر است، حدود ۶۰۰ برابر بزرگتر از ۱۷۵ میلیارد پارامتر GPT-3.
هر دو عدد نادرست هستند. GPT-3 دارای ۱۷۵ میلیارد پارامتر است و بهترین تخمین درز کرده در ژوئیه ۲۰۲۳ این است که GPT-4 دارای حدود ۱.۸ تریلیون پارامتر با ۱۶ متخصص MoE است، تنها حدود ۱۰ برابر بزرگتر. تفاوت بین ۱۰۰ تریلیون و رقم واقعی حدود ۵۵ برابر است. تنها منبع برای «۱۰۰ تریلیون» یک نقلقول دستدوم از مدیرعامل Cerebras در سال ۲۰۲۱ است که سم آلتمن در ژانویه ۲۰۲۳ آن را «مزخرف کامل» خواند.
او آن را به عنوان «شایعه» علامتگذاری کرد و عدم قطعیت را حفظ کرد. در سطحی عمیقتر، چارچوب «سنجش نسلها بر اساس مضارب پارامتر» خود منسوخ شده است: مدلهای بعدی OpenAI یعنی GPT-4.5 و GPT-5 دیگر تعداد پارامترها را فاش نمیکنند. این تنها خطای فاحشی است که هم عددی است و هم از نظر دیدگاه منسوخ شده است.
ریاضیات LLM (قضاوت ۱) — تشخیص درست، نتیجهگیری اشتباه
در سال ۲۰۲۳، وانگ جیانشو گفت: ماهیت ضعیف ریاضیات LLM باعث میشود نه ممکن باشد و نه لازم که خودش ریاضیات را یاد بگیرد؛ رویکرد صحیح استفاده از ابزارهای خارجی است.
«تشخیص به علاوه مسیر ابزار» کاملاً درست است؛ علت اصلی این است که تولید توکن به توکن منجر به حملهای غیرقابل اعتماد میشود (مقاله مکانیسم در سال ۲۰۲۵ شهود «رقم آخر اغلب درست، ارقام میانی اشتباه» را دقیقاً تأیید کرد)؛ بهبود حاصل از ابزارهای خارجی نیز قابل توجه است (وقتی o4-mini اجازه استفاده از پایتون را میدهد، AIME 2025 به ۹۹.۵ درصد دست یافت).
خطا در لحن مطلق «غیرممکن، غیرضروری» نهفته است. «غیرممکن» رد شده است؛ تا ژوئیه ۲۰۲۵، مدلهای Gemini Deep Think و OpenAI با استفاده از زبان طبیعی خالص و بدون ابزار، مدالهای طلا در IMO کسب کردند. نقطه عطف کلیدی ظهور «مدلهای استدلال» در ۲۰۲۴-۲۰۲۵ بود که در مارس ۲۰۲۳ قابل پیشبینی نبود؛ بنابراین، این پیشبینی باید از نظر جهتگیری با ملایمت قضاوت شود، نه از نظر زمانبندی با سختگیری.
تصاحب ارزش (قضاوت ۸) — نیمه درست، ادعای اصلی اشتباه
در سال ۲۰۲۳، وانگ جیانشو گفت: ارزش در نهایت به لایه کاربردی خواهد رسید؛ شرکتهایی که لایه زیربنایی (سازندگان مدل) را ایجاد میکنند، لزوماً سود نخواهند برد.
پول واقعاً شروع به جریان یافتن به لایه کاربردی کرده است (Cursor در سه سال به درآمد سالانه ۲ میلیارد دلار رسید)؛ این بخش درست است. با این حال، ادعای اینکه «کسانی که در لایه زیربنایی هستند سود نمیبرند» مستقیماً توسط Nvidia رد شده است: سود خالص سال مالی ۲۰۲۶ حدود ۱۲۰ میلیارد دلار با ارزش بازار بیش از ۵ تریلیون دلار است که آن را به تنها سودآور بزرگ در کل بازار تبدیل میکند. لایه مدلی که او تلویحاً فکر میکرد برنده خواهد شد (انتظار میرود OpenAI در سال ۲۰۲۶ حدود ۱۴ میلیارد دلار ضرر کند) بیشتر شبیه چیزی است که او به عنوان «سوزاندن پول بدون سود در لایه زیربنایی» توصیف کرد.
او بین «لایه زیربنایی قدرت محاسباتی» و «لایه زیربنایی مدل» تمایزی قائل نشد و همچنین بین «درآمد» و «سود» تفاوتی نگذاشت. ارزش در سال ۲۰۲۶ به جای انتقال به لایه کاربردی، به شکلی افراطیتر از سال ۲۰۲۳ توسط لایه قدرت محاسباتی تصاحب شده است. باید توجه داشت: کسانی که پول از دست میدهند، ارائهدهندگان ابری هستند که تراشه میخرند، نه Nvidia که تراشه میفروشد؛ این دقیقاً جایی است که قیاس او از «ساختوساز بیش از حد راهآهن» نامتوازن است.
کپیرایت (قضاوت ۱۴) — ثبت درست، اجتناب از نقض اشتباه
در سال ۲۰۲۳، وانگ جیانشو گفت: محتوای تولید شده توسط هوش مصنوعی ممکن است از کپیرایت اجتناب کند (محافظت از بیان اما نه ایدهها)؛ آثار تولید شده ممکن است نه نقضکننده باشند و نه قابل ثبت.
«غیرقابل ثبت بودن» به یک واقعیت حقوقی تثبیتشده تبدیل شده است (در سال ۲۰۲۵، اداره کپیرایت ایالات متحده به وضوح اعلام کرد که «وارد کردن فقط کلمات پرامپت برای ادعای تألیف کافی نیست»). با این حال، «اجتناب از نقض» به وضوح اشتباه است: دادگاهها بارها حکم دادهاند که اگر خروجیهای هوش مصنوعی شباهت قابلتوجهی به آثار اصلی داشته باشند، همچنان نقض محسوب میشود؛ Anthropic به دلیل نقض کپیرایت ۱.۵ میلیارد دلار پرداخت کرد که بزرگترین غرامت کپیرایت در تاریخ ایالات متحده است. هوش مصنوعی از کپیرایت «اجتناب» نکرده است؛ بلکه بزرگترین هزینه تاریخ را پرداخت کرده است.
هماهنگی جهانی (قضاوت ۱۵) — مکانیسم درست، پیشبینی روند اشتباه
در سال ۲۰۲۳، وانگ جیانشو گفت: ChatGPT یک «میانگین وزنی» از نظرات انسانی انجام میدهد که میتواند با پیلههای اطلاعاتی سبک تیکتاک مقابله کند و امکان «هماهنگی جهانی» را فراهم کند.
سطح مکانیسم درست است؛ مطالعات متعدد در سال ۲۰۲۵ به طور قطعی تأیید کردند که LLMها نظرات را به سمت اکثریت سوق میدهند و اقلیتها را به طور سیستماتیک دستکم میگیرند. با این حال، سطح قضاوت اجتماعی اشتباه بود: عبارت اضافه شده «حداقل الان هزار چهره نیست» در عرض سه سال نقض شد؛ OpenAI از آوریل ۲۰۲۵ حافظه بینگفتگویی و شخصیسازی را به یک قابلیت پیشفرض تبدیل کرد، هوش مصنوعی به سرعت به سمت هزار چهره حرکت میکند. مهمتر از آن، او «میانگین وزنی» را به عنوان یک مخرج مشترک جهانی خنثی تصور میکرد، اما شواهد تجربی نشان میدهد که این یک تغییر جهتدار است که با چاپلوسی ترکیب شده و میتواند برای دستکاری فعالانه مواضع استفاده شود؛ این به «ایجاد پیلههای جدید» اشاره دارد، نه «حل قطبیسازی».
جنگهای محلی و هزینهها (قضاوت ۱۷) — کیفی کاملاً درست، کمی رد شده
در سال ۲۰۲۳، وانگ جیانشو گفت: ساخت مدلهای بزرگتر به سرعت به «جنگهای محلی» تبدیل خواهد شد، با هزینههای شناخته شده (حذف انحرافات حدود ۵۰۰ میلیون تا ۱ میلیارد دلار سقف)، و بسیاری از بازیگران وارد خواهند شد.
جهت کیفی به طرز حیرتانگیزی درست است؛ بازیگران زیادی هجوم آوردهاند، تجاریسازی سریع است و متنباز به متنبسته رسیده است، همه محقق شدهاند. با این حال، عدد سخت «سقف ۵۰۰ میلیون تا ۱ میلیارد دلار» در هر دو انتها اشتباه است: انتهای مرز به شدت دستکم گرفته شده است (سطح GPT-5 در سال ۲۰۲۶ به ۲۰۰ تا ۵۰۰ میلیون دلار در آموزش میرسد، به علاوه صدها میلیارد در مراکز داده و ۵۰ میلیارد دلار برای Stargate)؛ انتهای تکثیر بیش از حد برآورد شده است (DeepSeek هزینههای آموزش حاشیهای را به سطح میلیون دلار کاهش داده است). «هزینه» یک مدل مشابه بسته به معیارها میتواند ۲۰۰ برابر متفاوت باشد و به سادگی در محدودهای که او ارائه کرد قرار نمیگیرد.
تواناییهای نوظهور (قضاوت ۵) — جهت درست، اعداد و چارچوببندی اشتباه
در سال ۲۰۲۳، وانگ جیانشو گفت: تواناییهای جدیدی که در دادههای اصلی وجود ندارند و توسط محققان قابل توضیح نیستند، در حدود ۶۰ میلیارد پارامتر ظهور میکنند.
شهود جهتگیری معتبر است، اما دو بیانیه برقرار نیستند: اول، هیچ «آستانه ۶۰ میلیاردی» واحدی وجود ندارد؛ آستانه واقعی برای زنجیرههای تفکر حدود ۱۰۰ میلیارد است، با تواناییهای مختلف که در مقیاسهای بین ۱۳ تا ۵۴۰ میلیارد ظهور میکنند؛ دوم، «غیرقابل توضیح» توسط یک مقاله برجسته NeurIPS تا پایان سال ۲۰۲۳ به چالش کشیده شد؛ بسیاری از «جهشها» مصنوعاتی هستند که ناشی از انتخاب معیارهای ارزیابی هستند و هنگام استفاده از معیارهای پیوسته، منحنیها میتوانند صاف و پیشبینی شوند. منصفانه بگوییم، او روایت کاملاً اصلی آن زمان را تکرار میکرد؛ آنچه واقعاً قابل اصلاح است، تلقی «۶۰ میلیارد» به عنوان یک آستانه سخت و «غیرقابل توضیح» به عنوان یک نتیجهگیری کیفی است.
۴. تأملات پس از سه سال: چند قانون
پس از بازبینی هر قضاوت، با عقبنشینی، چندین قانون پنهان در بیست قضاوت وانگ جیانشو وجود دارد که ارزش توجه بیشتری نسبت به هر قضاوت واحدی دارند.
۱. جهت بسیار قابل اعتمادتر از اعداد و درجات است. در میان بیست قضاوت، آنهایی که مکانیسمها و جهتها (RAG، LUI، شبکههای رباتیک، آزمون تورینگ) را ارزیابی کردند، تقریباً همگی درست بودند؛ آنهایی که اعداد خاص یا لحن مطلق ارائه کردند (۱۰۰ تریلیون پارامتر، آستانه ۶۰ میلیارد، هزینه ۵۰۰ میلیون تا ۱ میلیارد دلار، ریاضیات «غیرممکن») تقریباً همگی اشتباه بودند. در زمینههایی که به سرعت در حال تغییر هستند، شرطبندی روی جهت و مکانیسم، به جای اعداد دقیق، حیاتی است و باید نسبت به اصطلاحات مطلق مانند «غیرممکن، قطعی، محدود، قطعاً نه» محتاط بود؛ اینها حوزههای با فرکانس بالا هستند که زمان ثابت میکند اشتباه هستند.
۲. از نظر زمانبندی، او تمایل دارد سرعت را بیش از حد و درجه را کمتر از حد برآورد کند. هر زمان که میگفت «به سرعت، تکمیل شده در دو تا سه سال»، دوره بلوغ معمولاً طولانیتر بود؛ با این حال، او سقف جهشهای قابلیتی را دستکم گرفت؛ ریاضیات میتواند از «غیرممکن» به مدال طلای IMO برسد و هزینههای مرزی میتواند به سطوحی برسد که در آن زمان غیرقابل تصور بود. به طور خلاصه: بیش از حد خوشبین در کوتاهمدت، بیش از حد محافظهکار در بلندمدت.
۳. پنهانترین خطاها مکرراً در «توزیع» رخ میدهند. جهت اشتباه نیست، بلکه فقط نگاه کردن به مقدار کل و نادیده گرفتن توزیع است. «بدون موج بیکاری» درست است، اما آسیب به شدت در میان جوانان تازهوارد متمرکز است؛ «ارزش رسیدن به لایه کاربردی» نیمه درست است، اما بین لایه قدرت محاسباتی و لایه مدل تمایزی قائل نشد. صحت کلی میتواند فجایع توزیع را بپوشاند؛ این مهمترین درسی است که باید آموخت.
۴. اظهاراتی که فضای تفسیر باقی گذاشتند، آزمون زمان را پس از سه سال پشت سر گذاشتند. «شایعه شده»، «حداقل الان نه»، «بسیار کاهش یافته به جای حذف»، «نمونه اولیه در دو تا سه سال، بلوغ در حدود ده سال»؛ هر قضاوتی که در آن زمان با قید یا لایهبندی انجام شد، امروز در بازتاب بهتر حفظ شده است. در مقابل، اظهارات مطلق که بدون فکر بیان شدند، به احتمال زیاد شکست میخورند. صداقت پیشبینیها تا حدی در شجاعت سخن گفتن و تا حدی در شجاعت نشان دادن عدم قطعیت فرد نهفته است.
۵. برخی سوالات به سادگی در سه سال قابل حل نیستند. اینکه چه کسی در نهایت ارزش را در اختیار دارد، آیا ظهور یک تغییر در حقیقت است، آیا ماشینها حتی ردی از آگاهی دارند و آیا متنهای طولانی RAG را مصرف میکنند؛ این بحثها از آن زمان در سال ۲۰۲۶ حل نشده باقی ماندهاند. تشخیص بین «قبلاً پاسخ داده شده» و «هنوز باید صبر کرد» مهمتر از عجله برای نتیجهگیری در مورد هر موضوعی است.
سه سال پیش، وانگ جیانشو بیست جهت را بر اساس شهود در مه قبل از انتشار GPT-4 نشان داد. امروز، با بازبینی این قضاوتها، مهمترین نکته شاید این باشد: تشخیص جهت بزرگ چندان سخت نیست؛ چالش در پذیرش این است که من بارها اعداد، سرعت و توزیع را بدیهی فرض کردم. این بیست بازبینی کمتر درباره امتیاز دادن به گذشته و بیشتر درباره ایجاد چند قانون برای سه سال آینده است. بیایید در سال ۲۰۲۹ دوباره به این موضوع بپردازیم.
ممکن است شما نیز علاقهمند باشید

از ابزارهای قمار تا ماشینهای جهانی قیمتگذاری: دیدگاه رهبر NYSE درباره Hyperliquid

مدیرعامل Sharplink: آینده Ethereum در حال رقم خوردن است

یک دهه از سه موج توکنیزهسازی سهام در واقعیت Bitget: یک کاوش مالی ناتمام

آیا هکرها و مقررات، DeFi را نابود کردند؟

کریس لی: از پیشگامان کریپتو تا سرمایهگذاریهای کلان در سه غول صنعت حافظه، پیشبینی اصلاح بازار گاوی هوش مصنوعی، Web4 و فرصتها برای نسل جوان

برای قدم زدن در مسیر متفاوت Proof of Talk 2026 آمادهاید؟ به WEEX Labs در پاریس بپیوندید

اخبار صبح | همکاری Coinbase با بانک Standard Chartered برای گسترش کانالهای فیات چند ارزی؛ ورود Sharplink و Forward به شاخص راسل؛ احتمال صدور استیبلکوین توسط جیپیمورگان در آینده

رتبهبندی هه ییدنگ: حالا که اینجایی، بهتر است امتحانش کنی

دوران آربیتراژ رگولاتوری به پایان رسیده و ارزش مجوزهای صرافیهای ارز دیجیتال به شدت مورد رقابت است

شش شکایت عمده از یک توسعهدهنده اتریوم

حقیقت پرداختهای جهانی توسط Airwallex فاش شد

قسم سوم WEEX GOGOGO|مسیر لالیگا به سوی طلا – ۶ لحظه انفجاری، ۱ بلیت جام جهانی و شبی که هرگز فراموش نخواهد شد

چگونه Micron به ارزش بازار یک تریلیون دلاری دست یافت، در حالی که Samsung به چرخههای فناوری و Hynix به HBM متکی است؟

۲ سال، ۲۲۵ برابر بازدهی؟ رونمایی از تکنیک سرمایهگذاری «گلوگاه» هوش مصنوعی توسط پژوهشگر مرموز، Serenity

همکاری B.AI با BNB Chain برای راهاندازی جشن «یارانه توکن هوش مصنوعی میلیاردی» و شعلهور کردن اکوسیستم عاملهای هوشمند درونزنجیرهای

جنون تریلیون دلاری فروش حافظه؛ سود حاصل از خرید حافظه نصف شد

گزارش صبحگاهی | راهاندازی ابزار تحقیقاتی DYOR توسط Binance؛ راهاندازی پلتفرم استخدامی YZi Talent توسط YZi Labs؛ ویتالیک اعلام کرد که بنیاد اتریوم «کوچکسازی» شده و فروش ETH را کاهش میدهد

