logo

رحلة كلود إلى الحماقة في الرسوم البيانية: ثمن التوفير، أو كيف ارتفعت فاتورة واجهة برمجة التطبيقات 100 ضعف

By: blockbeats|2026/04/13 19:05:35
0
مشاركة
copy

قبل بضعة أيام، نشرت ستيلا لورينزو، رئيسة قسم الذكاء الاصطناعي في شركة AMD، مشكلة بعنوان "كود كلود غير قابل للاستخدام في المهام الهندسية المعقدة" في المستودع الرسمي لكود كلود. لم يكن هذا مجرد شكوى عاطفية من المستخدم، بل كان تحليلاً كمياً يستند إلى 6800 جلسة. لقد أبرزت هذه القضية أكثر المشاكل التي يتجنب مجتمع الذكاء الاصطناعي مواجهتها، مع بروز مجموعة واحدة من الأرقام بشكل خاص: فقد أدى تعديل بسيط في التكوين من قبل شركة Anthropic إلى رفع فاتورة واجهة برمجة التطبيقات الشهرية لهذا الفريق من 345 دولارًا إلى 42121 دولارًا.

قام فريق لورينزو بتتبع 235000 عملية استدعاء للأداة، و18000 مطالبة، وقام بتوثيق التدهور المنهجي في أداء Claude Code منذ فبراير 2026. وقد غطت صحيفة "ذا ريجستر" هذا التقرير لاحقاً، مما أثار عاصفة من الرأي العام استمرت أسبوعين في أوساط مجتمع المطورين.

قدم بوريس تشيرني، رئيس فريق Anthropic Claude Code، شرحاً على موقع Hacker News. في 9 فبراير، مع إصدار Opus 4.6، تم تفعيل آلية "التفكير الذاتي" بشكل افتراضي، حيث يقرر النموذج بشكل مستقل مدة التفكير. وفي 3 مارس، خفضت شركة أنثروبيك مستوى جهد التفكير الافتراضي إلى 85. وكان التفسير الرسمي هو "نقطة التوازن الأمثل بين الذكاء وزمن الاستجابة والتكلفة". ويتضح الأثر الفعلي لهذين التعديلين من البيانات.

انخفض عمق الفكر بمقدار ثلاثة أرباع

وفقًا لبيانات مشكلة GitHub الخاصة بـ Stella Laurenzo، شهد متوسط ​​عمق التفكير لدى Claude Code انهيارًا على ثلاث مراحل على مدار شهرين: من ذروة بلغت 2200 حرف في نهاية يناير إلى 720 حرفًا بحلول نهاية فبراير، أي بانخفاض قدره 67٪. وبحلول شهر مارس، انخفض العدد أكثر إلى 560 حرفًا، أي بانخفاض قدره 75% عن ذروته.

رحلة كلود إلى الحماقة في الرسوم البيانية: ثمن التوفير، أو كيف ارتفعت فاتورة واجهة برمجة التطبيقات 100 ضعف

يُعد عمق التفكير هنا مقياسًا تقريبيًا يعكس مقدار "المداولات الداخلية" التي يرغب النموذج في الانخراط فيها قبل تقديم إجابة. إن الفرق بين 2200 و 560 حرفًا يعادل تقريبًا التدهور من "الكتابة قبل الرد" إلى "التفكير لمدة ثانيتين في رأسك قبل التحدث".

وأشار لورينزو أيضًا إلى أن ميزة "تنقيح محتوى الأفكار" (redact-thinking-2026-02-12) التي تم إطلاقها في أوائل مارس قد أخفت بالصدفة عملية تفكير النموذج خلال هذه الفترة، مما جعل الانكماش أقل وضوحًا للمستخدمين. يصر بوريس تشيرني على أن هذا كان مجرد تغيير في واجهة المستخدم did-133">ولم يؤثر على المنطق الأساسي. كلا الادعاءين صحيحان من الناحية الفنية، ولكن من وجهة نظر المستخدم، فإن التأثير لا يمكن تمييزه.

أقر بوريس تشيرني لاحقًا بأنه حتى مع إعادة ضبط الجهد يدويًا إلى الحد الأقصى، قد تظل آلية التفكير الذاتي تخصص تفكيرًا غير كافٍ في بعض الجولات، مما يؤدي إلى محتوى هلوسي. إن "استعادة أقصى جهد" ليس حلاً كاملاً؛ إنه ببساطة يعيد المقبض إلى وضعه الأصلي بدلاً من إعادته إلى حتميته الأصلية.

من "مبرمج ذو توجه بحثي" إلى "مبرمج يقوم بالتحرير الأعمى"

هناك تفصيل في تقرير ستيلا لورينزو أكثر وضوحًا من عمق التفكير: عدد الملفات ذات الصلة التي يقرأها النموذج بنشاط قبل إجراء تغييرات على الكود.

وفقًا لبيانات GitHub Issue، خلال فترة الذروة، يبلغ متوسط ​​نسبة القراءة إلى التحرير 6.6. قبل إجراء أي تغيير في الكود، يقوم النموذج، في المتوسط، بقراءة 6.6 ملفات لفهم السياق. خلال فترة التحلل، ينخفض ​​هذا الرقم إلى 2.0، أي بانخفاض قدره 70%. والأهم من ذلك، أن حوالي ثلث عمليات تعديل التعليمات البرمجية تحدث دون أن يقوم النموذج بقراءة الملف المستهدف، حيث يتم الغوص فيه مباشرة.

يشير لورينزو إلى هذا باسم "التعديلات العمياء". من الناحية الهندسية، يشبه هذا قيام المبرمج بكتابة التعليمات البرمجية دون النظر إلى توقيعات الدوال أو معرفة أنواع المتغيرات. وكتبت في تقريرها: "لقد مر كل مهندس كبير في فريقي بتجارب مماثلة مباشرة". "لم يعد بالإمكان الوثوق بكلود لتنفيذ مهام هندسية معقدة."

إن الانخفاض من نسبة القراءة إلى التحرير من 6.6 إلى 2.0 ليس مجرد تحول في المقياس السلوكي؛ بل يدل على انهيار في معدلات نجاح المهام. إن تعقيد مستودعات التعليمات البرمجية الحديثة يفرض أن أي تعديل ينطوي على تبعيات عبر ملفات متعددة. إن تخطي استكشاف السياق وإجراء التغييرات مباشرة لا يؤدي إلى مجرد "إجابات غير صحيحة" بل إلى "تغييرات تبدو صحيحة ولكنها تؤدي إلى ظهور أخطاء جديدة في المراحل اللاحقة". إن تكلفة تصحيح مثل هذه الأخطاء تتجاوز بكثير تكلفة إجابة صريحة واحدة فاشلة.

مفارقة "توفير المال"

إحدى أكثر مجموعات الأرقام غير البديهية في الحادثة بأكملها تأتي من بيانات مشكلة GitHub نفسها: شهد فريق ستيلا لورينزو انخفاضًا كبيرًا في تكاليف استدعاء واجهة برمجة تطبيقات Claude Code الشهرية من 345 دولارًا في فبراير 2026 إلى 42121 دولارًا في مارس، أي بزيادة قدرها 122 ضعفًا.

كان المنطق وراء تقليل الجهد في مشروع أنثروبكس هو خفض استهلاك الرموز المميزة لكل مكالمة، وبالتالي تقليل التكاليف. لكن النتيجة كانت عكس ذلك. والسبب وراء ذلك هو ظهور العديد من "حلقات الاستدلال" بعد تدهور النموذج، مما أدى إلى نفي ذاتي متكرر في رد واحد، وإعادة تشغيل مستمرة، واستهلاك للرموز يتجاوز بكثير الكمية المحفوظة. وفقًا لبيانات ستيلا لورينزو، زاد معدل المستخدمين الذين يلغون المهام طواعية بمقدار 12 مرة خلال نفس الفترة، مما يتطلب تدخل المطورين المستمر وتصحيحها وإعادة إرسالها.

المنطق الكامن وراء ذلك هو خطأ منهجي. إن خفض القدرة الحاسوبية في مهمة معقدة لا يؤدي ببساطة إلى تقليل التكاليف بشكل متناسب. بمجرد أن ينخفض ​​مستوى التفكير عن حد معين، يبدأ النموذج في الانحراف عن مساره، وتتصاعد التكلفة الإجمالية في نهاية المطاف. أدى تقليل الجهد إلى توفير المال في الاستعلامات البسيطة، ولكن في مهام البرمجة، أدى ذلك إلى زيادة الفاتورة بشكل كبير.

سعر --

--

"تبسيط الأمور"، قام به GPT-4 قبل ثلاث سنوات

في يوليو 2023، نشر فريق بحثي من جامعة ستانفورد وجامعة كاليفورنيا في بيركلي ورقة بحثية على موقع arXiv بعنوان "كيف يتغير سلوك ChatGPT بمرور الوقت؟"، موثقةً حدوث نفس الظاهرة على GPT-4.

وفقًا لبيانات البحث، في مارس 2023، قام GPT-4 بتوليد كود كان أكثر من 50% منه قابلاً للتنفيذ مباشرة. وبحلول شهر يونيو، انخفضت هذه النسبة إلى 10%، أي بانخفاض قدره 80% خلال ثلاثة أشهر. وخلال نفس الفترة، انخفضت دقة تحديد الأعداد الأولية من 97.6% إلى 2.4%. كان رد OpenAI مشابهًا جدًا لرد Anthropic: فقد كانت هناك تحسينات في الخلفية، كجزء من التكرار الطبيعي.

إن بنية القصتين متطابقة تقريبًا: قامت شركة الذكاء الاصطناعي بهدوء بتعديل المعلمات التي تؤثر على قدرات النموذج في الخلفية، ولاحظ المستخدمون ذلك، واعترفت الشركة بالتعديل، لكنها شرحته على أنه "تخصيص أكثر منطقية للموارد". حدث تدهور GPT-4 في عام 2023، وحدث تدهور Claude في عام 2026، بفارق ثلاث سنوات، لكن السيناريو هو نفسه.

هذا ليس خطأً خاصاً بشركة معينة. يحدد المنطق الاقتصادي لنماذج الاشتراك في الذكاء الاصطناعي أنه عندما تتجاوز تكاليف الاستدلال الأسعار التي يمكن تغطيتها، فإن المصنعين يواجهون نفس الضغط. يُعد خفض مستوى التفكير الافتراضي حاليًا أسهل طريقة للموازنة بين التكلفة والأداء. ما يلاحظه المستخدمون هو أن النموذج "يصبح أغبى". ما يوفره المصنّع في السجلات هو التكلفة الحدية للرمز المميز لكل مكالمة.

قدم بوريس تشيرني حلاً تقنياً حيث يمكن للمستخدمين استعادة كثافة التفكير يدوياً إلى أعلى مستوى من خلال الأمر /effort high أو عن طريق تعديل ملف التكوين. هذا الحل ممكن من الناحية التقنية، ولكنه يعني أيضاً أن "أقصى أداء" لم يعد الإعداد الافتراضي.

من 345 دولارًا إلى 42121 دولارًا، لم يكن ما تم إنفاقه مجرد ميزانية فحسب، بل كان أيضًا افتراضًا: التغييرات الافتراضية في التكوين التي أجراها المصنع كانت تهدف إلى تحسين تجربة المستخدم.

قد يعجبك أيضاً

هل انتهى عصر شركات رأس المال الاستثماري المتخصصة في العملات المشفرة؟ لقد بدأت دورة انقراض الأسواق

في ظل وجود مشاريع عالية الجودة، بدأت شركات رأس المال الاستثماري في التحول من مرحلة الفرز إلى مرحلة اختيار المرشحين.

تم إصدار مليار عملة DOT من العدم، لكن المخترق لم يجني سوى 230 ألف دولار

السيولة أنقذت بولكادوت.

أحدث مقابلة مع آرثر هايز: كيف ينبغي للمستثمرين الأفراد التعامل مع الصراع الإيراني؟

في عام 2026 المضطرب، ما هي الأصول القيّمة حقاً التي يجب الاحتفاظ بها؟

هل أصبح اللوبستر شيئًا من الماضي؟ استكشاف أدوات Hermes Agent التي ترفع إنتاجيتك إلى 100 ضعف

كلما طالت مدة استخدامه، زادت كفاءته، فما الذي يجعل «هيرميس» — التي انتقل إليها المطورون — مميزة؟

هل نعلن الحرب على الذكاء الاصطناعي؟ سردية يوم القيامة وراء فيلم "مقر ألترامان المشتعل"

عندما يصبح إنقاذ البشرية هو المعيار الوحيد، تبدأ حدود العمل في التلاشي

أرض الحافة: إعادة نظر حول القوة البحرية والطاقة والدولار

من يتحكم في البحار يتحكم في النظام النقدي؛ بمجرد أن يتم حصره في لعبة داخلية، سيفقد المبادرة

العملات الرائجة

أحدث أخبار العملات المشفرة

قراءة المزيد
iconiconiconiconiconiconiconiconicon

برنامج خدمة العملاء@WEEX_support_smart_Bot

خدمات (VIP)support@weex.com