يمكننا التفكير في GAIA كاختبار إجهاد لـ "المساعدين العامين" الذين يجب عليهم القيام بما يفعله البشر بشكل عادي طوال اليوم: العثور على المصدر الصحيح، وقراءته بدقة، والجمع بين خطوات عدة، وتقديم إجابة دقيقة. ليس مجرد "التفكير" بشكل مجرد، بل التنفيذ: التصفح، والاستخراج، والتحقق، والإنهاء بنظافة.
عندما نرسم فعالية الوكلاء على GAIA مقابل الزمن والقدرة، يتشكل بشكل طبيعي منحنى على شكل S.
في بداية المنحنى، لا يساعد سلوك النموذج اللغوي العادي كثيرًا. يمكننا كتابة نص معقول، لكن مهام GAIA تعاقب المعقولية. بدون استخدام منضبط للأدوات، لا يستطيع النظام إما الوصول إلى المعلومات المطلوبة أو تجميعها بشكل موثوق. التحسينات في التوجيه والتفكير الأساسي تحرك المؤشر، لكن ليس بشكل كبير، لأن نمط الفشل هو التنفيذ وليس البلاغة.
ثم يصل منتصف المنحنى ويصبح الميل حادًا. هنا يظهر استخدام الأدوات والتنسيق: البحث، والتصفح، والاستخراج المنظم، والتخطيط متعدد الخطوات، وإعادة المحاولة، والفحوصات الذاتية الأساسية. بمجرد أن يتمكن الوكيل من تنفيذ "البحث ← القراءة ← الحساب ← الإجابة" بشكل متسق بدلاً من التخمين، تقفز الدقة بسرعة. هذا هو الجزء من المنحنى S الذي يبدو فيه التقدم وكأنه يتراكم فجأة.
أخيرًا نصل إلى الهضبة. ليس لأننا توقفنا عن التحسين، بل لأن الأخطاء المتبقية تعيش في الذيل الطويل. النقاط المئوية الأخيرة ليست عن تحسين الحالة الشائعة. إنها عن عدم الانهيار على صفحات فوضوية، وعدم اختيار المصدر الخاطئ عندما تكون مصادر متعددة معقولة، وعدم قراءة جدول خاطئ في ملف PDF، وعدم إسقاط قيد في منتصف الطريق، والتعافي عندما تسوء خطوة مبكرة.
على GAIA تحديدًا، الخط الأساسي البشري يقع تقريبًا في أوائل التسعينات. أفضل أنظمة الوكلاء على لوحة المتصدرين العامة أصبحت الآن هناك أيضًا: المتوسط العام في نطاق ~91-92%. بعبارة أخرى، من حيث GAIA، نحن بالفعل في أعلى يمين الرسم البياني: المرحلة الثالثة، بالقرب من الحد المقارب.
ما يتغير بمجرد أن نكون على تلك الهضبة هو طبيعة العمل المهم. تصبح المعايير أقل عن النتيجة المتوسطة وأكثر عن خصائص الموثوقية: التباين، ومخاطر الذيل، و"تكلفة التصحيح". يتوقف السؤال عن أن يكون "هل يمكننا حل هذا النوع من المهام؟" ويصبح "كم مرة نفشل بطرق مزعجة، وكم يكلف الإنسان لاكتشاف ذلك وإصلاحه؟"
هذا يفسر أيضًا لماذا تبدو مهام المستوى الأول "محلولة أساسًا" بينما المستويات الأصعب لا تزال تسرب أخطاء. العامل المحدد ليس الذكاء الخام؛ إنه المتانة في ظل الغموض والمدخلات الفوضوية من العالم الحقيقي. يمكن للنظام أن يكون بارعًا ومع ذلك يختار الصفحة الخاطئة. يمكنه التفكير بشكل صحيح ومع ذلك يستخرج الرقم الخاطئ من جدول. يمكنه اتباع خطة ومع ذلك يسقط قيدًا بصمت.
إذن أين نحن في الرسم البياني؟ نحن بالفعل في الجزء الذي تأتي فيه المكاسب من الهندسة المملة عالية التأثير: حلقات التحقق، وانضباط المصدر، واستراتيجيات احتياطية أفضل، والتعافي المحكم عندما تنحرف المحاولة الأولى. بمجرد أن يكون المتوسط قريبًا من البشر، لا يكون العامل المميز "ذكاءً أكثر." بل أخطاء أقل غير مفروضة.