الرئيسيةشريط الاحداثكارثة رقمية تلوح في الأفق!

كارثة رقمية تلوح في الأفق!

حذّر باحثون من أن النماذج اللغوية الكبيرة المستخدمة في الذكاء الاصطناعي قد تصبح أقل دقة وأكثر عرضة للأخطاء كلما زادت كمية المحتوى منخفض الجودة المستخدم في تدريبها، مثل المنشورات السطحية المنتشرة على مواقع التواصل الاجتماعي.

ووفقًا لدراسة نُشرت على خادم ما قبل الطباعة “arXiv” ونقلتها مجلة “Natur”، قام علماء من جامعة تكساس في أوستن بتحليل تأثير البيانات “غير المفيدة” على أداء النماذج اللغوية، من حيث المنطق والاستدلال والأخلاقيات وحتى السمات الشخصية للنماذج نفسها.

وأظهرت النتائج أن ارتفاع نسبة البيانات الرديئة يؤدي إلى تراجع المنطق ودقة الاستنتاجات في النماذج، حتى في اختبارات متعددة الخيارات. وأكد الباحث الرئيسي تشانغيانغ وانغ المبدأ الكلاسيكي في هذا المجال: “القمامة في المدخلات تعطي قمامة في المخرجات”.

الدراسة استخدمت مليون منشور من منصة تواصل اجتماعي شهيرة لإعادة تدريب النموذجين المفتوحين “Llama 3 وQwen”.

وتبيّن أن النموذج الأول تغيّرت سماته بعد التدريب على البيانات منخفضة الجودة، إذ انخفضت السمات الإيجابية وظهرت أخرى سلبية مثل النرجسية والاعتلال النفسي.

أما محاولات تصحيح الخلل بإعادة التدريب على بيانات عالية الجودة، فقد حسّنت النتائج جزئياً فقط، بينما استمرت مشاكل التفكير المنطقي وتجاوز الخطوات التحليلية.

وتأتي هذه التحذيرات في وقت تخطط فيه منصات كبرى مثل “LinkedIn” لاستخدام بيانات المستخدمين الأوروبيين في تدريب أنظمة الذكاء الاصطناعي اعتبارًا من نوفمبر الجاري، ما يثير مخاوف حول جودة المحتوى المستخدم وأثره على سلوك النماذج المستقبلية.