ينطوي الذكاء الاصطناعي على إمكانات هائلة للمساهمة بقيمة إضافية في المجالات العلمية والاقتصادية للمجتمعات.
منصة X (تويتر سابقاً)، في رسالتها المؤسسية الرسمية، تزعم أنّها ستعمل على تطوير ضمانات موثوقة ضد الاستخدامات الضارّة للذكاء الاصطناعي، وتعتقد الشركة أنّها تبذل جهدها لضمان بقاء الذكاء الاصطناعي قوة من أجل الخير.
وفي هذا السياق، أعلن ألون ماسك قبل أخيراً عن إطلاق "Grok"، وهو أداة ذكاء اصطناعي على غرار فيلم "دليل هيتشهيكر للمجرة" Hitchhiker Guide to the Galaxy ، تهدف إلى الإجابة على أيّ شيء تقريباً، وصولاً إلى اقتراح الأسئلة التي يجب طرحها حيث تمّ تصميم غروك للإجابة على الأسئلة مع قليل من الدهاء وبأسلوب متمرّد ، لذا تنصح X عدم استخدامه لمن لا يحبّذون الفكاهة!
الميزة الفريدة والأساسية لغروك امتلاكه المعرفة في الوقت الفعلي بالعالم من خلال منصة X ويجيب على الأسئلة التي ترفضها معظم أنظمة الذكاء الاصطناعي الأخرى. ولا يزال غروك منتجاً تجريبياً في مراحله الأولى (شهرين من التدريب) لذلك تقول الشركة إنّها ستعمل على تحسينه بسرعة مع مرور كلّ أسبوع.
لماذا "غروك"
تقول X للذكاء الاصطناعي إنّ الهدف هو إنشاء أدوات الذكاء الاصطناعي لتساعد البشرية في سعيها للفهم والمعرفة، لذا ومن خلال إطلاق غروك، تهدف X إلى:
• جمع الملاحظات وضمان بناء أدوات الذكاء الاصطناعي التي تفيد البشرية جمعاء إلى أقصى حد. وتعتقد X أنّه من المهم تصميم أدوات الذكاء الاصطناعي مفيدة للأشخاص من جميع الخلفيات والآراء السياسية بهدف تمكين المستخدمين من خلال أدوات الذكاء الاصطناعي.
• تمكين البحث والابتكار: تريد X أن يعمل غروك كمساعد أبحاث قوي، مما يساعده على الوصول بسرعة إلى المعلومات ذات الصلة ومعالجة البيانات والتوصل إلى أفكار جديدة.
لذا، فإن الاتجاه النهائي ل X، كما أعلنت الشركة، أن غروك وغيره من أدوات الذكاء الاصطناعي الأخرى تم تصميمهم للمساعدة في السعي لتحقيق الفهم لدى المستخدمين.
الرحلة إلى Grok-1
المحرك الذي يشغل Grok هو Grok-1، وهو LLM (نموذج لغة كبيرة محدود(، والذي طوّرته X خلال الأشهر الأربعة الماضية. لقد مرّ Grok-1 بالعديد من التّجارب المتكرّرة خلال هذه الفترة الزمنية. وقامت X بتدريب نموذج أولي ل LLM (Grok-0) مع 33 مليار خاصية تعليم، ويقترب هذا النموذج المبكر من قدرات LLaMA 2 (70B) ولكنه يستخدم نصف موارده التدريبية فقط. لكن، خلال الشهرين الماضيين، حققت X تحسينات كبيرة في قدرات التفكير والترميز التي أدت إلى Grok-1، وهو نموذج لغوي حديث أكثر قوة، حيث حقق نسبة 63.2٪ في مهمة ترميز HumanEval و 73٪ على MMLU.
لفهم تحسينات القدرات التي تم إجراؤها باستخدام Grok-1، أجرت X سلسلة من التقييمات باستخدام بعض معايير التعلّم الآلي القياسية المصمّمة لقياس قدرات الرياضيات والتفكير منها أنظمة:
GSM8k: كلمات الرياضيات في المدارس الإعدادية من خلال استخدام موجه سلسلة الأفكار.
MMLU: أسئلة متعددة التخصصات تقدم أمثلة من 5 محاولات في السياق نفسه.
HumanEval: مهمّة إكمال كود بايثون.
الرياضيات: معضلات رياضية للمدارس المتوسطة والثانوية.
أظهر Grok-1 نتائج قويّة متجاوزاً جميع الأدوات المذكورة في فئة الحوسبة الخاصّة به، بما في ذلك ChatGPT-3.5 وInflection-1. لكنّه لم يتجاوز النماذج التي تم تدريبها على معالجة كمية كبيرة من بيانات التدريب وموارد الحوسبة مثل GPT-4. هذا يدل على التقدم السريع الذي تحرزه X في مجال الذكاء الاصطناعي من خلال التدريب على LLMs بكفاءة استثنائية.
في محاولة أخرى، قامت X بتجربة نموذجها يدوياً (وكذلك Claude-2 وGPT-4) في نهائيات المدارس الثانوية الوطنية المجرية لعام 2023 في الرياضيات، بعدما جمعت X مجموعة البيانات الخاصة بها. اجتاز غروك الامتحان بدرجة C (59٪)، بينما حقق Claude-2 نفس الدرجة (55٪)، وحصل GPT-4 على B بنسبة 68٪. يدعي خبراء X أنّهم لم يبذلوا أيّ جهد لضبط هذا التقييم. كانت هذه التجربة بمثابة اختبار "واقعي" على مجموعة بيانات لم يتمّ ضبط نموذج X مسبقاً.
هندسة الذكاء الاصطناعي في X
تتطلّب أبحاث التعلّم العميق بناء بنية تحتية موثوقة بنفس العناية مثل مجموعات البيانات وخوارزميات التعلم.
ويعمل تدريب LLM مثل قطار شحن، فإذا خرجت إحدى السيارات عن مسارها، يتم سحب القطار بأكمله عن السكة، مما يجعل من الصعب إعادته لوضع مستقيم مرة أخرى. هناك عدد لا يحصى من الطرق التي تفشل بها وحدات معالجة البيانات: عيوب التصنيع، الوصلات السائبة، التكوين غير الصحيح، رقائق الذاكرة المتهالكة، الفصل العشوائي العرضي إضافة إلى العديد من الأسباب التقنية الأخرى. عند التدريب، تقوم X بمزامنة الحسابات عبر عشرات الآلاف من وحدات معالجة الرسومات والبيانات لتصبح جميع أوضاع الفشل هذه متكررة بسبب الحجم. للتغلّب على هذه التحديات، تستخدم X مجموعة من الأنظمة الموزّعة المخصّصة التي تضمن تحديد كلّ نوع من أنواع الفشل على الفور ومعالجته تلقائيا. في X الذكاء الاصطناعي، تم تعظيم الحوسبة المفيدة. على مدار الأشهر القليلة الماضية، مكنتهم البنية التحتية من تقليل وقت التوقّف عن العمل والحفاظ على استخدام عالي للنموذج (MFU) حتى في وجود أجهزة غير موثوقة.
أثبت Rust أنّه خيار مثالي لبناء بنية تحتية قابلة للتطوير وموثوقة وقابلة للصيانة حيث يوفّر أداءً عالياً ونظاماً بيئياً غنياً ويحذف غالبية الأخطاء التي قد يجدها المرء عادة في نظام موزع. نظرا لصغر حجم الفريق، فإنّ موثوقية البنية التحتية أمر بالغ الأهمية. يوفّر Rust ل X الثقة في أن أي تعديل أو إعادة بناء للكود، ومن المرجح أن تنتج برامج عمل تعمل لعدة أشهر مع الحدّ الأدنى من الإشراف.
ذكرت X أنّ الفريق يستعدّ الآن للقفزة التالية في قدرات النموذج والتي ستتطلّب تنسيقاً موثوقاً لعمليات التدريب على عشرات الآلاف من المسرّعات والبيانات على نطاق الإنترنت وبناء أنواع جديدة من القدرات والأدوات في غروك.
عمليات البحث
تمنح X غروك إمكانية الوصول إلى أدوات البحث والمعلومات في الوقت الفعلي، ولكن كما هو الحال مع جميع النماذج اللغوية الكبيرة المدرّبة على التنبؤّ بالرمز التالي، لا يزال بإمكان نموذج X إنشاء معلومات خاطئة أو متناقضة. وتعتقد الشركة أنّ تحقيق التفكير الموثوق به هو أهم اتجاه بحثي لمعالجة قيود الأنظمة الحالية، لذلك تسلّط الشركة الضوء على بعض الاتجاهات البحثية الواعدة حول الذكاء الاصطناعي:
• إشراف قابل للتطوير بمساعدة الأداة: ردود الفعل البشرية ضرورية. ومع ذلك، قد يكون تقديم ملاحظات متّسقة ودقيقة أمراً صعباً، خاصّة عند التعامل مع التعليمات البرمجية الطويلة أو عمليات التفكير المعقّدة. يمكن للذكاء الاصطناعي المساعدة في الإشراف القابل للتطوير من خلال البحث عن مراجع من مصادر مختلفة والتحقّق من الخطوات الوسيطة باستخدام أدوات خارجية والسعي للحصول على تعليقات بشرية عند الضرورة.
• التكامل مع التحقق الرسمي من السلامة والموثوقية: يمكن لأنظمة الذكاء الاصطناعي التفكير بعمق في العالم الحقيقي لذا تخطّط X لتطوير مهارات التفكير في المواقف الأقل غموضاً والأكثر قابلية للتحقق. هذا يسمح للشركة بتقييم أنظمتها دون ردود فعل بشرية أو تفاعل مع العالم الحقيقي. يتمثّل أحد الأهداف الرئيسية المباشرة لهذا النهج في تقديم ضمانات رسمية لصحّة الكود خاصة في ما يتعلق بالجوانب التي يمكن التحقّق منها رسمياً لسلامة الذكاء الاصطناعي.
• فهم واسترجاع السياق الطويل: نماذج التدريب لاكتشاف المعرفة المفيدة بكفاءة في سياق معين هي في صميم إنتاج أنظمة ذكية حقّاً. تعمل X على طرق يمكنها اكتشاف المعلومات واسترجاعها كلما دعت الحاجة.
• متانة دفاعية: توضح الأمثلة العدائية أنّ البعض يمكنهم بسهولة استغلال نقاط الضعف في أنظمة الذكاء الاصطناعي، سواء أثناء التدريب أو وقت الخدمة، ممّا يتسبب في ارتكابهم أخطاء فادحة. نقاط الضعف هذه طويلة الأمد لنماذج التعلّم العميق. تهتم X بتحسين متانة النماذج اللغوية الكبيرة ونماذج المكافآت وأنظمة المراقبة.
• قدرات متعددة الوسائط: حالياً، ليس لدى غروك حواس أخرى، مثل الرؤية والصوت. لمساعدة المستخدمين بشكل أفضل، سيزوّد غروك مستقبلاً بهذه الحواس المختلفة التي يمكن أن تتيح تطبيقات أوسع بما في ذلك التفاعلات والمساعدة في الوقت الفعلي.