باحثو Apple يعملون على MM1، وهي عائلة من نماذج الذكاء الاصطناعي المتعددة الوسائط تضم ما يصل إلى 30 مليار معلمة

باحثو Apple يعملون على MM1، وهي عائلة من نماذج الذكاء الاصطناعي المتعددة الوسائط تضم ما يصل إلى 30 مليار معلمة

[ad_1]

شارك باحثو شركة Apple أعمالهم في بناء نموذج لغة كبير للذكاء الاصطناعي متعدد الوسائط (AI) في ورقة بحثية مسبقة الطباعة. نُشرت هذه الورقة على بوابة إلكترونية في 14 مارس، وتسلط الضوء على كيفية تمكنها من تحقيق القدرات المتقدمة لتعدد الوسائط وجعل نموذج الأساس يتدرب على كل من البيانات النصية فقط وكذلك الصور. تأتي التطورات الجديدة في الذكاء الاصطناعي لشركة التكنولوجيا العملاقة التي يقع مقرها في كوبرتينو في أعقاب تصريحات الرئيس التنفيذي تيم كوك التي أدلى بها خلال مكالمات كسب الشركة حيث قال إن ميزات الذكاء الاصطناعي يمكن أن تصل في وقت لاحق من هذا العام.

تم نشر نسخة ما قبل الطباعة من الورقة البحثية على موقع arXiv، وهو مستودع مفتوح الوصول عبر الإنترنت للأوراق العلمية. ومع ذلك، فإن الأوراق المنشورة هنا لا تخضع لمراجعة النظراء. في حين أن الورقة نفسها لم تذكر شركة آبل، فإن معظم الباحثين المذكورين ينتمون إلى قسم التعلم الآلي (ML) في الشركة، مما يؤدي إلى الاعتقاد بأن المشروع تابع أيضًا للشركة المصنعة لهواتف iPhone.

وفقًا للباحثين، فإنهم يعملون على MM1، وهي عائلة من النماذج متعددة الوسائط تحتوي على ما يصل إلى 30 مليار معلمة. أطلق عليه مؤلفو الورقة اسم “LLM متعدد الوسائط (MLLM)”، وقد أبرز مؤلفو الورقة أن أجهزة تشفير الصور، وموصل لغة الرؤية، ومكونات الهندسة المعمارية الأخرى واختيارات البيانات قد تم إجراؤها لإنشاء نموذج الذكاء الاصطناعي القادر على فهم كل من النص وكذلك المدخلات القائمة على الصور.

على سبيل المثال، ذكرت الورقة، “لقد أثبتنا أنه بالنسبة للتدريب المسبق متعدد الوسائط على نطاق واسع، فإن استخدام مزيج دقيق من التسميات التوضيحية للصورة، ونص الصورة المتداخل، وبيانات النص فقط يعد أمرًا بالغ الأهمية لتحقيق أحدث ما توصلت إليه التكنولوجيا.” (SOTA) نتائج قليلة عبر معايير متعددة، مقارنة بنتائج ما قبل التدريب المنشورة الأخرى.

ولتوضيح الأمر، فإن نموذج الذكاء الاصطناعي موجود حاليًا في مرحلة ما قبل التدريب، مما يعني أنه لم يتم تدريبه بما يكفي لإعطاء المخرجات المطلوبة. هذه هي المرحلة التي يتم فيها استخدام الخوارزمية وبنية الذكاء الاصطناعي لتصميم سير عمل النموذج وكيفية معالجته للبيانات في النهاية. تمكن فريق باحثي Apple من إضافة رؤية الكمبيوتر إلى النموذج باستخدام برامج تشفير الصور وموصل لغة الرؤية. بعد ذلك، عند الاختبار باستخدام مزيج من الصور والصور والنصوص ومجموعة البيانات النصية فقط، وجد الفريق أن النتائج كانت تنافسية مقارنة بالنماذج الموجودة في نفس المرحلة.

على الرغم من أهمية هذا الإنجاز، إلا أن هذه الورقة البحثية ليست كافية للتأكد من إضافة روبوت الدردشة متعدد الوسائط المزود بالذكاء الاصطناعي إلى نظام التشغيل الخاص بشركة Apple. في هذه المرحلة، من الصعب حتى تحديد ما إذا كان نموذج الذكاء الاصطناعي متعدد الوسائط أثناء تلقي المدخلات أو إعطاء المخرجات أيضًا (ما إذا كان يمكنه إنشاء صور الذكاء الاصطناعي أم لا). ولكن إذا تم التأكد من أن النتائج متسقة بعد مراجعة النظراء، فيمكن القول أن عملاق التكنولوجيا قد اتخذ خطوة كبيرة أخرى نحو بناء نموذج أساسي أصلي للذكاء الاصطناعي.


قد يتم إنشاء الروابط التابعة تلقائيًا – راجع بيان الأخلاقيات الخاص بنا للحصول على التفاصيل.

[ad_2]

تعليقات

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *