أصدرت Google وMeta إعلانات بارزة في مجال الذكاء الاصطناعي (AI) يوم الخميس، حيث كشفتا عن نماذج جديدة ذات تطورات كبيرة. كشف عملاق البحث عن Gemini 1.5، وهو نموذج محدث للذكاء الاصطناعي يأتي مع فهم طويل للسياق عبر طرق مختلفة. وفي الوقت نفسه، أعلنت شركة Meta عن إطلاق نموذج الهندسة التنبؤية لتضمين الفيديو المشترك (V-JEPA)، وهو طريقة تدريس غير توليدية للتعلم الآلي المتقدم (ML) من خلال الوسائط المرئية. يقدم كلا المنتجين طرقًا أحدث لاستكشاف قدرات الذكاء الاصطناعي. والجدير بالذكر أن OpenAI قدمت أيضًا أول نموذج لتحويل النص إلى فيديو Sora يوم الخميس.
تفاصيل نموذج جوجل جيميني 1.5
أعلن ديميس هاسابيس، الرئيس التنفيذي لشركة Google DeepMind، عن إصدار Gemini 1.5 عبر منشور بالمدونة. تم بناء النموذج الأحدث على بنية المحولات وخليط الخبراء (MoE). بينما من المتوقع أن يكون له إصدارات مختلفة، حاليًا، تم إصدار طراز Gemini 1.5 Pro فقط للاختبار المبكر. قال هاسابيس إن النموذج متعدد الوسائط متوسط الحجم يمكنه أداء المهام بمستوى مماثل لـ Gemini 1.0 Ultra وهو أكبر نموذج توليدي للشركة ومتوفر كاشتراك Gemini Advanced مع خطة Google One AI Premium.
أكبر تحسين في Gemini 1.5 هو قدرته على معالجة معلومات السياق الطويل. يأتي الإصدار الاحترافي القياسي مزودًا بنافذة سياق رمزية تبلغ 1,28,000. بالمقارنة، كان لدى Gemini 1.0 نافذة سياقية تبلغ 32000 رمزًا. يمكن فهم الرموز المميزة على أنها أجزاء كاملة أو أقسام فرعية من الكلمات أو الصور أو مقاطع الفيديو أو الصوت أو التعليمات البرمجية، والتي تعمل بمثابة وحدات بناء لمعالجة المعلومات بواسطة نموذج أساسي. وأوضح هاسابيس: “كلما كانت نافذة سياق النموذج أكبر، زادت المعلومات التي يمكنه استيعابها ومعالجتها في موجه معين – مما يجعل مخرجاته أكثر اتساقًا وأهمية وفائدة”.
إلى جانب الإصدار الاحترافي القياسي، تطلق Google أيضًا نموذجًا خاصًا به نافذة سياقية تصل إلى مليون رمز مميز. يتم تقديم هذا لمجموعة محدودة من المطورين وعملاء المؤسسات في معاينة خاصة. على الرغم من عدم وجود منصة مخصصة لذلك، إلا أنه يمكن تجربته عبر Google AI Studio، وهي أداة وحدة تحكم سحابية لاختبار نماذج الذكاء الاصطناعي التوليدية، وVertex AI. تقول Google إن هذا الإصدار يمكنه معالجة ساعة واحدة من الفيديو، و11 ساعة من الصوت، وقواعد تعليمات برمجية تحتوي على أكثر من 30000 سطر من التعليمات البرمجية، أو أكثر من 700000 كلمة دفعة واحدة.
في بريد على X (المعروف سابقًا باسم Twitter)، أصدرت Meta علنًا V-JEPA. إنه ليس نموذجًا توليديًا للذكاء الاصطناعي، ولكنه طريقة تدريس تمكن أنظمة التعلم الآلي من فهم العالم المادي ونمذجةه من خلال مشاهدة مقاطع الفيديو. ووصفتها الشركة بأنها خطوة مهمة نحو الذكاء الآلي المتقدم (AMI)، وهي رؤية أحد “عرابي الذكاء الاصطناعي” الثلاثة، يان ليكون.
في جوهره، إنه نموذج تحليل تنبؤي، يتعلم بالكامل من الوسائط المرئية. فهو لا يستطيع فهم ما يحدث في مقطع الفيديو فحسب، بل يمكنه أيضًا التنبؤ بما سيأتي بعد ذلك. لتدريبه، تدعي الشركة أنها استخدمت تقنية إخفاء جديدة، حيث تم إخفاء أجزاء من الفيديو في الزمان والمكان. وهذا يعني أن بعض الإطارات في مقطع الفيديو تمت إزالتها بالكامل، بينما كانت بعض الإطارات الأخرى بها أجزاء معتمة، مما أجبر النموذج على التنبؤ بكل من الإطار الحالي وكذلك الإطار التالي. وفقًا للشركة، كان النموذج قادرًا على القيام بالأمرين بكفاءة. والجدير بالذكر أن النموذج يمكنه التنبؤ وتحليل مقاطع الفيديو التي يصل طولها إلى 10 ثوانٍ.
“على سبيل المثال، إذا كان النموذج يحتاج إلى أن يكون قادرًا على التمييز بين شخص يضع قلمًا جانبًا، ويلتقط قلمًا، ويتظاهر بوضع قلم ولكنه لا يفعل ذلك فعليًا، فإن V-JEPA جيد جدًا مقارنة بالطرق السابقة لذلك قال ميتا في منشور بالمدونة: “مهمة التعرف على الإجراءات عالية الجودة”.
في الوقت الحاضر، يستخدم نموذج V-JEPA البيانات المرئية فقط، مما يعني أن مقاطع الفيديو لا تحتوي على أي إدخال صوتي. تخطط Meta الآن لدمج الصوت مع الفيديو في نموذج ML. هدف آخر للشركة هو تحسين قدراتها في مقاطع الفيديو الطويلة.