قدمت OpenAI، الشركة التي تقف خلف ChatGPT، أول نموذج لتحويل النص إلى فيديو يعمل بالذكاء الاصطناعي (AI) Sora يوم الخميس. تدعي الشركة أنها تستطيع إنشاء مقاطع فيديو تصل مدتها إلى 60 ثانية. ويعد هذا أطول من أي من منافسيها في هذا القطاع، بما في ذلك Lumiere من Google، والذي تم الكشف عنه الشهر الماضي. يتوفر Sora حاليًا لأعضاء الفريق الأحمر وخبراء الأمن السيبراني الذين يختبرون البرامج على نطاق واسع لمساعدة الشركات على تحسين برامجهم وبعض منشئي المحتوى. وتخطط شركة الذكاء الاصطناعي أيضًا لتضمين البيانات الوصفية لـ Coalition for Content Provenance and Authenticity (C2PA) في المستقبل بمجرد نشر النموذج في منتج OpenAI.
الإعلان عن مولد الفيديو بتقنية الذكاء الاصطناعي في بريد على X (المعروف سابقًا باسم Twitter)، قالت الشركة: “يمكن لـ Sora إنشاء مقاطع فيديو تصل مدتها إلى 60 ثانية تتميز بمشاهد مفصلة للغاية، وحركة الكاميرا المعقدة، وشخصيات متعددة ذات مشاعر نابضة بالحياة.” ومن المثير للاهتمام أن طول الفيديو الذي تدعي أنه ينتجه يزيد عن عشرة أضعاف ما يقدمه منافسوها. يستطيع Lumiere من Google إنشاء مقاطع فيديو مدتها 5 ثوانٍ، في حين يمكن لـ Runway AI وPika 1.0 إنشاء مقاطع فيديو مدتها 4 ثوانٍ و3 ثوانٍ على التوالي.
مطالبة: “مقطع دعائي لفيلم يعرض مغامرات رجل الفضاء البالغ من العمر 30 عامًا والذي يرتدي خوذة دراجة نارية من الصوف الأحمر، والسماء الزرقاء، والصحراء المالحة، بأسلوب سينمائي، تم تصويره على فيلم مقاس 35 مم، بألوان زاهية.” pic.twitter.com/0JzpwPUGPB
– أوبن إيه آي (@OpenAI) 15 فبراير 2024
كما شارك حساب X الخاص بـ OpenAI والرئيس التنفيذي Sam Altman العديد من مقاطع الفيديو التي تم إنشاؤها بواسطة Sora، بالإضافة إلى المطالبات المستخدمة في إنشائها. تظهر مقاطع الفيديو الناتجة مفصلة للغاية مع حركة سلسة، وهو أمر عانت منه مولدات الفيديو الأخرى في السوق إلى حد ما. وفقًا للشركة، يمكنها إنشاء مشاهد معقدة بشخصيات متعددة، وزوايا كاميرا متعددة، وأنواع محددة من الحركة، وتفاصيل دقيقة للموضوع والخلفية. وهذا ممكن لأن نموذج تحويل النص إلى فيديو يستخدم كلاً من الموجه وكذلك “كيفية وجود هذه الأشياء في العالم المادي”.
Sora هو في الأساس نموذج انتشار يستخدم بنية محولات مشابهة لنماذج GPT. وبالمثل، فإن البيانات التي تستهلكها وتولدها يتم تمثيلها في مصطلح يسمى التصحيحات، والتي تشبه مرة أخرى الرموز المميزة في نماذج إنشاء النص. التصحيحات عبارة عن مجموعات من مقاطع الفيديو والصور، مجمعة في أجزاء صغيرة، وفقًا لما تحدده الشركة. باستخدام هذه البيانات المرئية، مكّن OpenAI من تدريب نموذج إنشاء الفيديو على فترات ودرجات دقة ونسب عرض إلى ارتفاع مختلفة. بالإضافة إلى إنشاء تحويل النص إلى فيديو، يستطيع Sora أيضًا التقاط صورة ثابتة وإنشاء فيديو منها.
ومع ذلك، فهو لا يخلو من العيوب أيضًا. ذكرت OpenAI على موقعها على الإنترنت أن “النموذج الحالي به نقاط ضعف. قد يجد صعوبة في محاكاة فيزياء مشهد معقد بدقة، وقد لا يفهم حالات محددة من السبب والنتيجة. على سبيل المثال، قد يأخذ شخص ما قضمة من ملف تعريف الارتباط، ولكن بعد ذلك، قد لا يكون هناك علامة قضمة على ملف تعريف الارتباط.
رسالة حث: “يحتوي مشهد الرسوم المتحركة على لقطة مقربة لوحش رقيق قصير راكع بجانب شمعة حمراء تذوب. أسلوب الفن ثلاثي الأبعاد وواقعي، مع التركيز على الإضاءة والملمس. مزاج اللوحة هو العجب والفضول، حيث يحدق الوحش في اللهب… pic.twitter.com/aLMgJPI0y6
– أوبن إيه آي (@OpenAI) 15 فبراير 2024
ولضمان عدم استخدام أداة الذكاء الاصطناعي لإنشاء محتوى مزيف عميق أو أي محتوى ضار آخر، تعمل الشركة على إنشاء أدوات للمساعدة في اكتشاف المحتوى المضلل. وتخطط أيضًا لاستخدام البيانات الوصفية لـ C2PA في مقاطع الفيديو التي تم إنشاؤها، بعد اعتماد الممارسة الخاصة بنموذج DALL-E 3 مؤخرًا. كما أنها تعمل أيضًا مع أعضاء الفريق الأحمر، وخاصة خبراء المجال في مجالات المعلومات الخاطئة والمحتوى الذي يحض على الكراهية والتحيز، لتحسين النموذج.
في الوقت الحاضر، إنه متاح فقط لأعضاء الفريق الأحمر وعدد صغير من الفنانين البصريين والمصممين وصانعي الأفلام للحصول على تعليقات حول المنتج.