مايكروسوفت تكشف عن VASA-1، وهو نموذج للذكاء الاصطناعي لتحويل الصورة إلى فيديو يولد نتائج واقعية بشكل مخيف

طرحت شركة مايكروسوفت نموذجًا جديدًا للذكاء الاصطناعي (AI) يمكنه إنشاء مقاطع فيديو واقعية للغاية لوجوه بشرية تتحدث. يمكن لنموذج تحويل الصورة إلى الفيديو المدعم بالذكاء الاصطناعي، والذي يطلق عليه اسم VASA-1، إنشاء مقاطع فيديو من صورة واحدة فقط ومقطع صوتي للكلام. وتقول الشركة إن مقاطع الفيديو التي تم إنشاؤها ستحتوي على حركات شفاه متزامنة لتتناسب مع الصوت بالإضافة إلى تعبيرات الوجه وحركة الرأس لجعلها تبدو طبيعية. والجدير بالذكر أن عملاق التكنولوجيا لا ينوي إطلاق منتج أو واجهة برمجة تطبيقات بنموذج VASA-1 ويدعي أنه سيتم استخدامه لإنشاء شخصيات افتراضية واقعية.

في منشور على صفحة إعلان الأبحاث الخاصة بها، قامت Microsoft بتفصيل طريقة عمل نموذج الذكاء الاصطناعي قيد التطوير الخاص بها وسلطت الضوء على قدراته. تدعي الشركة أن طراز VASA-1 يمكنه إنشاء مقاطع فيديو بدقة 512 × 512 بكسل بمعدل يصل إلى 40 إطارًا في الثانية. ويقال أيضًا أن نموذج الذكاء الاصطناعي يدعم إنشاء الفيديو عبر الإنترنت مع زمن وصول ضئيل لبدء التشغيل. مستخدم X (المعروف سابقًا باسم Twitter) كايو كين مشترك فيديو لنموذج الذكاء الاصطناعي أثناء العمل.

في حين أن أكبر إنجاز لـ VASA-1 هو تقديم ما يصل إلى دقيقة واحدة من مقاطع الفيديو (وفقًا للعروض التوضيحية) بجودة عالية مع صورة ثابتة واحدة، فقد سلطت الشركة الضوء أيضًا على قدرتها على إنشاء حركات الشفاه التي تطابق الملف الصوتي و تعابير الوجه لتتماشى معها. يوفر نموذج إنشاء الفيديو بتقنية الذكاء الاصطناعي أيضًا تحكمًا دقيقًا للمستخدم للتحكم في جوانب مختلفة من الفيديو مثل اتجاه نظرة العين الرئيسية ومسافة الرأس وإزاحة المشاعر والمزيد. يمكن أن تساعد عناصر التحكم في الإسناد هذه على المظهر غير المتشابك ووضعية الرأس ثلاثية الأبعاد وديناميكيات الوجه في تعديل الإخراج بشكل وثيق وفقًا لتوجيهات المستخدم.

علاوة على ذلك، كان نموذج الذكاء الاصطناعي أيضًا قادرًا على إنشاء مقاطع فيديو باستخدام الصور الفنية والصوت الغنائي والكلام غير الإنجليزي. ويشير باحثو مايكروسوفت إلى أن القدرة على هذه الوظائف لم تكن موجودة في بياناتها، مما يشير إلى قدرتها على التعلم الذاتي.

يعد إنشاء الفيديو الواقعي للغاية لنموذج الذكاء الاصطناعي لأشخاص حقيقيين مع أي صوت أمرًا مثيرًا للإعجاب، ولكنه يثير أيضًا تساؤلات حول استخدامه غير الأخلاقي، خاصة لإنشاء مقاطع مزيفة عميقة. وأكدت الشركة أنها لا تنوي إطلاق نموذج الذكاء الاصطناعي للجمهور وتريد إنشاء شخصيات تفاعلية افتراضية باستخدامه.

قالت Microsoft أيضًا أنه يمكن استخدام هذه التقنية لتعزيز اكتشاف التزوير. “مع الاعتراف بإمكانية سوء الاستخدام، فمن الضروري أن ندرك الإمكانات الإيجابية الكبيرة لتقنيتنا. إن الفوائد – التي تتراوح بين تعزيز المساواة التعليمية، وتحسين إمكانية الوصول للأفراد الذين يعانون من تحديات التواصل، وتقديم الرفقة أو الدعم العلاجي للمحتاجين – تؤكد أهمية أبحاثنا والاستكشافات الأخرى ذات الصلة. وأضافت الشركة: “نحن ملتزمون بتطوير الذكاء الاصطناعي بشكل مسؤول، بهدف تعزيز رفاهية الإنسان”.

قد يتم إنشاء الروابط التابعة تلقائيًا – راجع بيان الأخلاقيات الخاص بنا للحصول على التفاصيل.