مايكروسوفت تكشف النقاب عن VALL-E، الذكاء الاصطناعي الصوتي الذي يمكنه محاكاة أي صوت من خلال مطالبات مدتها 3 ثوانٍ

[ad_1]

أعلن باحثو مايكروسوفت مؤخرًا عن VALL-E، وهو نموذج جديد للذكاء الاصطناعي لتحويل النص إلى كلام يمكنه تقليد صوت الشخص بدقة عند تقديم عينة صوتية مدتها ثلاث ثوانٍ. بمجرد أن يتعلم صوتًا معينًا، يستطيع VALL-E تركيب صوت ذلك الشخص وهو يقول أي شيء – مع محاولة الاحتفاظ بالنغمة العاطفية للمتحدث. عند دمجه مع نماذج الذكاء الاصطناعي التوليدية الأخرى مثل GPT-3، يعتقد منشئو VALL-E أنه يمكن استخدامه لتطبيقات تحويل النص إلى كلام عالية الجودة، وتحرير الكلام حيث يمكن تحرير تسجيل شخص ما وتغييره من نص نصي. (جعلهم يقولون شيئًا لم يقولوه فعليًا)، وإنشاء المحتوى الصوتي.

وفقًا لمايكروسوفت، فإن VALL-E هو في المقام الأول “نموذج لغة ترميز عصبي”، ويعتمد على EnCodec، الذي كشفت عنه Meta في أكتوبر 2022. يقوم VALL-E بإنشاء رموز ترميز صوتية منفصلة من النصوص والمطالبات الصوتية، على عكس النصوص الأخرى. طرق تحويل الكلام التي عادةً ما تقوم بتوليف الكلام عن طريق معالجة الأشكال الموجية. فهو يعالج كيفية صوت الشخص، ويقسم البيانات ذات الصلة إلى مكونات منفصلة (يشار إليها باسم “الرموز المميزة”) باستخدام EnCodec، ثم يستخدم بيانات التدريب لمطابقة ما “يعرفه” حول الكيفية التي قد يبدو بها هذا الصوت إذا نطق بعبارات أخرى تتجاوز ذلك. عينة الثلاث ثواني

قامت Microsoft بتدريب وظائف تركيب الكلام في VALL-E باستخدام مكتبة Meta LibriLight الصوتية. يتضمن 60,000 ساعة من التحدث باللغة الإنجليزية لأكثر من 7,000 متحدث، مصدرها بشكل أساسي الكتب الصوتية ذات الملكية العامة LibriVox. يجب أن يشبه الصوت في العينة التي تبلغ مدتها ثلاث ثوانٍ إلى حد كبير الصوت في خوارزمية التعلم الخاصة بـ VALL-E للحصول على نتيجة جيدة.

يقدم عملاق التكنولوجيا الأمريكي العشرات من الأمثلة الصوتية لنموذج الذكاء الاصطناعي أثناء العمل على موقع الويب الخاص بمثال VALL-E. مجموعة بيانات “Speaker Prompt” عبارة عن صوت مدته ثلاث ثوانٍ مُعطى لـ VALL-E والذي يجب أن يحاول محاكاته. “الحقيقة الأرضية” هي نسخة مسجلة مسبقًا لنفس المتحدث وهو يقول عبارة محددة لأغراض المقارنة (نوعًا ما مثل “التحكم” في التجربة). يتم إنشاء عينة “خط الأساس” بواسطة طريقة تقليدية لتحويل النص إلى كلام، ويتم إنشاء عينة “VALL-E” بواسطة نموذج VALL-E.

رسم تخطيطي لـ VALL-E كما هو موضح في موقع الويب النموذجي بواسطة باحثي Microsoft
مصدر الصورة: مايكروسوفت

قام الباحثون فقط بتقديم عينة من “موجه مكبر الصوت” مدتها ثلاث ثوانٍ وسلسلة نصية (ما يريدون أن يقوله الصوت) إلى VALL-E للحصول على تلك النتائج. تظهر بعض نتائج VALL-E وكأنها تم إنشاؤها بواسطة الكمبيوتر، لكن البعض الآخر قد يساء فهمها بالنسبة للكلام البشري، وهو هدف النموذج. نظرًا لإمكانية قيام VALL-E بتغذية الأخطاء والخداع، لم تقم Microsoft بإتاحة كود VALL-E للآخرين لاستكشافه. ويبدو أن الباحثين يدركون الضرر الاجتماعي المحتمل الذي قد تسببه هذه التكنولوجيا.

وكتبوا في خاتمة البحث: “نظرًا لأن VALL-E يمكنه تجميع الكلام الذي يحافظ على هوية المتحدث، فقد يحمل مخاطر محتملة في إساءة استخدام النموذج، مثل انتحال تعريف الصوت أو انتحال شخصية متحدث معين. للتخفيف من هذه المخاطر، من الممكن لبناء نموذج كشف لتمييز ما إذا كان قد تم تصنيع مقطع صوتي بواسطة VALL-E. وسنضع أيضًا مبادئ Microsoft AI موضع التنفيذ عند مواصلة تطوير النماذج.

قد يتم إنشاء الروابط التابعة تلقائيًا – راجع بيان الأخلاقيات الخاص بنا للحصول على التفاصيل.

للحصول على أحدث الأخبار والمراجعات التقنية، تابع Gadgets 360 على Xوالفيسبوك والواتس اب والخيوط وأخبار جوجل. للحصول على أحدث مقاطع الفيديو حول الأدوات والتكنولوجيا، اشترك في قناتنا على YouTube. إذا كنت تريد معرفة كل شيء عن أهم الشخصيات المؤثرة، فاتبع تطبيق Who’sThat360 الداخلي لدينا على Instagram وYouTube.

من المتوقع أن يكون Poco C55 بمثابة علامة تجارية جديدة لـ Redmi 12C، ومن المتوقع إطلاقه قريبًا

[ad_2]

مرتبط

طعم وكيف دليل المطاعم والكافيهات دليل المطاعم مدن العالم طعام وشراب مقاهي الرياض أخبار ونصائح دليل الرياض كافيهات الرياض جلسات خارجية دليل مقاهي ومطاعم أفضل كافيهات الرياض عوائل

مايكروسوفت تكشف النقاب عن VALL-E، الذكاء الاصطناعي الصوتي الذي يمكنه محاكاة أي صوت من خلال مطالبات مدتها 3 ثوانٍ

مرتبط

اقرأ المزيد في تقنية وإنترنت

تدعوك العلامة التجارية Infinix للجيل القادم لتولي المسؤولية! الكشف عن سلسلة Infinix Note 40 Pro 5G مع تقنية الشحن الرائدة

كيفية الحد من طول التعليق في ووردبريس (برنامج تعليمي سهل)

إطلاق Motorola Edge 50 Ultra وEdge 50 Fusion بكاميرات رئيسية بدقة 50 ميجابكسل: السعر والمواصفات

يوتيوب يؤكد اتخاذ “الإجراء المناسب” بشأن تطبيقات حظر الإعلانات التابعة لجهات خارجية في حملة متجددة

يُقال إن هاتف Google القابل للطي التالي سيُطلق عليه اسم Pixel 9 Pro Fold

يقال إن Instagram يختبر روبوتات الدردشة المدعومة بالذكاء الاصطناعي للمؤثرين الذين يمكنهم التفاعل مع المتابعين

الانطباعات الأولى لـ Moto G64: لا توجد تحسينات كبيرة

تسربت مواصفات iQoo Z9 وiQoo Z9x وiQoo Z9 Turbo قبل إطلاقها في 24 أبريل

تعليقات

اترك تعليقاً إلغاء الرد

روابط نصية

روابط نصية AASD

روابط نصية AAWA