مايكروسوفت تكشف النقاب عن VALL-E، الذكاء الاصطناعي الصوتي الذي يمكنه محاكاة أي صوت من خلال مطالبات مدتها 3 ثوانٍ

مايكروسوفت تكشف النقاب عن VALL-E، الذكاء الاصطناعي الصوتي الذي يمكنه محاكاة أي صوت من خلال مطالبات مدتها 3 ثوانٍ

[ad_1]

أعلن باحثو مايكروسوفت مؤخرًا عن VALL-E، وهو نموذج جديد للذكاء الاصطناعي لتحويل النص إلى كلام يمكنه تقليد صوت الشخص بدقة عند تقديم عينة صوتية مدتها ثلاث ثوانٍ. بمجرد أن يتعلم صوتًا معينًا، يستطيع VALL-E تركيب صوت ذلك الشخص وهو يقول أي شيء – مع محاولة الاحتفاظ بالنغمة العاطفية للمتحدث. عند دمجه مع نماذج الذكاء الاصطناعي التوليدية الأخرى مثل GPT-3، يعتقد منشئو VALL-E أنه يمكن استخدامه لتطبيقات تحويل النص إلى كلام عالية الجودة، وتحرير الكلام حيث يمكن تحرير تسجيل شخص ما وتغييره من نص نصي. (جعلهم يقولون شيئًا لم يقولوه فعليًا)، وإنشاء المحتوى الصوتي.

وفقًا لمايكروسوفت، فإن VALL-E هو في المقام الأول “نموذج لغة ترميز عصبي”، ويعتمد على EnCodec، الذي كشفت عنه Meta في أكتوبر 2022. يقوم VALL-E بإنشاء رموز ترميز صوتية منفصلة من النصوص والمطالبات الصوتية، على عكس النصوص الأخرى. طرق تحويل الكلام التي عادةً ما تقوم بتوليف الكلام عن طريق معالجة الأشكال الموجية. فهو يعالج كيفية صوت الشخص، ويقسم البيانات ذات الصلة إلى مكونات منفصلة (يشار إليها باسم “الرموز المميزة”) باستخدام EnCodec، ثم يستخدم بيانات التدريب لمطابقة ما “يعرفه” حول الكيفية التي قد يبدو بها هذا الصوت إذا نطق بعبارات أخرى تتجاوز ذلك. عينة الثلاث ثواني

قامت Microsoft بتدريب وظائف تركيب الكلام في VALL-E باستخدام مكتبة Meta LibriLight الصوتية. يتضمن 60,000 ساعة من التحدث باللغة الإنجليزية لأكثر من 7,000 متحدث، مصدرها بشكل أساسي الكتب الصوتية ذات الملكية العامة LibriVox. يجب أن يشبه الصوت في العينة التي تبلغ مدتها ثلاث ثوانٍ إلى حد كبير الصوت في خوارزمية التعلم الخاصة بـ VALL-E للحصول على نتيجة جيدة.

يقدم عملاق التكنولوجيا الأمريكي العشرات من الأمثلة الصوتية لنموذج الذكاء الاصطناعي أثناء العمل على موقع الويب الخاص بمثال VALL-E. مجموعة بيانات “Speaker Prompt” عبارة عن صوت مدته ثلاث ثوانٍ مُعطى لـ VALL-E والذي يجب أن يحاول محاكاته. “الحقيقة الأرضية” هي نسخة مسجلة مسبقًا لنفس المتحدث وهو يقول عبارة محددة لأغراض المقارنة (نوعًا ما مثل “التحكم” في التجربة). يتم إنشاء عينة “خط الأساس” بواسطة طريقة تقليدية لتحويل النص إلى كلام، ويتم إنشاء عينة “VALL-E” بواسطة نموذج VALL-E.

مخطط كتلة Microsoft VALL E Microsoft VALL-E Microsoft

رسم تخطيطي لـ VALL-E كما هو موضح في موقع الويب النموذجي بواسطة باحثي Microsoft
مصدر الصورة: مايكروسوفت

قام الباحثون فقط بتقديم عينة من “موجه مكبر الصوت” مدتها ثلاث ثوانٍ وسلسلة نصية (ما يريدون أن يقوله الصوت) إلى VALL-E للحصول على تلك النتائج. تظهر بعض نتائج VALL-E وكأنها تم إنشاؤها بواسطة الكمبيوتر، لكن البعض الآخر قد يساء فهمها بالنسبة للكلام البشري، وهو هدف النموذج. نظرًا لإمكانية قيام VALL-E بتغذية الأخطاء والخداع، لم تقم Microsoft بإتاحة كود VALL-E للآخرين لاستكشافه. ويبدو أن الباحثين يدركون الضرر الاجتماعي المحتمل الذي قد تسببه هذه التكنولوجيا.

وكتبوا في خاتمة البحث: “نظرًا لأن VALL-E يمكنه تجميع الكلام الذي يحافظ على هوية المتحدث، فقد يحمل مخاطر محتملة في إساءة استخدام النموذج، مثل انتحال تعريف الصوت أو انتحال شخصية متحدث معين. للتخفيف من هذه المخاطر، من الممكن لبناء نموذج كشف لتمييز ما إذا كان قد تم تصنيع مقطع صوتي بواسطة VALL-E. وسنضع أيضًا مبادئ Microsoft AI موضع التنفيذ عند مواصلة تطوير النماذج.


قد يتم إنشاء الروابط التابعة تلقائيًا – راجع بيان الأخلاقيات الخاص بنا للحصول على التفاصيل.

للحصول على أحدث الأخبار والمراجعات التقنية، تابع Gadgets 360 على Xوالفيسبوك والواتس اب والخيوط وأخبار جوجل. للحصول على أحدث مقاطع الفيديو حول الأدوات والتكنولوجيا، اشترك في قناتنا على YouTube. إذا كنت تريد معرفة كل شيء عن أهم الشخصيات المؤثرة، فاتبع تطبيق Who’sThat360 الداخلي لدينا على Instagram وYouTube.

من المتوقع أن يكون Poco C55 بمثابة علامة تجارية جديدة لـ Redmi 12C، ومن المتوقع إطلاقه قريبًا



[ad_2]

تعليقات

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *