يقال إن OpenAI استخدمت بيانات من مقاطع فيديو YouTube لتدريب نموذج GPT-4 AI

يقال إن OpenAI استخدمت بيانات من مقاطع فيديو YouTube لتدريب نموذج GPT-4 AI


ربما تكون شركة OpenAI قد استخدمت أكثر من مليون ساعة من البيانات المكتوبة من مقاطع فيديو YouTube لتدريب أحدث نموذج للذكاء الاصطناعي (AI) GPT-4، وفقًا لتقرير. وينص أيضًا على أن الشركة المصنعة لـ ChatGPT اضطرت إلى شراء البيانات من خلال YouTube لأنها استنفدت كامل مخزونها من موارد الكلمات النصية لتدريب نماذج الذكاء الاصطناعي الخاصة بها. إذا كان هذا الادعاء صحيحًا، فيمكن أن يؤدي إلى مشاكل جديدة لشركة الذكاء الاصطناعي التي تخوض بالفعل عدة دعاوى قضائية لاستخدام بيانات محمية بحقوق الطبع والنشر. والجدير بالذكر أن تقريرًا صدر الشهر الماضي سلط الضوء على أن متجر GPT الخاص به يحتوي على روبوتات دردشة صغيرة تنتهك إرشادات الشركة.

في تقرير، زعمت صحيفة نيويورك تايمز أنه بعد نفاد المصادر التي تحتوي على كلمات نصية فريدة لتدريب نماذج الذكاء الاصطناعي الخاصة بها، قامت الشركة بتطوير أداة التعرف التلقائي على الكلام تسمى Whisper لاستخدامها في نسخ مقاطع فيديو YouTube وتدريب نماذجها باستخدام البيانات. أطلقت OpenAI تطبيق Whisper علنًا في سبتمبر 2022، وقالت شركة الذكاء الاصطناعي إنها تدربت على 6,80,000 ساعة من “البيانات متعددة اللغات والمتعددة المهام الخاضعة للإشراف والتي تم جمعها من الويب”.

ويزعم التقرير أيضًا، نقلاً عن مصادر غير مسماة مطلعة على الأمر، أن موظفي OpenAI ناقشوا ما إذا كان استخدام بيانات YouTube يمكن أن ينتهك إرشادات النظام الأساسي ويوقعهم في مشكلة قانونية. والجدير بالذكر أن Google تحظر استخدام مقاطع الفيديو للتطبيقات المستقلة عن النظام الأساسي.

في النهاية، مضت الشركة قدمًا في الخطة وقامت بنسخ أكثر من مليون ساعة من مقاطع فيديو يوتيوب، وتم تغذية النص إلى GPT-4، وفقًا للتقرير. علاوة على ذلك، يزعم تقرير نيويورك تايمز أيضًا أن رئيس OpenAI جريج بروكمان شارك بشكل مباشر في العملية وساعد شخصيًا في جمع البيانات من مقاطع الفيديو.

وفي حديثه مع The Verge، وصف مات براينت، المتحدث باسم OpenAI، التقارير بأنها غير مؤكدة ونفى أي أنشطة من هذا القبيل قائلاً: “تحظر كل من ملفات robots.txt وشروط الخدمة الخاصة بنا الحذف أو التنزيل غير المصرح به لمحتوى YouTube.” وقال متحدث آخر، ليندسي هيلد، للنشرة إنها تستخدم “العديد من المصادر بما في ذلك البيانات المتاحة للجمهور والشراكات للبيانات غير العامة” كمصادر بيانات خاصة بها. وأضافت أيضًا أن شركة الذكاء الاصطناعي تدرس إمكانية استخدام البيانات الاصطناعية لتدريب نماذج الذكاء الاصطناعي المستقبلية الخاصة بها.


قد يتم إنشاء الروابط التابعة تلقائيًا – راجع بيان الأخلاقيات الخاص بنا للحصول على التفاصيل.

للحصول على أحدث الأخبار والمراجعات التقنية، تابع Gadgets 360 على Xوالفيسبوك والواتس اب والخيوط وأخبار جوجل. للحصول على أحدث مقاطع الفيديو حول الأدوات والتكنولوجيا، اشترك في قناتنا على YouTube. إذا كنت تريد معرفة كل شيء عن أهم الشخصيات المؤثرة، فاتبع تطبيق Who’sThat360 الداخلي لدينا على Instagram وYouTube.

من المقرر إطلاق سلسلة Realme P1 5G في الهند في 15 أبريل؛ النطاق السعري والميزات الرئيسية التي تم الكشف عنها



تعليقات

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *