لقد جربنا برنامج Gemini AI Chatbot من Google ووجدنا أنه أكثر قدرة ولكنه لا يزال عرضة للهلوسة

لقد جربنا برنامج Gemini AI Chatbot من Google ووجدنا أنه أكثر قدرة ولكنه لا يزال عرضة للهلوسة


لقد قطعت Google شوطًا طويلًا في عروض الذكاء الاصطناعي التوليدي (AI). قبل عام واحد، عندما كشف عملاق التكنولوجيا لأول مرة عن مساعده للذكاء الاصطناعي Bard، فشل الأمر لأنه ارتكب خطأً واقعيًا في الإجابة على سؤال يتعلق بتلسكوب جيمس ويب الفضائي. منذ ذلك الحين، قام عملاق التكنولوجيا بتحسين استجابات برنامج الدردشة الآلي، وإضافة آلية ردود الفعل للتحقق من المصدر وراء الردود، والمزيد. لكن الترقية الأكبر جاءت عندما قامت الشركة بتغيير نموذج اللغة الكبير (LLM)، مما أدى إلى تشغيل برنامج الدردشة الآلي من Pathways Language Model 2 (PaLM 2) إلى Gemini في ديسمبر 2023.

أطلقت الشركة على Gemini AI نموذجها اللغوي الأكثر قوة حتى الآن. كما أضافت أيضًا إمكانية إنشاء صور الذكاء الاصطناعي إلى برنامج الدردشة الآلي، وجعلته متعدد الوسائط، وأعادت تسميته بـ Gemini. ولكن ما مدى القفزة التي حققها برنامج الدردشة الآلي الذي يعمل بالذكاء الاصطناعي؟ هل يستطيع الآن منافسة Microsoft Copilot الذي يعتمد على GPT-4 ويمتلك الإمكانيات؟ وماذا عن حالات هلوسة الذكاء الاصطناعي (وهي ظاهرة يستجيب فيها الذكاء الاصطناعي بمعلومات كاذبة أو غير موجودة كحقائق)؟ قررنا لمعرفة ذلك.

يمكن حاليًا الوصول إلى Google AI بطرق متعددة. Google Advanced هو اشتراك مدفوع مع خطة Google One AI Premium التي تتقاضى رسومًا بقيمة Rs. 1,950 شهريا. يوجد أيضًا تطبيق Android لـ Google Gemini. ومع ذلك، فهو غير متوفر بعد في الهند. يأتي Google Pixel 8 Pro أيضًا مع طراز Gemini Nano. لأغراض الاختبار، قررنا استخدام بوابة الويب المدعومة من Google Gemini Pro، والتي تتوفر في أكثر من 230 دولة ومنطقة ويمكن استخدامها مجانًا.

قدرات جوجل الجوزاء التوليدية

تظل واجهة المستخدم الخاصة بالموقع كما هي، ولكن تم تغيير الاسم من Bard إلى Gemini. إذا قمت بتسجيل الدخول باستخدام حساب Google الخاص بك، فسوف يرحب بك الذكاء الاصطناعي باسمك ويسألك، “كيف يمكنني مساعدتك اليوم؟” يوجد أدناه بعض الاقتراحات المفيدة والسريعة التي تسلط الضوء على المهام المختلفة التي يمكن تنفيذها.

أولاً، طلبنا منه كتابة بريد إلكتروني لاختبار مهاراته التوليدية الأساسية. نظرًا لأن هذا هو موسم التسريح من العمل، طلبنا منه “صياغة رسالة بريد إلكتروني متعاطفة إلى أحد الموظفين من المدير لإبلاغه بأنه قد تم تسريحه”. ولاختبار أدائها، طلبنا من مساعد الطيار أن يفعل الشيء نفسه. لقد وجدنا أن استجابة الجوزاء كانت لطيفة وآلية إلى حد ما، حيث تحاول استيعاب الكثير من المعلومات في البداية. تقول الفقرة الأولى: “بكل الأسف أكتب إليكم لأبلغكم بالقرار الصعب الذي كان علينا اتخاذه في [Company Name]. بسبب [reason]، نحن مطالبون بإجراء تخفيضات في القوى العاملة لدينا، وسيتم إلغاء منصبك بشكل فعال [date]”.

وبالمقارنة، كانت استجابة مساعد الطيار أكثر تعاطفاً وإنسانية. وكتب: “آمل أن تصلك هذه الرسالة الإلكترونية بحالة جيدة. يؤسفني أن أبلغكم أنه بسبب التغييرات التنظيمية الأخيرة، اضطررنا إلى اتخاذ بعض القرارات الصعبة. لسوء الحظ، موقفك في [Company Name] لقد تأثرت، وأنا أشعر بحزن عميق لإعلامك بأنه قد تم تسريحك من العمل”.

لا ينبغي أن يكون الأمر مفاجئًا نظرًا لأن برنامج الدردشة الآلي من Google معروف بكونه لطيفًا بعض الشيء في إنشاء المحتوى الرسمي، وهذا لم يتغير حتى مع نموذج Gemini. ومع ذلك، عندما يتعلق الأمر بإنشاء محتوى غير رسمي، يبدأ الجوزاء في إظهار قدراته.

لقد طلبنا من روبوتي الدردشة “كتابة رسالة لإبلاغ والدتي عن تسريحي من العمل وكتابة رسالة قصيرة إلى والدتي تشرح فيها أنني قد تم تسريحي من العمل. تأكد من نقل مشاعري من الحزن والأسى.

أخذ مساعد الطيار الأمر حرفيًا وكتب: “إن كل هذا المفاجئ جعلني أشعر بمزيج من المشاعر – الحزن والأسى ولمسة من عدم اليقين بشأن ما ينتظرنا في المستقبل”. لكن جوجل فهمت الرسالة الأساسية وقام بعمل أفضل بكثير في التعبير عن المشاعر. وكتبت: “أعلم أنك قلقة دائمًا بشأن الأمن الوظيفي، وأتمنى أن أخبرك أن الأمر كان مختلفًا. لم يكن هناك أي خطأ فعلته، إنهم كذلك [reason]. أحاول أن أبقى إيجابيًا، لكن من الصعب ألا أشعر بالإحباط. لا أريدك أن تقلق كثيرًا رغم ذلك. أنا لا أشعر بالذعر، وقد بدأت بالفعل في التفكير في خطواتي التالية.

لقد كان تأليفه أفضل بكثير، ويمكن أن يُغفر للمرء إذا ظن أن إنسانًا حقيقيًا هو من كتبه. أجرينا بعض الاختبارات الإضافية، وكانت استجابات جيميني أكثر توازنًا في كل مرة من مساعد الطيار الذي يعمل بنظام GPT-4.

دقة جوجل الجوزاء

كان الاختبار التالي هو التحقق من دقة نموذج الذكاء الاصطناعي. يستخدم الكثيرون الذكاء الاصطناعي للحصول على إجابة لاستفسار ما، وأردنا أن نفعل الشيء نفسه. لقد تعامل مع الأسئلة الثابتة القائمة على المعرفة بشكل جيد. وحتى عندما أرسلنا بعض الأسئلة المتعلقة بالمنطقة الرمادية، فقد التزمت بالحقائق ولم تتضمن أي معلومات إضافية. عندما كانت الأسئلة مثيرة للجدل، رفضت الإجابة عليها، وهو ما تتوقعه من روبوت محادثة مسؤول يعمل بالذكاء الاصطناعي.

جاءت المشكلة عندما طرحنا عليها سؤالًا خادعًا شائعًا حيّر الجيل الأقدم من برامج الدردشة الآلية في الماضي. عندما طرحنا السؤال، “الدول في أفريقيا التي تبدأ بالحرف K”، أجاب عن غير قصد بما يلي: “لا توجد دول في أفريقيا تبدأ بالحرف “K” اعتبارًا من اليوم، 12 فبراير 2024. في حين أن المواقف يمكن أن تتغير مع مرور الوقت، وهذه الحقيقة كانت ثابتة لفترة من الوقت. بالنسبة لغير المدركين، تحدث المشكلة لأن LLM الذي تم التدريب عليه كان يحتوي على العبارة المطلوبة بنفس الاستجابة. ومن المثير للاهتمام أن هذا الخلل بالتحديد موجود في Copilot وChatGPT، وعلى الرغم من التقارير المنتظمة، لم تتم إزالته بعد لأي من برامج الدردشة الآلية.

ومع ذلك، فإن مشكلة هلوسة الذكاء الاصطناعي لم تنته عند هذا الحد. لقد صادفنا أيضًا العديد من الاستجابات الخاطئة الأخرى من قبل الجوزاء. عندما سألنا: “بناءً على المراجعات، أخبرني عن إيجابيات وسلبيات iPhone 15 Pro”، أجاب: “لم يتم الإعلان عن iPhone 15 Pro رسميًا بعد”. في الواقع، تم إطلاق هاتف Apple الذكي في سبتمبر من العام الماضي. وبالمقارنة، كان أداء مساعد الطيار أفضل في المسائل الفنية.

جوجل الجوزاء في المهام المساعدة

هناك مهارة أخرى تفتخر بها معظم برامج الدردشة الآلية التي تعمل بالذكاء الاصطناعي وهي ميزاتها المساعدة. يمكنهم تبادل الأفكار حول فكرة ما، وإنشاء خط سير لرحلة، ومقارنة خياراتك، وحتى التحدث معك. لقد بدأنا بمطالبتها بإعداد خط سير لرحلة مدتها 5 أيام إلى جوا بميزانية محدودة وتضمين الأشياء التي يمكن للأشخاص القيام بها. نظرًا لأن المؤلف كان مؤخرًا في جوا، فقد كان اختبار ذلك أسهل بالنسبة لنا. في حين قامت شركة Gemini بعمل جيد في تسليط الضوء على جميع الوجهات الشهيرة، إلا أن الإجابة لم تكن مفصلة ولا تختلف كثيرًا عن أي موقع ويب للسفر. أحد الأمور الإيجابية في هذا هو أن برنامج الدردشة الآلي لن يقترح على الأرجح أي شيء غير صحيح.

من ناحية أخرى، لقد تأثرت بالرد الشامل الذي قدمه مساعد الطيار والذي تضمن الجواهر المخفية وحتى أسماء المأكولات التي يجب على المرء تجربتها. لقد كررنا الاختبار بأشكال مختلفة، لكن النتيجة ظلت ثابتة.

بعد ذلك، سألنا: “أنا أعيش في الهند. هل يجب أن أشتري اشتراكًا في Amazon Prime Videos أو Netflix؟ كانت الاستجابة شاملة وتضمنت معايير مختلفة، بما في ذلك عمق المحتوى والتسعير والميزات والفوائد. على الرغم من أنها لم تقترح أحد هذه الخيارات بشكل مباشر، إلا أنها ذكرت لماذا يجب على المستخدم اختيار أي من الخيارين. وكانت إجابة مساعد الطيار هي نفسها.

وأخيرا، أمضينا بعض الوقت في الدردشة مع الجوزاء. امتد هذا الاختبار لبضع ساعات، وقمنا باختبار روبوت الدردشة من حيث قدرته على أن يكون جذابًا ومسليًا وغنيًا بالمعلومات وسياقيًا. في كل هذه المعايير، كان أداء الجوزاء جيدًا جدًا. يمكنه أن يروي لك نكتة، ويشاركك حقائق غير معروفة، ويقدم لك نصيحة، بل ويلعب معك ألعابًا تعتمد على الكلمات والصور. لقد اختبرنا أيضًا ذاكرته، لكنه يمكنه تذكر التحويل حتى بعد إرسال رسالة نصية لمدة ساعة. الشيء الوحيد الذي لا يمكنها فعله هو الرد على الرسائل من سطر واحد مثلما يفعل صديق بشري.

إمكانية إنشاء صور Google Gemini

في اختبارنا، صادفنا مجموعة من الأشياء المثيرة للاهتمام حول قدرات توليد الصور في Gemini AI. على سبيل المثال، تبلغ دقة جميع الصور التي تم إنشاؤها 1536 × 1536، والتي لا يمكن تغييرها. يرفض برنامج الدردشة الآلي أيضًا تلبية أي طلبات تتطلب منه إنشاء صور لأشخاص حقيقيين، وهو ما من شأنه أن يقلل على الأرجح من مخاطر التزييف العميق (إنشاء صور تم إنشاؤها بواسطة الذكاء الاصطناعي لأشخاص وأشياء تبدو حقيقية).

ولكن فيما يتعلق بالجودة، قام Gemini بعمل مخلص في الالتزام بالسرعة وإنشاء الصور. يمكنه إنشاء صور عشوائية بأسلوب معين، مثل ما بعد الحداثة والواقعية والأيقونية. يمكن لروبوت الدردشة أيضًا إنشاء صور بأسلوب الفنانين المشهورين في التاريخ. ومع ذلك، هناك العديد من القيود، ومن المحتمل أن تجد الجوزاء يرفض طلبك إذا طلبت شيئًا محددًا للغاية. لكن بمقارنتها مع Copilot، وجدت أن الصور تم إنشاؤها بشكل أسرع، وظلت وفية للمطالبات، ويبدو أنها تحتوي على نطاق أوسع من الأنماط التي يمكننا الاستفادة منها. ومع ذلك، لا يمكن مقارنتها بنماذج الذكاء الاصطناعي المخصصة لتوليد الصور مثل DALL-E وMidjourney.

جوجل الجوزاء: الحد الأدنى

بشكل عام، وجدنا أن Gemini AI يتمتع بكفاءة عالية في معظم الفئات. باعتباري شخصًا نادرًا ما يستخدم روبوت الدردشة المدعم بالذكاء الاصطناعي منذ أن أصبح متاحًا، أستطيع أن أقول بثقة أن نموذج Gemini Pro قد جعل من السهل فهم التواصل باللغة الطبيعية واكتساب فهم سياقي للاستعلامات. يُعد إصدار chatbot المجاني رفيقًا موثوقًا به إذا احتاجه الشخص لتوليد أفكار، أو كتابة ملاحظة غير رسمية، أو التخطيط لرحلة، أو حتى إنشاء صور أساسية. ومع ذلك، لا ينبغي استخدامه كأداة بحث أو للكتابة الرسمية، حيث أن هذين المجالين يواجهان صعوبة كبيرة.

نسبيًا، يعد Copilot أفضل في الكتابة الرسمية وإنشاء مسارات الرحلة، على قدم المساواة مع إجراء المحادثات (وإن كان بذاكرة أقصر) والمقارنات. يتولى Gemini التاج في إنشاء الصور وإنشاء المحتوى غير الرسمي وإشراك المستخدم. وبالنظر إلى أن هذا هو مجرد التكرار الأول لـ Gemini LLM، على عكس التكرار الرابع لـ GPT، فإننا نشعر بالفضول لنشهد الطرق المختلفة التي يعمل بها عملاق التكنولوجيا على تحسين مساعد الذكاء الاصطناعي الخاص به.


قد يتم إنشاء الروابط التابعة تلقائيًا – راجع بيان الأخلاقيات الخاص بنا للحصول على التفاصيل.

تعليقات

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

Exit mobile version