تقنية وكمبيوتر

نموذج لغوي صوتي لمنصات الذكاء الاصطناعي

عالمي سبتمبر 25, 2023

تُعد نماذج اللغات الكبيرة التي تعرف باسم (Large Language Models (LLM، جزءًا رئيسًا في منصات الذكاء الاصطناعي، حيث تُستخدم في مجال معالجة اللغة الطبيعية. وتعتبر هذه النماذج من أحدث التقنيات في مجال توليد وفهم النصوص، حيث تستخدم شبكات عصبية دقيقة، «Neural Networks» لتحليل الأنماط والترتيبات في اللغة وتناسقها. وتعتمد النماذج على مفهوم «التعلم بالإشراف»، حيث تُبرمج باستخدام كميات ضخمة من البيانات، ويتم تغذيتها بالنصوص المكتوبة في لغات مختلفة، لتقوم بتحليل النصوص لاستخلاص المعاني والأنماط منها.

نموذج يدمج نقاط القوة

وتعمل هذه النماذج في الغالب على نمط الدردشات الكتابية، حتى كشفت جوجل عن النموذج اللغوي الجديد AudioPaLM، والذي يمكّن من الاستماع والتحدث والترجمة بدقة عالية وسرعة كبيرة، كما يدمج نقاط القوة في نموذجين آخرين هما: PaLM-2 وAudioLM. ويستطيع نموذج AudioPaLM القيام بالعديد من الوظائف المختلفة مثل الترجمة الصوتية من لغة إلى أخرى مع الحفاظ على نبرة الصوت نفسها، والتقاط الأصوات أو الأوامر المنطوقة، ثم إعادة إنتاج الصوت بلغات أخرى مختلفة. كما يتعرف على الأصوات والكلمات ويترجمها إلى نصوص، ويترجم التراكيب اللغوية الجديدة بدقة كبيرة.

نموذج صوتي آخر من شركة ميتا

وقد أعلنت شركة ميتا في وقت سابق عن نموذج ذكاء اصطناعي أطلقت عليه اسم Voicebox يمكنه أداء مهام مختلفة، مثل إنشاء الكلام، وتحرير المقاطع الصوتية، وأخذ العينات الصوتية لتوليد كلام جديد بنفس نبرة الصوت، ويمتاز بأنه يجمع ست لغات. وأفادت الشركة أنه يمكن لهذه النماذج السماح للأشخاص ضعيفي الرؤية بسماع رسائل مكتوبة من الأصدقاء، يقرؤها الذكاء الاصطناعي بأصواتهم، كما تمنح كتّاب المحتوى أدوات جديدة لإنشاء المقاطع الصوتية لمقاطع الفيديو وتحريرها. ويمكن لنموذج Voicebox مطابقة نمط الصوت واستخدامه لإنشاء نصوص منطوقة بنفس نبرة الصوت خلال ثانيتين.

إعداد: رائد الشيخ