أعلنت شركة “ميتا” عن إطلاق نموذجها الجديد “Spirit LM”، المفتوح المصدر، الذي يمثل خطوة نوعية في مجال الذكاء الصناعي المتعدد الوسائط. يركز هذا النموذج على معالجة التحديات المتعلقة بتوليد الأصوات وتقليد الصوت البشري بدقة وواقعية أكبر.
مواصفات النموذج
يعتمد “Spirit LM” على نموذج لغوي مدرب مسبقًا يتضمن 7 مليارات معلمة، ويتميز بقدراته المتقدمة على معالجة الصوت بطرق مبتكرة، مما يجعله يختلف عن النماذج التقليدية التي تعتمد على تقنيات التعرف التلقائي على الكلام (ASR).
تحسين التفاعل الصوتي
يهدف النموذج إلى تقديم تجربة صوتية تعكس تعابير الإنسان بشكل أكبر، مما يمهد الطريق لتطوير روبوتات ذكية قادرة على التفاعل الصوتي بشكل أكثر تعقيداً وواقعية.
اقرأ أيضاً: الائتلاف وفصائل المعارضة يدينون هجوم أنقرة
وأوضحت “ميتا” أن الأساليب التقليدية كانت تفتقر إلى التعبير الصوتي الطبيعي، لذلك يعتمد “Spirit LM” على رموز الفونيم (الوحدات الصوتية) والنغمات ودرجات الصوت، مما يسمح له بتجاوز هذه القيود.
قدرات التعلم المتقدمة
يمتلك “Spirit LM” القدرة على التعلم من مهام جديدة، تشمل تحويل النص إلى صوت، وتصنيف الكلام، والتعرف إلى الأصوات، مما يعزز من مرونته وتنوع استخداماته.
الإتاحة والتطبيقات المستقبلية
أشارت شركة “ميتا” إلى أن النموذج متاح الآن كمشروع مفتوح المصدر للمطورين والباحثين، مما يتيح توسيع نطاق استخدامه وتطويره. ومن المتوقع أن يتم دمج “Spirit LM” في القريب العاجل ضمن تطبيقات “ميتا” مثل واتساب، إنستغرام، وفيسبوك، مما سيتيح للمستخدمين التفاعل مع الذكاء الصناعي من خلال محادثات صوتية طبيعية وغنية بالتعبيرات، مشابهة للوضع الصوتي المتقدم الذي قدمته شركة OpenAI مؤخرًا.
بهذا الإطلاق، تعزز “ميتا” مكانتها في مجال الذكاء الصناعي، متجاوزة التحديات الحالية وتقديم حلول مبتكرة للمستقبل.