اطلاقات النماذج الصوتية من ميسترال ومن جوجل، خطط آبل لسيري، اكتشاف جديد من جوجل
ميسترال Mistral AI تطلق النموذج الصوتي Voxtral
أطلقت شركة Mistral AI نموذجًا جديدًا مفتوح المصدر لتحويل النص إلى صوت باسم Voxtral TTS، في خطوة توسّع حضورها في سوق وكلاء الصوت وتضعها بمواجهة مباشرة مع شركات مثل OpenAI و ElevenLabs.
النموذج يدعم 9 لغات، من بينها العربية، ويستهدف استخدامات مثل خدمة العملاء، المبيعات، والمساعدات الصوتية. الفكرة الأساسية: نموذج خفيف وقابل للنشر على أجهزة edge مثل الهواتف والساعات، بتكلفة أقل بكثير من المنافسين مع أداء متقدم.
تقنيًا، Voxtral قادر على استنساخ صوت مخصص من عينة أقل من 5 ثوانٍ، مع الحفاظ على تفاصيل دقيقة مثل النبرة، اللهجة، وحتى صعوبات أو عيوب النطق الطبيعية ، وهذا مهم لجعل الصوت يبدو بشريًا وليس آليًا. كما يمكنه التنقل بين اللغات دون فقدان هوية الصوت، ما يفتح الباب لاستخدامات مثل الدبلجة والترجمة الفورية.
من ناحية الأداء، زمن بدء الصوت (TTFA) يبلغ ~90 مللي ثانية، مع سرعة توليد تصل إلى 6x (أي إنتاج 10 ثوانٍ صوت خلال ~1.6 ثانية).
الخطوة تعكس استراتيجية Mistral لبناء منصة صوتية متكاملة متعددة الوسائط، مع رهان واضح على التخصيص وأن يكون مفتوح المصدر كميزة تنافسية.
المصدر: MistralAI
جوجل تطلق النموذج الصوتي Gemini 3.1 Flash Live
أعلنت Google عن إطلاق نموذج صوتي جديد باسم Gemini 3.1 Flash Live، مصمم للمحادثات الفورية، في خطوة واضحة لتحسين تجربة التفاعل الصوتي مع الذكاء الاصطناعي.
النموذج الجديد يركز على تقليل زمن الاستجابة وتحسين نبرة الصوت لتكون أقرب للطبيعية، وهي نقطة ضعف تاريخية في أنظمة الصوت التوليدي. الفكرة ببساطة: محادثة أسرع، أكثر سلاسة، وأقرب للإحساس البشري.
على مستوى الأداء، حقق النموذج نتائج قوية في اختبارات مثل ComplexFuncBench Audio و Big Bench Audio، ما يعكس تحسنًا في تنفيذ المهام المعقدة وفهم الأسئلة الصوتية. كما أظهر قدرة أفضل على التعامل مع التردد والانقطاعات بين الجمل في الحديث، رغم أن نتائجه لا تزال أقل من بعض النماذج غير المخصصة للمحادثة.
تقنيًا، أضافت جوجل علامة SynthID لتمييز الصوت المولد دون التأثير على جودته، في محاولة لمواجهة مخاطر التزييف.
النموذج متاح الآن للمطورين عبر Gemini API و AI Studio، وسيظهر تدريجيًا في منتجات مثل Gemini Live و Search Live، ما يعني أن تجربة المساعدات الصوتية على وشك أن تصبح أكثر واقعية من أي وقت مضى.
المصدر: Google
آبل لديها المزيد من الخطط لـ Siri
تعمل Apple على خطوة كبيرة لإعادة تموضعها في سباق الذكاء الاصطناعي، عبر فتح Siri للربط مع مساعدين خارجيين ضمن تحديث iOS 27. عوضا عن الاعتماد على شريك واحد مثل OpenAI، سيصبح بإمكان المستخدم اختيار النموذج الذي يريده مباشرة من داخل Siri.
النظام الجديد، الذي يُعرف داخليًا باسم (Extensions)، يسمح لتطبيقات الذكاء الاصطناعي من App Store بالاندماج مع Siri. هذا يعني القدرة على استخدام Gemini أو Claude بنفس السلاسة، دون التحويل اليدوي كما هو اليوم.
التحرك يعكس محاولة واضحة من Apple لتعويض تأخرها في سباق الذكاء الاصطناعي وتحويل الايفون إلى منصة مفتوحة للنماذج بدل بناء كل شيء داخليًا وفي الوقت نفسه امكانية الحصول على نسبة من الاشتراكات في هذه الخدمات عبر متجرها.
التغيير أيضًا يلغي فكرة “الشريك الحصري”، ويجعل إضافة خدمات جديدة أسرع بدون مفاوضات طويلة. المرجح أن يتم الإعلان رسميًا في مؤتمر WWDC، مع إمكانية التحكم الكامل بالمساعدات المفعلة من داخل الإعدادات.
المصدر: Bloomberg
جوجل تكشف عن اختراق تقني جديد
كشفت جوجل للأبحاث عن تقنية TurboQuant، وهي خوارزمية ضغط جديدة بدون تدريب تستهدف واحدة من أكبر مشاكل النماذج اللغوية وهي استهلاك الذاكرة العالي.
الفكرة بشكل عام أن أثناء عمل النماذج، يتم تخزين بيانات مؤقتة (KV cache) لتسريع الإجابات، لكن مع كِبر حجم السياق، هذه البيانات تستهلك ذاكرة ضخمة. TurboQuant يقلّص هذا الحجم بشكل كبير بدون التأثير على دقة النموذج.
التقنية تضغط البيانات إلى 3–4 بت فقط بدل 32 بت، ومع ذلك تحافظ على نفس الأداء مما يحسن السرعة حتى 8 أضعاف ويقلل استهلاك الذاكرة بحوالي 6 أضعاف.
وتعتمد الخوارزمية على مرحلتين : الأولى تعيد تمثيل البيانات بطريقة أكثر كفاءة، والثانية تصحح الأخطاء الناتجة عن الضغط بشكل ذكي، بحيث لا تتأثر جودة النتائج.
في الاختبارات، حققت TurboQuant أداءً مماثلاً أو أفضل من الطرق الحالية في مهام مثل البحث داخل النصوص الكبيرة وتوليد الأكواد.
الأهم أنها لا تحتاج تدريب إضافي، ما يجعلها قابلة للاستخدام مباشرة في الأنظمة الحالية، خاصة مع النماذج الكبيرة التي تعاني من قيود الذاكرة.
المصدر: Google + bloomberg
مصطلح الأسبوع:
Digital Twin
التوأم الرقمي
نموذج رقمي يحاكي كيانًا حقيقيًا باستخدام بيانات حية لتحليل الأداء والتنبؤ واتخاذ القرارات التشغيلية
أخبار قد تهمك:
OpenAI تعلن عن ايقاف تطبيق توليد الفيديو Sora بعد 6 أشهر من الاطلاق.
آبل تعرض مكافآت قياسية لفريق تصميم آيفون للمحافظة عليهم من الانتقال لـ OpenAI.
انقطاع DeepSeek عن الخدمة لعدة ساعات داخل الصين دون أسباب واضحة.
تسلا تبدأ بعمليات التوظيف لمصنع Terafab وتستهدف مهندسين TSMC في تايوان.
جوجل تطلق نموذج الموسيقى التوليدي Lyria 3 Pro.
أمر الأسبوع :
يستخدم هذا الأمر بعد ارفاق سيرتك المهنية لتحويلها لـ Personal Pitch Deck لمشاركتها عند التواصل مع مسؤولي التوظيف.
Create a simple, modern personal pitch deck (4–5 slides max) to catch a recruiter’s attention.
Slides:
1. Title
- Name, role, short tagline
2. Personal Background
- Interests, hobbies, personality (keep it light and human)
3. Career Highlights
- Career progression
- Key achievements with metrics
4. Core Values
- 4–5 values that guide how you work
5. What Makes Me Different
- Unique strengths or edge
Style:
- Clean, minimal, consulting-style
- Short text, no paragraphs
- Confident and slightly personal tone
Output:
- Slide-by-slide content, ready to use
مؤشر أسهم الذكاء الاصطناعي الخاص بنشرة الـ AI
المؤشر سجل تراجعًا بنسبة -14% منذ بداية العام .
افضل نماذج الذكاء الاصطناعي بحسب اختبار GPQA
مقالات نالت اعجابنا هذا الأسبوع:
مقال من The Economist بعنوان :
الصين تتفوق في سباق مواهب الذكاء الاصطناعي
مقال من New York Times بعنوان :
البرمجة بعد المبرمجين : نهاية البرمجة كما نعرفها
شارك نشرة الذكاء الاصطناعي:
لاستفسارات الرعاية:
contact@digitalmaarefa.com
هذه النشرة تمت كتابتها من قبل البشر + الذكاء الاصطناعي.











