تحرير وفاء ابو زلفة على الثلاثاء، 24 كانون1/ديسمبر 2024
فئة: مقالات روبوتيك تقنية

أنظمة التفاعل الصوتي

التعرف على الكلام Speech Recognition :
وهي تقنية تحويل الصوت الى نص ويطلق عليها بالتعرف التلقائي على الصوت ASR من خلال مروره بمراحل معقدة تتمثل بالتالي :
  1. تحديد بداية الكلام من خلال الموجة الصوتية وحذف الضجيج (الاصوات الخلفية)
  2. تقسيم الموجة الصوتية وفهم كل جزء لتشكيل الاحرف والكلمات المعبرة عن الصوت.
  3. تحويل كل موجة الى ارقام لتمثيلها وتدريب النموذج الذكي عليها.

من خلال الخطوات السابقة سنفهم أن الصوت عبارة عن موجة يتم تمثيلها دائما بمى يدعى بالطيف الترددي Frequency Spectrum باستخدام تحويلات فورييه FFT

بعد تمثيله بالطيف سنتمكن من ملاحظة بدء الكلام من خلال التمثيلات المعقدة للموجة ومن خلال تطبيق المرشحات Filter سنتمكن من استخلاص الضجيج.

بعد ذلك يتم تمثيل كل موجة بتمثيلات رقمية تعبر عن نغمة الصوت والشدة والحدة وغيرها من الصفات التي تستخرج من تطبيق هندسة الميزات على الصوت.

من هذه الارقام تدخل على نموذج الالي ويتم تدريبه عليها وكل جزئية يتم تمثيلها بخرج مقابل.

من اشهر نماذج الذكاء الاصطناعي المستخدمة في التفاعل الصوتي :

النماذج الضخمة large model: اطلقت google منذ عام اول نموذج ضخم للتعرف على الكلام يدعى Chirp عدا عن عدد طبقاته الكبير الا انه مدرب على 28 بليون جملة وملايين الساعات الصوتية تضم اكثر من 100 لغة ووصلت دقة هذا النموذج الى 98% للغة الانكليزي وساعد على فهم لهجات متعددة. 

تحويل النص الى كلام Text-to-Speach:
هي تقنية تعتمد على اخذ النص المكتوب وتخرجه بشكل مقاطع صوتيه. حيث تقوم اولا بتقسم النص الى كلمات ثم مقاطع لفظية وفونيمات (أصغر وحدات الصوت) ثم دمجها لتحويل النص الى كلام لتبدو كخرج طبيعي.
تستخدم التقنية مجموعة من من تقنيات التركيب الصوتي، التركيبالتتابعي، والتركيب المعلمي، والاحصائي،.. لتوليد صوت شبيه بأصوات البشر.

وهناك عدة انماط ايذا من نماذج التعليم الالي والتعلم العميق التي تدرب على اساس دخل نصي وخرج صوتي. 

مكونات التفاعل الصوتي Components of voice Interaction:

مدونات ذات صلة

اترك تعليقاتك