التعرف على الكلام Speech Recognition :
وهي تقنية تحويل الصوت الى نص ويطلق عليها بالتعرف التلقائي على الصوت ASR من خلال مروره بمراحل معقدة تتمثل بالتالي :- تحديد بداية الكلام من خلال الموجة الصوتية وحذف الضجيج (الاصوات الخلفية)
- تقسيم الموجة الصوتية وفهم كل جزء لتشكيل الاحرف والكلمات المعبرة عن الصوت.
- تحويل كل موجة الى ارقام لتمثيلها وتدريب النموذج الذكي عليها.
من خلال الخطوات السابقة سنفهم أن الصوت عبارة عن موجة يتم تمثيلها دائما بمى يدعى بالطيف الترددي Frequency Spectrum باستخدام تحويلات فورييه FFT
بعد تمثيله بالطيف سنتمكن من ملاحظة بدء الكلام من خلال التمثيلات المعقدة للموجة ومن خلال تطبيق المرشحات Filter سنتمكن من استخلاص الضجيج.
بعد ذلك يتم تمثيل كل موجة بتمثيلات رقمية تعبر عن نغمة الصوت والشدة والحدة وغيرها من الصفات التي تستخرج من تطبيق هندسة الميزات على الصوت.
من هذه الارقام تدخل على نموذج الالي ويتم تدريبه عليها وكل جزئية يتم تمثيلها بخرج مقابل.
من اشهر نماذج الذكاء الاصطناعي المستخدمة في التفاعل الصوتي :
- التعلم الالي machine learning: ان تقنيات التعلم الالي تعمق فهم خوارزميات التعرف على الكلام وتعزز قدراته على الاستجابة واكثر الخوارزميات شيوعا استخدامها:
- خوارزمية التصنيف الزمني الترابطي CTC: تستخدم لتحويل المدخلات الصوتية الى نص، عندما لا يكون طول الصوت يتطابق مع النص المستخرج.
- نماذج ماركوف الخفية HMMs: تعتبر من النماذج الاحصائية التي تعتمد على التسلسل الاكثر احتمالا للكلمة والشخصيات بناء على الموجة الصوتية.
- التعلم العميق Deep learning: يعتمد على الشبكات العصبونية التي تحاكي عمل الدماغ البشري حيث تكون مبنية على اساس خطوات معقدة واوزان وتوابع تفعيل في كل عقدة مما يساعد على جعل شبكة عصبية واحدة قادرة على تحويل الصوت الى نص.
- تعتبر الشبكات العصبونية التكرارية RNN الانسب للتعرف على الكلام لانها مبنية على اساس ملاحقة البيانات التسلسلية اي تعتمد على الخرج السابق واللاحق في توقعها للخرج الحالي وهو مايعتبر اساسيا في الكلام.
النماذج الضخمة large model: اطلقت google منذ عام اول نموذج ضخم للتعرف على الكلام يدعى Chirp عدا عن عدد طبقاته الكبير الا انه مدرب على 28 بليون جملة وملايين الساعات الصوتية تضم اكثر من 100 لغة ووصلت دقة هذا النموذج الى 98% للغة الانكليزي وساعد على فهم لهجات متعددة.
تحويل النص الى كلام Text-to-Speach:
هي تقنية تعتمد على اخذ النص المكتوب وتخرجه بشكل مقاطع صوتيه. حيث تقوم اولا بتقسم النص الى كلمات ثم مقاطع لفظية وفونيمات (أصغر وحدات الصوت) ثم دمجها لتحويل النص الى كلام لتبدو كخرج طبيعي.تستخدم التقنية مجموعة من من تقنيات التركيب الصوتي، التركيبالتتابعي، والتركيب المعلمي، والاحصائي،.. لتوليد صوت شبيه بأصوات البشر.
وهناك عدة انماط ايذا من نماذج التعليم الالي والتعلم العميق التي تدرب على اساس دخل نصي وخرج صوتي.
مكونات التفاعل الصوتي Components of voice Interaction:
- التعرف على الكلام
- تحليل النص لفهم المعنى
- تحديد ما يجب قوله او فعله بناء على الدخل الصوتي والبيئة المحيطة.
- تحويل النص الى كلام للرد على كلام بناء على استفساره.