seif el deen abul gasim semmin
سيف الدين أبو القاسم
التعرف على الكلام Speech Recognition هنالك عدة تعريفات للتعرف على الكلام ولكنها تجتمع في بعض المعانب الموحدة و يمكن استخلاص تعريف شامل للتعرف على الكلام وهو التقنية أو الالية اتي يستطيع بها الحاسب الالي التعرف على اللغات البشرية المنطوقة وفهم معانيها، وهو يضم ايضاً عملية تحويل النصوص المنطوقة إلى نصوص مكتوبة و تحديداً يقصد بها الكلم الموجهالى جهاز الحاسوب. النطق Utterance هي الكلمة المنطوقة او الكلمات المنطوقة والتي تحمل معنى مفرد للحاسب الالي و يمكن ان تكون كلمة واحدة او عدة كلمات أو جملة. اعتمادية المتحدث او المتكلمSpeeker Indepemdent هنالك نظم برمجية تصمم بمفهوم اعتمادية المتكلم بمعنى ان هناك متحدث معين يصمم من اجله النظام و هي من أكثر النظم دقة في التعامل مع اخطاء المستخدم ولكن اقل دقة في التعامل مع اخطاء المستخدمين الاخرين الذين لم يخصص لهم النظام. و تلك النظم تفترض ان المتكلم المعين سيتحدث بصوت متناسق و مفهوم باللنسبة لها اي انها تتعود على نبرة صوت المستخدم المعين.
هذه النظم في البدء لا تكون مخصصة لمستخدم معين و لكن عن طريق تدريبها على صوت المستخدم تصبح مخصصة له فقط، بل انها تعاني من بعض المشاكل عند تعامل مستخدم غرييب بالنسبة لها لانها تتكيف مع المستخدم الاصلي فقط.
المفردات Vocabularies يطلق عليها احياناً لفظ القاموس، وهي عبارة عن قائمة مكونة من الكلمات او النطق Utterance التي تٌتوقع من قبل النظام، اي التي يستطيع النظام التعرف عليها، لهذه القائمة دور كبير في كفاءة النظام اذ انه كلما قلت هذه القائمة كلما ذادت كفاءة النظام ، و كلما ذادت، قلت كفاءة النظام. التدقيق هو مقدرة برنامج التعرف على الكلام في اختبار و قياس دقة المتكلم. اي معرفة نسبة الخطأ لدى المستخدم ليتفادى و يصحح اخطاءه. ويضم التدقيق الكلمات الغير موجودة في القاموس. التدريب Traning يوجد في برامج التعرف على الكلام التي لها القدرة على التكيف مع مستخدمين معينين، وهو عملية تحويل البرنامج إلى User or Speaker Independent. الي بمعنا اخر تعويد النظام وتدريبه على صوت المتكلم الاصلي الذي سيستخدم البرنامج. وفي عملية التدريب يقوم النظام بالتغيير في خوارزميات مطابقة الكلمات لتتناسب مع دقة المستخدم. يسخدم التدريب ايضاًََ من قبل المتكلمين الذين يواجهون صعوبة في نطق بعض الكلمت و الالفاظ. تصنيفات التعرف على الكلام: عند تحدث المستخدم الحاسوب عن طريق الميكرفون يدخل صوتهالى الحاسب الالي في شكل اشارات تماثلية و يتم تحويلها إلى إلى اشارات رقمية عن طريق الدوائر المتكاملة. و بعد ذلك تاتي عملية الحصول على النص المطلوب، وتتم هذه العملية بعدة طرق منها: 1- Pattern Matching techniques: و فيها تتم مطابقة الكلمة المنطوقة بواسطة المستخدم بكل الكلمات المخزونة مسبقاً في القاموس، و يتم حساب مدى الاختلاف بينها و بين كل الكلمات الموجودة في القاموس و أخذ أفضل النتائج على انها الكلمة المقصودة. قل استخدام هذا االنموزج و اصبح استخدامه نادراً جدا منذ الثمنينيات بعد ان اتت طرق مطورة و أفضل منه بكثير اذ ان مشكلته تكمن في عدم دقته عندما تكون الكلمة خارج القاموس، اذ يؤدي إلى نتائج مغلوطة، وايضاً اذا كان المستخدم لا يواجه صعوبة في نطق بغض الكلمات يتحصل على نتائج مغلوطة. 2- Neural NetWorks الشبكات العصبية هي نظام ذكاء اصطناعي يقوم بمحاكاة النظام العصبي البشري و تتالف الشبكة العصبية من عدد كبيرمن العقد. و هذه العقد ترتب في شكل طبقات و مستويات، و هذه العقد مرتبطة مع بعضها البعض بأوزان يعبر عنها بقيم مختلفة، اي لكل عقدة في كل مستوى و زنها الخاص. تقوم الشبكة بأخذ كلام المستخدم كمدخل لها في الطبقة الاولى و هي طبقة الادخال، ثم نقوم بعملية المعالجة، ثم تقوم بتسليمه بعد المعالجة إلى الطبقة االتالية بقيمة مختلفة للوزن. تفاعل كل عقدة مع دخلها يحدد عادة بدالة غير خطية في مجموع اوزان الخرج. يختلف هذا النموزج عن سابقه في ان الشبكة العصبية لها المقدرة على التصحيح، اي تستطيع تصحيح نفسها، مستفيدة من اخطاء المستخدم. و ان قيم الاوزان في الشبكة تتغيرفي كل عملية معالجة حسب القيود الصحيحة في عملية التدريب. نجد ان هذا النموزج قد تغلب علا معضلات النموزج السابق و لكن له عيوب ايضاً، هذه العيوب ادت إلى فشل الشبكات العصبية في التعرف المستمر للكلام، ولكنها استخدمت في نمازج اخرى للتعرف على الكلام مثل نموزج ماركوف الخفي. 3- Knowledge Based Approaches ان نظم قواعد المعرفة او الانظمة الخبيرة ايضاً من نظريات الزكاء الاصطناعي، ولكنها اتت بهدف مختلف عن النمازج السابقة. اذ انها تت بهدف التعرّف على الاختلاف و الفرق بين الاصوات أو تمييز الاصوات. وبها قيود كثيرة اغلبها مشتقة من إشارة و نبرة صوت المستخدم، لكي تتعرف على نبرة صوته او اي تغيير في صوته. 4- Hidden Markov Model HMM ............................................................................................................................................................................................................ ............................................................................................................................................................................................................ ............................................................................................................................................................................................................ ............................................................................................................................................................................................................ ............................................................................................................................................................................................................ ............................................................................................................................................................................................................ ............................................................................................................................................................................................................ ............................................................................................................................................................................................................ ............................................................................................................................................................................................................ ............................................................................................................................................................................................................