Gerdab.IR | گرداب

نیوشا؛ نخستین سامانه تلفنی هوشمند

تاریخ انتشار : ۰۱ خرداد ۱۳۹۱

با دستيابي به فناوري طراحي و ساخت نرم‌افزار تشخيص گفتار مستقل از گوينده، امكان تشخيص و پاسخگويي تلفني به مشتريان و متقاضيان خدمات موسسات و ادارات فراهم شد.

به گزارش گرداب، امروزه تلفن و سامانه‌هاي رايانه - تلفني، بخشي جدانشدني از فعاليت‌هاي سازمان‌ها و شرکت‌ها هستند که بسياري از خدمات را از راه دور و با کمترين تجهيزات و هزينه به مشتريان ارائه مي‌دهند. سامانه‌هاي خودکار تلفني امروزي در داخل کشور مبتني بر روش Touch-Tone هستند که جهت ايجاد ارتباط بين کاربر و سيستم از دکمه‌هاي تلفن استفاده مي‌کنند. در اين سامانه‌ها، اطلاعات در سطوح مختلفي طبقه‌بندي شده است که در زمان تماس کاربر با سامانه، يک راهنمايي در هر سطح براي کاربر پخش مي‌شود که تعيين مي‌کند براي هر کار چه دکمه‌اي را فشار دهد. اين مسئله در سطوح مختلف تا رساندن کاربر به مقصد مورد نظر تکرار مي‌شود. بديهي است که سطح‌بندي‌هاي مختلف و نياز به پخش راهنمايي در هر سطح جهت تعيين شماره‌هاي روي صفحه تلفن به فعاليت‌ها و درخواست‌هاي آن سطح، باعث افزايش زمان مکالمه و پيچيدگي مي‌شود. اين مسئله کاربردهاي سيستم‌هاي خودکار تلفني را محدود مي‌کند و در اغلب مواقع نيز براي کاربر خوشايند نيست.

تيمي از محققان ايراني در يك شركت دانش بنيان با دستيابي به فناوري پيشرفته تشخيص گفتار، نخستين سامانه رايانه-تلفني به زبان فارسي را طراحي كرده اند که علاوه بر پشتيباني از تمام قابليت‌هاي سيستم‌هاي تلفن‌ گوياي کلاسيک (مبتني بر Touch-Tone)، داراي قابليت‌هاي مبتني بر هوش مصنوعي شامل فناوري‌هاي تشخيص خودکار گفتار، تبديل متن به گفتار (متن‌خوان)، شناسايي گوينده از روي صدا و جست‌وجو در گفتار تلفني نيز هست. استفاده از اين قابليت‌هاي هوشمند مبتني بر گفتار، علاوه بر آسان‌تركردن ارتباط مشتري با سيستم‌هاي تلفني، كاهش هزينه و ارائه بهتر سرويس‌ها به مشتريان را به دنبال دارد.

مهندس "خسرو حسين زاده"، سرپرست تيم طراحي اين نرم‌افزار درباره كاربردهاي نرم افزار طراحي شده به گفت: «نرم افزار "نيوشا" از نرم افزارهاي مبتني بر سيستم تشخيص گفتار پيوسته فارسي است كه براي تشخيص گفتار از پشت تلفن توسعه داده شده است. استفاده از نرم افزار تشخيص گفتار تلفني در موسسات و ادارات علاوه بر تسهيل ارتباط مشتري با آنها به كاهش هزينه و ارائه بهتر خدمات به مشتريان منجر مي شود.»

وي، منشي خودكار تلفني مبتني بر گفتار، تشخيص اعداد فرامين صوتي از پشت تلفن، سيستم IVR تلفني مبتني بر گفتار براي بانك‌ها، سيستم اطلاع رساني تلفني مبتني بر گفتار براي سازمان‌ها و تلفن‌هاي گوياي "نداي سلامت" و "نداي قرآن" را از جمله نسخه‌هاي توسعه داده شده سيستم تشخيص گفتار تلفني نيوشا عنوان كرد.

به گفته حسين زاده با استفاده از قابليت تشخيص خودکار گفتار در اين نرم افزار، کاربر مي‌تواند درخواست خود را به سامانه به صورت گفتاري بيان كند و سامانه از روي صحبت وي، فعاليت موردنظر را تشخيص دهد. به عبارتي، در اين حالت نيازي به منوبندي و پخش راهنمايي‌هاي طولاني در هر منو وجود ندارد و کاربر مي‌تواند مشابه با حالتي که با يک اپراتور انساني صحبت مي‌کند، با سامانه ارتباط برقرار كند.

وي تصريح كرد: «سامانه‌ نيوشا مي‌تواند در تمام کاربردهاي تلفني خودکار مورد استفاده قرار گيرد كه از جمله آنها مي توان به منشي خودکار تلفني مبتني بر گفتار، سامانه‌‌هاي تلفن گويا و IVR، سامانه‌‌هاي اطلاع‌رساني تلفني، اطلاعات سازماني، پزشکي، آموزشي، اخبار، هواشناسي، سامانه‌‌هاي ارتباط با مشتري و CRM، سامانه‌‌هاي تلفن بانک، سامانه‌‌هاي آموزشي، آموزش تلفني، اطلاع‌رساني دانشجويان و دانش‌آموزان و اوليا و سامانه‌‌هاي پزشکي و درمان، سامانه‌‌هاي سرگرمي و تفريحي، مسابقات، قرعه کشي، فرم‌هاي تلفني و نظر سنجي‌هاي تلفني و رزرواسيون تلفني (بليت هواپيما و قطار و سينما و ...) اشاره كرد.»

وي در بيان محدوديت‌هاي سامانه‌هاي تلفني مبتني بر Tone در مقايسه با سامانه رايانه-تلفني تشخيص گفتار كه به گفته وي در بسياري موارد به غيرعملي بودن استفاده از آنها منجر مي شود به تلفن گوياي قرآن اشاره كرد و گفت: «در سامانه گوياي قرآني، کاربر با شماره مورد نظر تماس گرفته و بعد از بيان شماره سوره، شماره آيه و شماره مربوط به قاري مورد نظر، به آيات قرآن گوش مي‌دهد. حال اگر فردي شماره سوره مورد نظر خود را نداند، چه بايد کرد؟ آيا بايد به اين راهنمايي طولاني که "شماره 1 سوره حمد، شماره 2 سوره بقره، .... و شماره 114 سوره ناس" گوش دهد؟ واضح است که گوش دادن به اين راهنمايي شش دقيقه‌‌اي براي بيشتر کاربران غير قابل قبول است. اين مشكل در سامانه رايانه - تلفني مبتني بر گفتار وجود ندارد و کاربر مي‌تواند به صورت گفتاري اسم سوره را بيان کند که بسيار راحت‌‌تر و سريع‌تر است. اين مسئله به صورت مشابهي براي بيان نام قاري و يا بيان شماره آيات هم صادق است. در حالت حرفه‌اي تر کاربر مي‌تواند تمام درخواست خود را در يک سطح و به صورت "آيه شماره 5 از سوره نسا با صداي استاد "عبدالباسط" را پخش کنيد" بيان کند. به صورت مشابه مي‌توان اثربخشي نيوشا را در کاربردهاي ديگري مانند تلفن گوياي 118، اطلاع رساني پزشکي (بيماري‌ها و داروها)، اطلاعات بانک‌ها (از جمله شعب آنها) و ... مشاهده کرد.»

حسين زاده خاطرنشان كرد: «به کمک تبديل متن به گفتار (متن‌خوان)، نرم افزار قادر است متون مختلف را به گفتار تبديل كنند که منجر به انعطاف‌پذيري بسيار بالاي سامانه در تغيير دادن متون به جاي صداهاي از قبل ضبط شده و کاهش هزينه‌هاي توليد مي‌شود. »

وي خاطرنشان كرد: «به‌ کارگيري شناسايي گوينده از روي صدا، سامانه نيوشا را قادر به تشخيص هويت فرد تماس گيرنده از روي صداي وي مي‌کند. از اين قابليت مي‌توان به عنوان يک روش براي شناسايي افراد تماس گيرنده و يا براي بالا بردن امنيت (مثلا در تماس با تلفن‌بانک‌ها) بهره گرفت. از آنجا که صداي فرد همواره همراه وي بوده و معايبي مانند گم شدن و دزديده شدن را ندارد و نيازي به حضور فيزيکي فرد براي شناسايي وي نيست، بهتر از روش‌هاي امنيتي ديگر است.»

حسين زاده تصريح كرد: «با بهره‌گيري از جست‌وجوگر کلمات و عبارات در گفتار تلفني در نيوشا مي‌توان سامانه را به کلمات مشخصي در مکالمه حساس كرد که در صورت بيان کلمات مشخص شده، سامانه با آن مکالمه رفتار متفاوتي داشته باشد.»

وي، تسريع ارتباط مشتريان با سيستم تلفني، کم کردن منوها و راهنمايي‌ها، تسهيل ارتباط کاربران با سيستم به ويژه افراد مسن و داراي معلوليت، کاهش هزينه‌ها و کم کردن زمان ارتباط کاربران با سيستم، حذف وابستگي سيستم فعلي به قابليت تن، کمک به امنيت سيستم، حافظه‌دار بودن گوشي‌ها (نگهداري اطلاعات مهم مثل شماره حساب)، تشخيص هويت از روي صدا، ايجاد رضايت مشترياني و اثرگذاري زياد روي مشتريان با توجه به جديد و جذاب بودن فناوري را از مزاياي اين سيستم عنوان كرد.

حسين زاده در عين حال با اشاره به پيچيدگي و سطح بالاي فناوري به كار رفته در نرم افزار نيوشا گفت: «هوشمندسازي مبتني بر گفتار در كل فرآيند پيچيده و مشکلي است و هوشمندسازي سامانه‌هاي تلفني داراي پيچيدگي بيشتري است، چرا که تشخيص گفتار تلفني بايد مستقل از صداي گوينده باشد (چون از پشت خط تلفن گوينده مشخص نيست) تنوع صدا و لهجه گوينده‌ها اعم از جوان، پير، زن، مرد و ... بسيار بالاست كه اين مساله بر پيچيدگي‌ها مي‌افزايد، گوينده‌ها عمدتاً به صورت محاوره‌يي صحبت مي‌کنند، کيفيت سيگنال خط تلفن براي تشخيص گفتار پايين است - به طوري که گاهي انسان هم قادر به تشخيص درست کلمات بيان شده نيست - پهناي باند فرکانسي سيگنال تلفني محدود به 4 کيلوهرتز است در حالي که در کاربردهاي ميکروفوني تشخيص گفتار اين مقدار حداقل 8 کيلوهرتز است و ديگر اين كه توليد صداي طبيعي و به صورت برخط (Online) کار دشواري است.»

وي در پايان خاطرنشان كرد: «با موفقيت محققان اين شركت دانش بنيان داخلي در توليد نرم افزار نيوشا در حال حاضر اين سيستم به طور عملي در يك بانك خصوصي و چندين سازمان مختلف در حال ارائه خدمات به مشتريان است.»

منبع: ایسنا