به گزارش
گرداب، امروزه تلفن و سامانههاي رايانه - تلفني، بخشي جدانشدني از فعاليتهاي سازمانها و شرکتها هستند که بسياري از خدمات را از راه دور و با کمترين تجهيزات و هزينه به مشتريان ارائه ميدهند. سامانههاي خودکار تلفني امروزي در داخل کشور مبتني بر روش Touch-Tone هستند که جهت ايجاد ارتباط بين کاربر و سيستم از دکمههاي تلفن استفاده ميکنند. در اين سامانهها، اطلاعات در سطوح مختلفي طبقهبندي شده است که در زمان تماس کاربر با سامانه، يک راهنمايي در هر سطح براي کاربر پخش ميشود که تعيين ميکند براي هر کار چه دکمهاي را فشار دهد. اين مسئله در سطوح مختلف تا رساندن کاربر به مقصد مورد نظر تکرار ميشود. بديهي است که سطحبنديهاي مختلف و نياز به پخش راهنمايي در هر سطح جهت تعيين شمارههاي روي صفحه تلفن به فعاليتها و درخواستهاي آن سطح، باعث افزايش زمان مکالمه و پيچيدگي ميشود. اين مسئله کاربردهاي سيستمهاي خودکار تلفني را محدود ميکند و در اغلب مواقع نيز براي کاربر خوشايند نيست.
تيمي از محققان ايراني در يك شركت دانش بنيان با دستيابي به فناوري پيشرفته تشخيص گفتار، نخستين سامانه رايانه-تلفني به زبان فارسي را طراحي كرده اند که علاوه بر پشتيباني از تمام قابليتهاي سيستمهاي تلفن گوياي کلاسيک (مبتني بر Touch-Tone)، داراي قابليتهاي مبتني بر هوش مصنوعي شامل فناوريهاي تشخيص خودکار گفتار، تبديل متن به گفتار (متنخوان)، شناسايي گوينده از روي صدا و جستوجو در گفتار تلفني نيز هست. استفاده از اين قابليتهاي هوشمند مبتني بر گفتار، علاوه بر آسانتركردن ارتباط مشتري با سيستمهاي تلفني، كاهش هزينه و ارائه بهتر سرويسها به مشتريان را به دنبال دارد.
مهندس "خسرو حسين زاده"، سرپرست تيم طراحي اين نرمافزار درباره كاربردهاي نرم افزار طراحي شده به گفت: «نرم افزار "نيوشا" از نرم افزارهاي مبتني بر سيستم تشخيص گفتار پيوسته فارسي است كه براي تشخيص گفتار از پشت تلفن توسعه داده شده است. استفاده از نرم افزار تشخيص گفتار تلفني در موسسات و ادارات علاوه بر تسهيل ارتباط مشتري با آنها به كاهش هزينه و ارائه بهتر خدمات به مشتريان منجر مي شود.»
وي، منشي خودكار تلفني مبتني بر گفتار، تشخيص اعداد فرامين صوتي از پشت تلفن، سيستم IVR تلفني مبتني بر گفتار براي بانكها، سيستم اطلاع رساني تلفني مبتني بر گفتار براي سازمانها و تلفنهاي گوياي "نداي سلامت" و "نداي قرآن" را از جمله نسخههاي توسعه داده شده سيستم تشخيص گفتار تلفني نيوشا عنوان كرد.
به گفته حسين زاده با استفاده از قابليت تشخيص خودکار گفتار در اين نرم افزار، کاربر ميتواند درخواست خود را به سامانه به صورت گفتاري بيان كند و سامانه از روي صحبت وي، فعاليت موردنظر را تشخيص دهد. به عبارتي، در اين حالت نيازي به منوبندي و پخش راهنماييهاي طولاني در هر منو وجود ندارد و کاربر ميتواند مشابه با حالتي که با يک اپراتور انساني صحبت ميکند، با سامانه ارتباط برقرار كند.
وي تصريح كرد: «سامانه نيوشا ميتواند در تمام کاربردهاي تلفني خودکار مورد استفاده قرار گيرد كه از جمله آنها مي توان به منشي خودکار تلفني مبتني بر گفتار، سامانههاي تلفن گويا و IVR، سامانههاي اطلاعرساني تلفني، اطلاعات سازماني، پزشکي، آموزشي، اخبار، هواشناسي، سامانههاي ارتباط با مشتري و CRM، سامانههاي تلفن بانک، سامانههاي آموزشي، آموزش تلفني، اطلاعرساني دانشجويان و دانشآموزان و اوليا و سامانههاي پزشکي و درمان، سامانههاي سرگرمي و تفريحي، مسابقات، قرعه کشي، فرمهاي تلفني و نظر سنجيهاي تلفني و رزرواسيون تلفني (بليت هواپيما و قطار و سينما و ...) اشاره كرد.»
وي در بيان محدوديتهاي سامانههاي تلفني مبتني بر Tone در مقايسه با سامانه رايانه-تلفني تشخيص گفتار كه به گفته وي در بسياري موارد به غيرعملي بودن استفاده از آنها منجر مي شود به تلفن گوياي قرآن اشاره كرد و گفت: «در سامانه گوياي قرآني، کاربر با شماره مورد نظر تماس گرفته و بعد از بيان شماره سوره، شماره آيه و شماره مربوط به قاري مورد نظر، به آيات قرآن گوش ميدهد. حال اگر فردي شماره سوره مورد نظر خود را نداند، چه بايد کرد؟ آيا بايد به اين راهنمايي طولاني که "شماره 1 سوره حمد، شماره 2 سوره بقره، .... و شماره 114 سوره ناس" گوش دهد؟ واضح است که گوش دادن به اين راهنمايي شش دقيقهاي براي بيشتر کاربران غير قابل قبول است. اين مشكل در سامانه رايانه - تلفني مبتني بر گفتار وجود ندارد و کاربر ميتواند به صورت گفتاري اسم سوره را بيان کند که بسيار راحتتر و سريعتر است. اين مسئله به صورت مشابهي براي بيان نام قاري و يا بيان شماره آيات هم صادق است. در حالت حرفهاي تر کاربر ميتواند تمام درخواست خود را در يک سطح و به صورت "آيه شماره 5 از سوره نسا با صداي استاد "عبدالباسط" را پخش کنيد" بيان کند. به صورت مشابه ميتوان اثربخشي نيوشا را در کاربردهاي ديگري مانند تلفن گوياي 118، اطلاع رساني پزشکي (بيماريها و داروها)، اطلاعات بانکها (از جمله شعب آنها) و ... مشاهده کرد.»
حسين زاده خاطرنشان كرد: «به کمک تبديل متن به گفتار (متنخوان)، نرم افزار قادر است متون مختلف را به گفتار تبديل كنند که منجر به انعطافپذيري بسيار بالاي سامانه در تغيير دادن متون به جاي صداهاي از قبل ضبط شده و کاهش هزينههاي توليد ميشود. »
وي خاطرنشان كرد: «به کارگيري شناسايي گوينده از روي صدا، سامانه نيوشا را قادر به تشخيص هويت فرد تماس گيرنده از روي صداي وي ميکند. از اين قابليت ميتوان به عنوان يک روش براي شناسايي افراد تماس گيرنده و يا براي بالا بردن امنيت (مثلا در تماس با تلفنبانکها) بهره گرفت. از آنجا که صداي فرد همواره همراه وي بوده و معايبي مانند گم شدن و دزديده شدن را ندارد و نيازي به حضور فيزيکي فرد براي شناسايي وي نيست، بهتر از روشهاي امنيتي ديگر است.»
حسين زاده تصريح كرد: «با بهرهگيري از جستوجوگر کلمات و عبارات در گفتار تلفني در نيوشا ميتوان سامانه را به کلمات مشخصي در مکالمه حساس كرد که در صورت بيان کلمات مشخص شده، سامانه با آن مکالمه رفتار متفاوتي داشته باشد.»
وي، تسريع ارتباط مشتريان با سيستم تلفني، کم کردن منوها و راهنماييها، تسهيل ارتباط کاربران با سيستم به ويژه افراد مسن و داراي معلوليت، کاهش هزينهها و کم کردن زمان ارتباط کاربران با سيستم، حذف وابستگي سيستم فعلي به قابليت تن، کمک به امنيت سيستم، حافظهدار بودن گوشيها (نگهداري اطلاعات مهم مثل شماره حساب)، تشخيص هويت از روي صدا، ايجاد رضايت مشترياني و اثرگذاري زياد روي مشتريان با توجه به جديد و جذاب بودن فناوري را از مزاياي اين سيستم عنوان كرد.
حسين زاده در عين حال با اشاره به پيچيدگي و سطح بالاي فناوري به كار رفته در نرم افزار نيوشا گفت: «هوشمندسازي مبتني بر گفتار در كل فرآيند پيچيده و مشکلي است و هوشمندسازي سامانههاي تلفني داراي پيچيدگي بيشتري است، چرا که تشخيص گفتار تلفني بايد مستقل از صداي گوينده باشد (چون از پشت خط تلفن گوينده مشخص نيست) تنوع صدا و لهجه گويندهها اعم از جوان، پير، زن، مرد و ... بسيار بالاست كه اين مساله بر پيچيدگيها ميافزايد، گويندهها عمدتاً به صورت محاورهيي صحبت ميکنند، کيفيت سيگنال خط تلفن براي تشخيص گفتار پايين است - به طوري که گاهي انسان هم قادر به تشخيص درست کلمات بيان شده نيست - پهناي باند فرکانسي سيگنال تلفني محدود به 4 کيلوهرتز است در حالي که در کاربردهاي ميکروفوني تشخيص گفتار اين مقدار حداقل 8 کيلوهرتز است و ديگر اين كه توليد صداي طبيعي و به صورت برخط (Online) کار دشواري است.»
وي در پايان خاطرنشان كرد: «با موفقيت محققان اين شركت دانش بنيان داخلي در توليد نرم افزار نيوشا در حال حاضر اين سيستم به طور عملي در يك بانك خصوصي و چندين سازمان مختلف در حال ارائه خدمات به مشتريان است.»
منبع:
ایسنا