Артыкул вымагае праверкі арфаграфіі Магчымы машынны пераклад, ужыванне ненарматыўнага правапісу або лексікону. Для праверкі ёсць адмысловыя праграмы. |
Распазнаванне маўлення – гэта міждысцыплінарнае падполе камп’ютарнай лінгвістыкі, якое займаецца распрацоўкай метадалогій і тэхналогій, што дазваляюць камп’ютару распазнаваць і пераўтвараць маўленне ў тэкст. Распазнаванне маўлення таксама вядома як ASR (англ.: automatic speech recognition — «аўтаматычнае распазнаванне маўлення») альбо проста STT (англ.: speech-to-text — «маўленне ў тэкст»). Сюды ўключаюцца веды і даследаванні ў галінах лінгвістыкі, інфарматыкі і электратэхнікі.
Некаторыя сістэмы распазнавання маўлення патрабуюць так званага «навучання». Гэты метад уяўляе сабой начытку пэўным дыктарам тэксту альбо асобнага слоўніка ў сістэму, пасля чаго сістэма аналізуе голас чалавека і выкарыстоўвае яго для далейшай дакладнай настройкі. Сістэмы, якія не выкарыстоўваюць метад навучання, называюцца «дыктаранезалежнымі».[1]
Прылады распазнавання маўлення ўключаюць такія галасавыя карыстальніцкія інтэрфейсы, як галасавы набор (напрыклад, «Дамашні званок»), маршрутызацыя званкоў (напрыклад, «Я жадаю зрабіць групавы званок»), кіраванне прадметамі хатняга ўжытку, пошук (напрыклад, знайсці падкаст, дзе былі ўжыты пэўныя словы), просты ўвод дадзеных (увод нумара банкаўскай карткі), падрыхтоўка структурных дакументаў (напрыклад, справаздача па радыялогіі), авіясфера (як правіла, так званы direct voice input – кіраванне некаторымі функцыямі самалёта простымі камандамі).
З тэхналагічнага погляду, распазнаванне маўлення мае моцную сувязь з хвалямі інавацый за апошнія гады. Прарывы ў такіх сферах, як глыбокае навучанне і Big Data далі важкія падставы для развіцця ASR увогуле. Поспехі ў плыні можна заўважыць не толькі па колькасці акадэмічных артыкулаў, але і па ўкараненні метадаў глыбокага навучання ў дачыненні да сістэм распазнавання маўлення. Такія пачвары сучаснага ІТ, як Google, Microsoft, IBM, Baidu, Apple, Amazon, Nuance, SoundHound, iFLYTEK прадставілі свае тэхналогіі распазнавання маўлення заснаванымі на метадах глыбокага навучання.
У 1952 годзе тры даследчыкі Bell Labs пабудавалі сістэму для распазнавання маўлення аднаго чалавека. Гэтая сістэма працавала паводле прынцыпу лакалізацыі фармант у энергетычным спектры кожнага выказвання.[2]
У дачыненні да маўлення Гунар Фант распрацаваў мадэль паводле тыпу «крыніца-фільтр» і апублікаваў яе ў 1960 годзе, што потым апынулася сапраўднай знаходкай.
На жаль, фінансаванне Bell Labs на некалькі год спынілася, калі ў 1969 годзе ўплывовы Джон Пірс напісаў адкрыты ліст, які крытыкаваў даследаванні па распазнаванні маўлення.[3] Такім чынам, Пірс спыніў грашовую падтрымку праэкта да моманту, пакуль Джон Фланаган не пераняў пасаду.
Рэдж Рэдзi, студэнт Стэнфардскага універсітэту, быў першым, хто працягнуў працаваць над распазнаваннем бесперапыннага маўлення ў канцы 60-х гадоў. Папярэднія ж сістэмы патрабавалі, каб дыктар рабіў паўзу пасля кожнага слова. Сістэма Рэдзі паспяхова выкарыстоўвалася ў шахматах.
Таксама прыкладна ў гэты час савецкія даследчыкі вынайшлі алгарытм дынамічнай трансфармацыі часавай шкалы (альбо DTW — Data Time Warping), які быў выкарыстаны для стварэння распазнавальніка, здольнага працаваць на 200 словах слоўніка.[4] Прынцып алгарытму DTW заключаецца ў апрацоўцы маўленчага сігнала шляхам дзялення яго на кароткія фрэймы (напрыклад, па 10 мс) і постапрацоўцы кожнага фрэйма асобна. Хаця DTW потым і будзе заменена больш познімі алгарытмамі, методыка падзелу сігналу на фрэймы стане падставай для далейшых алгарытмаў. Дасягненне дыктаранезалежнасці было галоўнай нявырашанай задачай даследчыкаў на працягу таго часу.
У канцы 1960-х гадоў Леанард Баўм распрацаваў матэматыку ланцугоў Маркава ў Інстытуце Аналізу Абароны. Праз дзесяць гадоў для распазнавання маўлення Джэймс Бэйкер і Джанет М. Бэйкер (студэнты Раджа Рэдзі) пачалі выкарыстоўваць Схаваныя Маркаўскія Мадэлі (HMM — Hidden Markov Model).[5] Джэймс Бэйкер даведаўся пра HMM, калі атрымоўваў вышэйшую адукацыю ў Інстытуце Аналізу Абароны падчас летняй практыкі. Выкарыстанне НММ дазволіла даследчыкам аб’яднаць розныя крыніцы ведаў, такія як акустыка, мова і сінтаксіс у адзіную імавернасную мадэль.
У сярэдзіне 1980-х гадоў IBM пад кіраўніцтвам Фрэда Элінэка стварылі пішучую машынку на галасавым кіраванні пад назвай Tangora, якая магла справіцца з 20000 слоў слоўніка.[6] Пры статыстычным падыходзе Элінэка звярталася менш увагі на эмуляцыю працэсаў распазнавання і разумення маўлення мозгам. Замест гэтага былі прыменены метады статыстычнага мадэлявання, падобныя да HMM. (група Элінэка сама незалежна выявіла прымяненне HMM да маўлення).[7] Аднак такі прарыў быў спрэчна сустрэты лінгвістамі, паколькі алгарытмы НММ былі занадта спрошчаныя для тлумачэння многіх агульных рысаў чалавечых моў.[8] Тым не менш, HMM апынуўся вельмі карысным сродкам для мадэлявання маўлення і стаў дамінуючым алгарытмам распазнавання маўлення ў 1980 годзе[9], цалкам замяніўшы папярэднія алгарытмы DTW.
Большая частка прагрэсу ў галіне належала новым магчымасцям камп’ютараў, якія ў той час развіваліся надзвычай інтэнсіўна. У канцы праграмы DARPA ў 1976 годзе, лепшым камп’ютарам для даследчыкаў быў PDP-10 з 4 Мб аператыўнай памяці. Каб дэкадаваць толькі 30 секунд маўлення, камп’ютарам патрабавалася ажно 100 хвілін.[10] Калі хуткасць камп’ютараў павялічылася, даследчыкі пачалі вырашаць больш складаныя праблемы, такія як вялікія слоўнікі, акустычная незалежнасць, шумная абстаноўка і гутарковае маўленне. Гэтае пераключэнне на больш складаныя задачы тлумачыла пладавітасць 1980-х гадоў як заслугу фінансавання DARPA. Так, быў дасягнуты прагрэс у дыктаранезалежнасці спачатку шляхам навучання на вялікай колькасці розных дыктараў, а потым праз адаптацыю сістэмы пад пэўнага дыктара падчас дэкадавання. Далейшае зніжэнне частаты памылак у словах стала магчымым дзякуючы замене акустычных мадэляў максімальнага падабенства дыскрымінацыйнымі.[11]
У сярэдзіне 1980-х гадоў з’явіліся мікрапрацэсары для распазнавання маўлення. Напрыклад, RIPAC, дыктаранезалежны чып для бесперапыннага маўлення (створаны для тэлефонных сэрвісаў), быў прадстаўлены ў Нідэрландах у 1986 годзе.[12] Ён быў распрацаваны CSELT/Elsag і выраблены SGS.[13].
У 1990-я гады з’явіліся першыя камерцыйна паспяховыя тэхналогіі распазнавання маўлення. Двума самымі раннімі прадуктамі былі Dragon Dictate, спажывецкі прадукт, выпушчаны ў 1990 годзе па цане $ 9000, і распазнавальнік ад Kurzweil Applied Intelligence, выпушчаны ў 1987 годзе.[14][15] У 1992 годзе AT&T разгарнула службу Voice Recognition Call Processing для маршрутызацыі тэлефонных званкоў без удзелу чалавека-аператара.[16] Гэтая тэхналогія была распрацавана Лоўрэнсам Рабінерам і іншымі з Bell Labs. У гэты час слоўнікавы запас тыповай сістэмы камерцыйнага распазнавання маўлення ўжо перавышаў сярэдні чалавечы слоўнікавы запас. Былы студэнт Раджа Рэдзі, Хуэдонг Хуанг, распрацаваў сістэму Sphinx-II пры CMU. Сістэма Sphinx-II была першай, якая не залежала ад дыктара, мела вялікі слоўнікавы запас, бесперапыннае распазнаванне маўлення і, акрамя таго, мела найвышэйшыя адзнакі па ацэнцы DARPA.
Lernout & Hauspie, бельгійская кампанія па распазнаванні маўлення, набыла некалькі іншых кампаній, у тым ліку Kurzweil Applied Intelligence ў 1997 годзе і Dragon Systems ў 2000 годзе. Тэхналогіі L&H былі выкарыстаны ў Windows XP. L&H былі лідарамі галіны, пакуль у 2001 годзе фінансавы скандал не паклаў канец кампаніі. Маўленчая тэхналогія L&H была набыта ScanSoft, якія ў 2005 годзе пераўтварыліся ў Nuance.[17] Apple першапачаткова ліцэнзіравалі праграмны софт ад Nuance для забеспячэння лічбавага дапаможніка Siri магчымасцю распазнавання маўлення.
У 2000-я гады DARPA стала спонсарам дзвюх праграм распазнавання маўлення: Effective Affordable Reusable Speech-to-Text (EARS) у 2002 годзе і Global Autonomous Language Exploitation (GALE). EARS фінансавалі маўленчы тэлефонны корпус, які змяшчаў 260 гадзін запісаных размоў больш чым 500 дыктарамі.[18] GALE жа была сканцэнтравана на вяшчанні навін на арабскай і кітайскай мовах.
Першая спроба кампаніі Google ў распазнаванні маўлення адбылася ў 2007 годзе пасля найму некаторых даследчыкаў з Nuance.[19] Першым прадуктам быў GOOG-411, служба кіравання тэлефоннымі званкамі. Запісы, зробленыя праз GOOG-411 далі каштоўныя дадзеныя, якія дапамаглі Google палепшыць свае сістэмы распазнавання. Галасавы пошук Google зараз падтрымлівае больш, чым 30 моў.
У пачатку 2000-х гадоў у распазнаванні маўлення дагэтуль дамінавалі традыцыйныя падыходы: напрыклад, Схаваныя Маркаўскія Мадэлі, спалучаныя са штучнымі нейроннымі сеткамі прамой дыстрыбуцыі (feedforward artificial neural networks).[20] Сёння, аднак, многія аспекты распазнавання маўлення былі зроблены прымусова глыбокім метадам навучання (deep learning) пад назвай LSTM (Long short-term memory) - рэкурэнтнай нейронавай сеткі, апублікаванай Зэппам Хохрайтэрам & Юргенам Шмідхуберам у 1997 годзе.[21] LSTM пазбегла праблемы знікнення градыенту і магла спраўляцца з задачамі «Вельмі Глыбокага Навучання»[22], якія патрабуюць успамінаў пра падзеі, якія адбыліся тысячы дыскрэтных часовых крокаў назад, што вельмі важна для прамовы. У 2015 годзе сістэма распазнавання маўлення Google перажыла рэзкі скачок прадукцыйнасці на 49% праз CTC(Connectionist Temporal Classification)-навучаную LSTM[23], якая цяпер даступная праз Google Voice для ўсіх карыстальнікаў смартфонаў.
Выкарыстанне глыбокіх нерэкурэнтных сетак у дачыненні да акустычнага мадэлявання было прадстаўлена ў 2009 Джэфры Хінтанам і яго студэнтамі з Універсітэта Таронта, а таксама Лі Дэнам[24] and colleagues at Microsoft Research, initially in the collaborative work between Microsoft and University of Toronto which was subsequently expanded to include IBM and Google (hence “The shared views of four research groups” subtitle in their 2012 review paper).[25] і яго калегамі з Microsoft Research. Кіраўнік па даследаванням Microsoft назваў гэта новаўвядзенне «найболей рэзкім змяненнем у дакладнасці з 1979 года».[26] У адрозненні ад стабільных паступовых паляпшэнняў на працягу апошніх некалькіх дзесяцігоддзяў, прымяненне глыбокага навучання знізіла частату слоўных памылак на 30%.[26] Гэта новаўвядзенне было хутка прынята ва ўсіх магчымых сферах. Далей даследчыкі пачалі выкарыстоўваць метады глыбокага навучання таксама і для мадэлявання мовы.
У доўгай гісторыі распазнавання маўлення, як дробныя, так і глыбокія нейронныя сеткі былі даследаваны на працягу 1980-х, 1990-х і некалькі гадоў у 2000-я гады.[27][28][29] Але гэтыя метады не маглі параўнацца з тэхналогіяй Гаўссаўскай сумесі размеркавання/Схаванай Маркаўскай мадэллю (GMM-НММ), заснаванай на дыскрымінацыйных генератыўных мадэлях маўлення.[30] Шэраг ключавых цяжкасцяў быў метадалагічна прааналізаваны ў 1990-х гадах. Такія праблемы, як памяншэнне градыенту (gradient diminishing)[31], слабая структура часовай карэляцыі ў нейронавых мадэлях, адсутнасць вялікіх навучальных дадзеных і вялікай вылічальнай магутнасці ў тыя дні азадачыла большасць даследчыкаў, якія былі вымушаны адступіць ад канцэпцыі нейронавых сетак, займаючыся генератыўнымі падыходамі мадэлявання.[32][33] Але ў 2009-2010 гадах, сітуацыя змянілася: Хінтан і Дэн у супрацоўніцтве з калегамі Універсітэту Таронта, Microsoft, Google і IBM адрадзілі прымяненне глыбокіх нейронавых сетак у дачыненні да распазнавання маўлення.[34][35][36][37]
Акустычнае мадэляванне і моўнае мадэляванне з’яўляюцца важнымі часткамі сучасных статыстычных алгарытмаў распазнавання маўлення. Схаваныя Маркаўскія Мадэлі шырока выкарыстоўваюцца ў шэрагу сістэм. Моўнае мадэляванне таксама выкарыстоўваецца ў шмат іншых сферах, такіх як класіфікацыя дакументаў ці статыстычны машынны пераклад.
Сучасных універсальных сістэм распазнавання прамовы на аснове схаваных Маркоўскіх мадэляў. Гэта статыстычныя мадэлі, якія даюць на выхадзе паслядоўнасці знакаў або колькасці. Сістэмай гидрометеомониторинга выкарыстоўваюцца ў распазнаванні прамовы, таму што маўленчай сігнал можна разглядаць як кавалкава-стацыянарнага сігналу або кароткага часу стацыянарнага сігналу. У кароткія тэрміны (напрыклад, 10 мілісекунд), гаворка можа быць аппроксимирован стацыянарным працэсам. Гаворка можа разглядацца як Маркоўская мадэль для многіх выпадковых мэтаў.
Яшчэ адна прычына, чаму HMM карыстаюцца папулярнасцю, заключаецца ў тым, што мадэлі могуць быць навучаны аўтаматычна. Акрамя таго, яны дастаткова простыя для фармалізацыі.
Алгарытм дынамічнай трансфармацыі часовай шкалы (альбо DTW) гістарычна выкарыстоўваўся ў распазнаванні маўлення, але зараз ён заменены на больш паспяховы HMM падыход.
DTW ўяўляе сабой алгарытм для вымярэння падабенства паміж двума паслядоўнасцямі, якія могуць змяняцца па часу або хуткасці. Напрыклад, падабенства ў манеры хаджэння будзе выяўлена нават тады, калі ў адным відэа адзін чалавек ідзе павольна, а другі ідзе хутчэй, або нават пры наяўнасці паскарэнняў і тармажэнняў на працягу аднаго назірання. DTW ўжываецца да відэа, аўдыё і графікі, але на самой справе, любыя дадзеныя, якія могуць быць ператвораныя ў лінейнае прадстаўленне, могуць быць прааналізаваны з дапамогай DTW.
Нейронавыя сеткі з’явіліся як прывабны падыход да акустычнага мадэлявання ASR ў канцы 1980-х гадоў. З тых часоў, нейронавыя сеткі выкарыстоўваліся ў многіх аспектах распазнавання маўлення, такіх як класіфікацыя фанэмы[38], распазнавання ізаляванага слова[39], распазнаванне аўдыёвізуальнага маўлення, аўдыёвізуальныя распазнаванне дыктара і адаптацыя да пэўных дыктараў.
У адрозненне ад HMM, нейронавыя сеткі не робяць ніякіх здагадак аб функцыі статыстычных уласцівасцей і маюць некалькі якасцяў, што робіць іх прывабнымі мадэлямі для распазнавання маўлення. Пры выкарыстанні нейрасетак для ацэнкі верагоднасці пэўнага гукавога сегмента дыскрымінацыйнае навучанне робіцца натуральным і эфектыўным. Аднак, нягледзячы на іх эфектыўнасць у класіфікацыі кароткатэрміновых часовых адзінак (напрыклад, асобных фанем і слоў)[40], нейронавыя сеткі рэдка бываюць удалымі для бесперапынных задач распазнавання, у асноўным з-за адсутнасці здольнасці мадэляваць часовыя залежнасці.
Аднак нядаўнія LSTM Рэкурэнтныя Нейронныя Сеткі (RNN) і Нейронныя Сеткі Затрымкі Часу (TDNN) паказалі сябе здольнымі ідэнтыфікаваць скрытыя тэрміновыя залежнасці і карыстацца гэтай інфармацыяй для выканання разнастайных задач па распазнаванню маўлення.[21][41][42] and Time Delay Neural Networks(TDNN’s)[43]
Поспех DNN у распазнаванні маўлення вялікага слоўніка адбыўся ў 2010 годзе з дапамогай прамысловых і навуковых даследчыкаў. Тады былі прыняты вялікія выходныя пласты DNN на аснове залежных ад кантэксту станаў HMM, пабудаваных дрэвамі рашэнняў.[44][45] [46]
Адным з асноватворных прынцыпаў глыбокага навучання з’яўляецца скасаванне ручнога стварэння прыкмет і выкарыстоўванне неапрацаваных прыкмет («raw» features). Гэты прынцып упершыню быў паспяхова даследаваны ў архітэктуры глыбокага аўтакадавальніка ў дачыненні да «сырой» спектраграмы, паказаўшы сваю перавагу над Мел-Кэпстральнымі прыкметамі[47], якія ўтрымліваюць некалькі этапаў фіксаванай трансфармацыі з спектраграмы. Сапраўдныя «сырыя» прыкметы («raw» features of speech) маўлення (сігналы) зусім нядаўна паказалі сваю выдатную прымяняльнасць у выніках распазнавання.[48]
З 2014 года было праведзена шмат даследаванняў, зацікаўленых у так званым «end-to-end» ASR (распазнаванні маўлення «ад канца да канца»). Традыцыйныя падыходы, пабудаваныя на фанетычнай аснове (маюцца на ўвазе Схаваныя Маркаўскія Мадэлі) патрабавалі асобныя кампаненты і навучанне пад тое альбо іншае вымаўленне, акустычныя і моўныя мадэлі. Мадэлі ‘End-To-End’ сумяшчаюць усе кампаненты маўленчага распазнавальніка. Гэта дастаткова каштоўная асаблівасць, таму што яна спрашчае працэс навучання і працэс размяшчэння. Напрыклад, N-грамная моўная мадэль патрабуецца для ўсіх HMM. А такая тыповая мадэль часта займае некалькі гігабайтаў памяці, што робіць яе непрактычнай для размяшчэння на мабільных прыладах.[49] Такім чынам, сучасныя камерцыйныя ASR сістэмы ад Google і Apple (па стане на 2017 г.) разгорнуты на воблаку і патрабуюць падлучэнняў да сеткі, у адрозненні ад размяшчэння на самім устройстве.
Першай спробай End to End ASR была выканана з дапамогай Нейрасеткавай тэмпаральнай класіфікацыі (СТС), уведзенай Алексам Грэйвсам з Google DeepMind і Наўдзіпам Джэйтлі з Універсітэту Таронта[50]. Мадэль складалася з рэкуррэнтных нейронавых сетак і пласта СТС. Мадэль RNN-CTC сумесна вывучае вымаўленчую і акустычную мадэль разам, аднак ён не здольны вывучаць саму мову падобна HMM. Такім чынам, мадэль СТС можа непасрэдна ператвараць гукі прамовы ў англійскія сімвалы, але такія мадэлі робяць шмат арфаграфічных памылак, таму павінны спадзявацца на асобную моўную мадэль для вырашэння арфаграфічных нюансаў.
Альтэрнатыўны падыход да мадэляў CTC – увага-заснаваныя мадэлі (attention-based models). Адначасова ў 2016 годзе такія мадэлі былі прадстаўлены Чэнам і інш. з універсітэту Меллона-Карнэгі і Google Brain, а таксама Bahdanaua і інш. з Манрэальскага ўніверсітэта.[51][52] Мадэль пад назвай “Listen, Attend and Spell” (LAS) літаральна «слухае» гукавы сігнал, «звяртае ўвагу» да розных частак сігналу і адначасова «піша» транскрыпцыю пачутага. У адрозненні ад мадэляў СТС, увага-заснаваныя мадэлі не маюць здагадак аб умоўнай незалежнасці і могуць вывучыць усе кампаненты распазнавальніка маўлення, непасрэдна ўключаючы вымаўленне, акустычную і моўную мадэлі. Гэта азначае, што падчас устаноўкі, няма неабходнасці «насіць» з сабой моўную мадэль, што робіць распрацоўку вельмі практычнай для размяшчэння на ўстройствах з абмежаваным аб’ёмам памяці. У апошнія гады дадзеныя тэхналогія буйна развіваюцца і з моманту стварэння LAS-мадэлі былі прапанаваны такія мадэлі, як LSD (Latent Sequence Decompositions) і WLAS (“Watch, Listen, Attend and Spell”, мадэль, здольная «чытаць па вуснах»).[53][54]
Паспяховымі прыкладамі выкарыстання тэхналогіі распазнавання маўлення ў мабільных прыладах з’яўляюцца: увод адраса голасам у Яндекс.Навігатары, галасавы пошук Google Now, галасавыя асістэнты ад Яндэкс (Аліса) і Google (Siri) і многае іншае. Акрамя мабільных прылад, тэхналогія распазнавання прамовы знаходзіць шырокае распаўсюджванне ў іншых сферах:
Тэлефанія: аўтаматызацыя апрацоўкі ўваходных і выходных званкоў шляхам стварэння галасавых сістэм самаабслугоўвання ў прыватнасці для атрымання даведачнай інфармацыі і кансультавання, замовы паслуг / тавараў, змены параметраў дзеючых паслуг, правядзення апытанняў, анкетавання, збору інфармацыі, інфармавання і любыя іншыя сцэнарыі;
Рашэнні “Разумны дом”: галасавой інтэрфейс кіравання сістэмамі «Разумны дом»
Бытавая тэхніка і робаты: галасавой інтэрфейс электронных робатаў; галасавое кіраванне бытавой тэхнікай і г.д;
Дэсктопы і ноўтбукі: галасавы ўвод у камп’ютарных гульнях і прыкладаннях;
Аўтамабілі: галасавое кіраванне ў салоне аўтамабіль - напрыклад, сістэма навігацыі;
Сацыяльныя сэрвісы для людзей з абмежаванымі магчымасцямі.[55][56][57][58]
Медыцына: аўтаматызацыя складання/рэдагавання медыцынскай дакументацыі, частка тэрапеўтычнага курса для пацыентаў з праблемамі памяці.[59]
Канферэнцыі і часопісыПапулярныя канферэнцыі распазнавання маўлення, якія праводзяцца кожны год ці два ўключаюць SpeechTEK і SpeechTEK Europe, ICASSP, Interspeech/Eurospeech, а таксама IEEE ASRU. Канферэнцыі ў галіне апрацоўкі натуральнай мовы (NLP), такія як ACL, NAACL, EMNLP і HLT, пачынаюць уключаць дакументы і па апрацоўцы маўлення. Важныя часопісы ўключаюць IEEE Transactions on Speech and Audio Processing, Computer Speech and Language, and Speech Communication.Кнігі
Кнігі, падобныя да “Fundamentals of Speech Recognition” Лоўрэнса Рабінэра могуць быць карыснымі для атрымання некаторых базавых ведаў, аднак кнігі такіх гадоў (1993) ужо лічацца значна ўстарэлымі на фоне сучасных ведаў. Дадаткова добрай крыніцай можа быць “Statistical Methods for Speech Recognition” Фрэдэрыка Йелінэка i “Spoken Language Processing (2001)” Хуэдонга Хуанга. і г.д. Нядаўна аднаўлёная кніга “Speech and Language Processing (2008)”, напісаная Жураўскім і Мартынам дэманструе базу і сучасны (на той момант) стан ASR.Добрае і даступнае ўвядзенне ў тэхналогію распазнавання маўлення і яе гісторыю раскрываецца ў кнізе “The Voice in the Machine. Building Computers That Understand Speech” Роберта Піракцыні (2012). Адносна сучаснай кнігай распазнавання маўлення з’яўляецца «Automatic Speech Recognition: A Deep Learning Approach» (Выдавецтва: Springer), напісаная Д. Ю. і Л. Дэнге (2014)[60]. Кніга змяшчае матэматычна арыентаваныя падрабязнасці аб тым, як метады глыбокага навучання ўспадкаваны і рэалізаваны ў сучасных сістэмах распазнавання маўлення на аснове DNN і звязаныя з імі метадамі глыбокага навучання.[61]