Състояние на разпознаването на глас от

by Гари Нюъл

Въведение

Прекарвам много време в проучване на статии и доста често мисля за предмета на дадена статия, докато ходя до гарата или когато навън и навсякъде.

Една вечер, когато ходех на 1,5 мили до станцията от работата си, си помислих: "не би ли било хубаво да записвам това, което искам да кажа и след това да го преведа автоматично в текстов файл, който мога да редактирам и форматирам по-късно" ,

Прекарах много дълги часове в разглеждане на различните опции за разпознаване на глас и диктовка, включително записване директно през микрофон с помощта на софтуер за диктовка в Linux, записване на файла във формат MP3 или WAV и конвертирането му чрез командния ред, както и използването на Chrome и приложения за Android.

Тази статия подчертава моите открития след дни на тежък труд.

Опции за Linux

Опитвайки се да намери софтуер за диктовка и разпознаване на глас в Linux не е толкова лесно, колкото би могло да бъде и наличните опции не са толкова умни.

Тази страница на уикипедия има списък с потенциални опции, включително Сфинкс на CMU, Julius и Simon.

Използвам SparkyLinux, който се базира на Debian Testing в момента и мога да ви кажа, че единственият пакет за разпознаване на глас в хранилищата е Sphinx.

Природните програми на Linux, които в крайна сметка се опитвах, бяха PocketSphinx, който използвах за преобразуване на WAV файлове в текст и Freespeech-VR, което е приложение на Python, което ви позволява да записвате направо от микрофон.

Също така опитах няколко приложения за Chrome, включително VoiceNote II и Dictanote.

Накрая се опитах приложенията за Android "Apps for Dictation and Email" и "Talk And Talk Dictation".

Freespeech-VR

Freespeech-VR не се предлага в стандартните хранилища. Изтеглих файловете оттук.

След като изтеглих и извадих съдържанието на zip файла, отворих терминал и отидох до папката, където бяха извлечени файловете.

Написах следната команда за отваряне на freespeech-vr.

sudo python freespeech-vr

Имам чифт слушалки с доста приличен микрофон и доста ясен южен английски акцент.

В прозореца freespeech-vr се появи следният текст:

Добре дошли в кучетата на резултата Днес да се гарантира как да се управляват тестове А трябва да тествате кога да текст Използва система система начин реч I на един един от всеки е само в да се надяваме да пребивават и на средствата на една пилета златни като система Еа, когато името ми е следващото обаждане обажда телефона Този файл Достатъчно достатъчно телефони за случая на Hands-Space на сфинкса Отиващ Това не е телефоните ще бъдат споделени Обучени и и инструменти Използвайте говоренето Когато сте готови кажете Използваният файл Последно a история А И използването на един от Кога е много как успех Този Linux е, както Вие се избегне е

Бих искал само да кажа сега, че това не е уебсайтът Unit of Dogs и в никакъв случай не споменах нищо общо със златните пилета. Всъщност се опитвах да опиша процеса на използване на софтуер за разпознаване на глас.

Опитах софтуер няколко пъти, включително различни терена и скорост, но точността беше лоша.

PocketSphinx

PocketSphinx може да вземе WAV файл и да го превърне в текст, използвайки командния ред.

PocketSphinx е наличен през хранилищата на Дебиан и трябва да е достъпен за повечето дистрибуции.

Основният проблем, който открих с PocketSphinx, е, че ви е необходима степен в понятията за разпознаване на глас, езикови файлове, речници и как да обучите системата.

След като инсталирате PocketSphinx, трябва да отидете на сайта на Сфинкс на CMU и да прочетете възможно най-много информация. Също така трябва да изтеглите следния модел файл.

Български английски генеричен езиков модел

(Ако не сте местен английски език, изберете подходящия за Вас езиков модел).

Документацията за PocketSphinx и Sphinx като цяло е трудна за разбиране за неадева, но от това, което бих могъл да направя, речниците се използват за да се даде списък на възможните думи и езиковите модели имат списък с потенциални произношения.

За да тествам PocketSphinx, използвах запис на моя собствен глас, фрагмент от Ал Пачино в "The Devils Advocate" и фрагмент от "Morgan Freeman". Въпросът беше да се опитат различни гласове и за мен няма никой, който да разказва една история толкова ясно, колкото Морган Фрийман и никой не доставя линия като Ал Пачино.

За PocketSphinx да работи, той се нуждае от WAV файл и трябва да бъде в определен формат. Ако файлът е в MP3 формат, използвайте командата ffmpeg, за да го превърнете във формат WAV:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

За да стартирате PocketSphinx използвайте следната команда:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous отнема WAV файл и го преобразува в текст.

В командата по-горе pocketsphinx е казал да използва речников файл, наречен "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" с езиковия модел "cmusphinx-5.0-en-us.lm". Файлът, който се преобразува в текст, се нарича voice2.wav (което е запис, който направих с моя глас). Най-накрая 2> поставя всички подробни изходи, които не е необходимо да имате във файл, наречен voice2.log. Действителните резултати от теста се показват в прозореца на терминала.

Резултатите, използващи гласа ми, са както следва:

добре дошли на следващия за добре, не тази седмица субект за това, което признаване софтуер в минута

Резултатите не са толкова ужасни, колкото с freespeech-vr, но все още не са наистина полезни. След това се опитах да използвам PocketSphinx с Al Pacino, но това не върна никакви резултати.

Накрая се опитах да използвам гласа на Морган Фриймън от филма "Bruce Almighty" и тук са резултатите:

000000000: ние ще я направим
000000001: всичко е толкова трудно да в деня, в който точно сега това е най-многото, което сме живи Аз съм част от горещите
000000002: в асансьора, който е ключът от малко бейзбол, или знае какво да прави в живота
000000003: какви са тези, които ще се възстановят
000000004: не го пишат
000000005: те са на мен веднага
000000006: трябва да сте правила
000000007: Очаквах те
000000008: и той научи тук, че е илюстрация е, че е убиец коледно парти
000000009: Оказва се, че един от начините да пиша o. ass мислех, че малцина винаги носят един
000000010: като проблемът обединен няма да даде на доброто аз съм ги оценява в този момент, когато ние не всичко, което мислите, че съм в света ще домове и съм виждал, че
000000011: баща, който го има
000000012: какво толкова за това
000000013: прави ли това?
000000014: всичко, което вие не падате много
000000015: точно през есента
000000016: Добре се държа за мен
000000017: тя е недоволна, ако мисля също, че те ще има, че това, което ще се ожени за един не е, ние не ми харесва, за разлика от начина

Моят тест едва ли може да се счита за научен и разработчиците на PocketSphinx могат да заявят, че не използвам правилно софтуера. Съществува и техника, наречена гласово обучение, което може да се използва за създаване на по-добри речници и езикови файлове.

Моето първостепенно мнение обаче е, че е твърде трудно за стандартна ежедневна употреба.

VoiceNote II

VoiceNote II е приложение за Chrome, което използва приложния програмен интерфейс (API) за разпознаване на Google Voice.

Ако използвате браузърите Chrome или Chromium, можете да инсталирате VoiceNote II чрез уеб магазина .

Иконите на VoiceNote II са изложени странно, тъй като е необходимо да настроите езика в долната част на прозореца, а бутонът за редактиране също е в дъното, но бутонът за запис е в горната дясна част.

Първото нещо, което трябва да направите, е да изберете език и това може да се постигне чрез кликване върху иконата на света.

За да започнете да записвате, кликнете върху иконата на микрофон и започнете да говорите във вашия микрофон. За най-добри резултати намерих, че говоренето бавно е било от ключово значение, така че софтуерът да има шанс да се задържи.

Резултатите не бяха чудесни, както може да се види по-долу:

Здравейте и добре дошли да се свържете. Dunelm farrell рецесия 2008 г. като реализации и каза тя добре поддържа най-добрият начин намерих глас текст Addon да покаже 2014debian или rpm пакет отвори го тип глас в речта на текста го отвори, ако искате да изберете vs избра в edinburgh френски немски ви дойде време в обединените kingdomstart в морето microphonewhat сте приключили писане на вашия текст като текстов файл за успеха си, че това е много стандартен английски акцент от юг на Англия най-добре за него, но аз отивам в текстовете този torrentalong с актуалния документ и можете да видите грешките, които ви създават за слушане на приятели

Dictanote

Dictanote е друго приложение за Chrome, което може да се използва за диктовка и е по-интуитивно, но резултатите не са по-добри от VoiceNote II.

Използвах само демо версията на Dictanote, която ви предпазва от създаването на нови документи, но ви позволява да разговаряте по текст, който вече е в редактора. Бях в състояние да тествам гласовото разпознаване, но резултатите не бяха по-добри от VoiceNote II и затова не се записах за про версията.

Диктовка и поща

"Dictation and Mail" е приложение за Android, което използва приложния API за разпознаване на глас на Google.

Резултатите от "Диктовка и поща" бяха много по-добри от всяка друга програма, опитвала се до този момент.

Здравейте добре дошли в Linux за., днес говорим за конвертиране на звук в текст

Номерът с "Диктовка и поща" е да говорите бавно и да произнасяте, както и с равномерен акцент.

След като завършите разговорите, можете да изпратите резултатите до себе си.

Говорете и говорете диктовка

Другото приложение за Android, което направих, беше "Диктовка на говоренето и говоренето".

Интерфейсът за това приложение беше най-доброто от групата и разпознаването на гласа наистина работи наистина добре. След като записах диктовката, успях да споделя резултатите по различни начини, включително по имейл.

добре дошли на linux about.com днес говорим за превръщането на речта в текста

Както виждате, текстът по-горе е почти толкова ясен, колкото можете да очаквате. Говоренето бавно е ключът.

резюме

Native Linux има някакъв начин да отиде по отношение на разпознаване на глас и специално диктовка. Има някои приложения, които използват приложния програмен интерфейс (API) на Google Voice, но все още не са изброени в хранилища.

Приложенията на ChromeOS са малко по-добри, но най-добрите резултати са постигнати с помощта на моя телефон с Android. Може би телефонът има по-добър микрофон и затова софтуерът за разпознаване на глас има по-голям шанс за реализация.

За да може разпознаването на глас да стане наистина използваемо, то трябва да бъде по-интуитивно, с по-малка необходима настройка. Не би трябвало да се бъркате с езикови модели и речници, за да станете разбираеми.

Оценявам обаче, че цялото изкуство на разпознаване на глас е много предизвикателно, защото всеки има различен глас и има толкова много диалекти от регион до регион в една страна, без да се тревожи за стотиците езици, използвани в целия свят.

Моят анализ, следователно, е, че софтуерът за разпознаване на глас все още работи.