Linux Səs Tanınması Dövləti

Giriş

Mən məqalələr üçün çox vaxt sərf edirəm və tez-tez poezd stansiyasına gedərkən və ya ümumiyyətlə həyata keçirildikdə məqalə mövzusunu düşünürəm.

Bir gün axşam stansiyaya 1,5 mil gedərkən işimdən "mən demək istədim nə yaza bilsəm yaxşı olardı, sonra mətn faylına avtomatik olaraq transkriptasiya edərdim" .

MP3-də və ya WAV formatında fayl yazmaq və komanda xəttindən keçməklə yanaşı, Chrome-dan istifadə edərək, birbaşa mikrofon vasitəsilə yazmağı da daxil olmaqla, səsin tanınması və diktasiyası üçün müxtəlif variantları nəzərdən keçirirəm. və Android tətbiqləri.

Bu yazı mənim tapıntılarımı ağır iş günlərindən sonra vurğulayır.

Linux Seçimləri

Linux'daki dikte ve ses tanıma proqramını bulmaya çalışmak, olağandışı olabildiğince asan deyildir ve mövcud olan seçenekler akıllıca deyil.

Bu wikipedia səhifəsində CMU Sphinx, Julius və Simon kimi potensial variantlar var.

Hazırda Debian Testinə əsaslanan SparkyLinux istifadə edirəm və mən depolardakı səslərin tanınması paketinin Sfenks olduğunu söyləə bilərəm.

Mən çalışdığım doğma Linux proqramları, PocketSphinx, WAV fayllarını mətnə ​​çevirmək üçün istifadə etdiyimiz və bir mikrofondan düz qeyd etməyə imkan verən bir python proqramı olan Freespeech-VR idi.

Mən VoiceNote II və Dictanote da daxil olmaqla bir neçə Chrome tətbiqini sınamışam.

Nəhayət "Diktasiya və E-poçt" və "Talk və Talk Dikte" Android tətbiqlərini sınadım.

Freespeech-VR

Freespeech-VR standart depolarında mövcud deyil. Buradan faylları endirdim.

Zip faylının məzmununu yüklədikdən və çıxarıldıqdan sonra bir terminal açdıq və faylların çıxarıldığı qovluğa gedirdim.

Freespeech-vr açmaq üçün aşağıdakı əmri yazdım.

sudo python freespeech-vr

Mənim olduqca layiqli bir mikrofon və kifayət qədər aydın cənub İngilis vurğu ilə bir neçə qulaqlıq var.

Freespeech-vr penceresinde aşağıdakı mətn:

Bu gün birliyin itlərinə xoş gəldiniz Bu gün sınaqdan keçməmişəm Testlər Test etmək məcburiyyətindəyik Mətnə bir sistem yolu istifadə edər Speech Mən hər birinə yalnız bir qalmağına ümid edirəm Və bir toyuq vasitələrinə sistem kimi qızıl Ea, mənim ismim növbəti dəfə telefon çağırır Bu fayl Tezliklə kifayət qədər bir hal telefon Hands-Space sfenks Going Telefonları olmayan bir öyrədilmiş və alətlər paylaşılacaq Bir danışdı istifadə edin Bitirdiğinizde Say Bir istifadə edilmiş fayl Sonuncu A hekayəsi və istifadə edərək çox zaman nə qədər müvəffəqiyyət olarsa Bu Linux kimi qaçırsınız

İndi demək istərdim ki, bu, "İtlər Vahidi" saytından deyil, heç bir məndə Qızıl toyuqlarla bağlı bir şey söyləməmişəm. Mən, həqiqətən, səs tanınması proqramından istifadə prosesini izah etməyə çalışdım.

Proqramı müxtəlif meydança və sürətlə bir neçə dəfə sınamışdım, amma dəqiqlik yoxsul idi.

PocketSphinx

PocketSphinx bir WAV faylı götürmək və komanda xətti ilə mətnə ​​çevirə bilir.

PocketSphinx Debian deposu vasitəsilə mövcuddur və ən çox bölüşdürülməsi üçün mövcud olmalıdır.

PocketSphinx ilə tapdığım əsas məsələ səsin tanınması konsepsiyalarına, dil fayllarına, lüğətlərə və sistemi necə hazırlamaq üçün bir dərəcəyə ehtiyacınızdır.

PocketSphinx'i qurduqdan sonra CMU Sphinx saytına girməlisiniz və mümkün qədər çox məlumat oxuyun. Aşağıdakı model faylını da yükləməlisiniz.

(Əgər doğma İngilis dili danışan deyilsinizsə, sizin üçün uyğun olan dil modelini seçin).

PocketSphinx və Sphinx üçün sənədlərin ümumiyyətlə yatırdığı şəxs üçün anlamaq çətin, ancaq sözün lüğət fayllarını mümkün sözlər və dil modelləri təqdim etmək üçün istifadə edildiyindən potensial qulaq asmaq bir siyahısı var.

PocketSphinx'i sınamaq üçün öz səsim, Al Pacino'dan "The Devils Advocate" adlı parçadan və "Morgan Freeman" ın parçasından istifadə etdim. Bunun məqsədi müxtəlif səsləri sınamaq idi və mənim üçün Morgan Freeman kimi aydın bir hekayəni izah edən heç kim yoxdur və heç kim Al Pacino kimi bir xətt vermir.

PocketSphinx işləməsi üçün bir WAV faylına ehtiyac var və müəyyən bir formatda olması lazımdır. Fayl MP3 formatında olarsa, onu fwmpeg komutunu WAV formatına çevirmək üçün istifadə edin:

ffmpeg -i giriş filename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

PocketSphinx'i çalıştırmak üçün aşağıdakı komandan istifadə edin:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous bir WAV faylı alır və mətnə ​​çevirir.

Yuxarıda göstərilən əmrdə, "smusphinx-5.0-en-us.lm" dil modeliylə "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" adlı bir lüğət faylını istifadə etməyi deyilir. Mətnə çevrilən faylya voice2.wav (səsimlə yazılmış bir qeyddir) deyilir. Nəhayət, 2> səsli səsli bir səslə səslənməmiş olduğunuz bütün səsli çıxışları yerləşdirir. Testin faktiki nəticələri terminalın pəncərəsində göstərilir.

Səsimi istifadə edərək nəticələr belədir:

bir dəqiqədə tanıma proqramı haqqında bu həftə mövzusunda heç bir yaxşı mövzuda növbəti qarşılamaya xoş gəlmisiniz

Nəticələr freespeech-vr kimi horrendous deyil, lakin hələ də həqiqətən istifadə edilə bilməz. Mən PocketSphinx'i Al Pacino ilə istifadə etdim, amma bu nəticə vermədi.

Nəhayət, "Bruce Almighty" filmindən Morgan Freeman səsindən istifadə etməyə çalışdım və nəticələr:

000000000: biz onda olacağıq
000000001: bütün bu çətin günlərdir ki, bəli indi bəli, bu, ən çox yaşadığımız, mən də isti
000000002: asfaltda bir az beysbolun çıxışı olan və ya həyatda nə edəcəyini bilən
000000003: bərpa ediləcək olanlar nədir
000000004: onlar yazmadılar
000000005: onlar mənim üzərimə doğru çıxırlar
000000006: qaydalar olmalıdır
000000007: seni bekliyordum
000000008: və o, bir illüstrasiya olduğu öyrənildi burada qatil christmas partiya idi
000000009: o yazmaq üçün bir yol çıxır. Mən bir neçə dəfə həmişə geyinmək düşündüm
000000010: problem birləşmiş kimi, o, yaxşı bir şey verməyəcəkdir, mən düşünürəm ki, biz dünyadakı evlər olduğumuzu düşünməmiş olduğumuz anda anladıqları və mən gördüm
000000011: bir ata var
000000012: bu barədə çox şey
000000013: verilmişdir
000000014: çox şeyə düşməyənlərin hamısı
000000015: sağda payızda
000000016: mənim üçün yaxşı tutun
Mənə elə gəlir ki, bu, bir evdə evlənəcəkdir ki, heç bir şey yox idi.

Mənim testim çətin elmi hesab edilə bilər və PocketSphinx-in inkişaf etdiriciləri proqramı düzgün istifadə etmirəm deyə bilərəm. Daha yaxşı lüğətlər və dil faylları yaratmaq üçün istifadə edilə bilən səs təlimi də adlandırılan bir texnika da var.

Mənim qətiyyətli fikirlərim odur ki, gündəlik istifadə üçün çox çətindir.

VoiceNote II

VoiceNote II Google Səsin tanınması API istifadə edən bir Chrome App.

Chrome və ya Chromium brauzerlərindən istifadə edirsinizsə, Web Store vasitəsilə VoiceNote II quraşdıra bilərsiniz.

VoiceNote II-də nişanlar, pəncərənin altındakı dili qurmaq və tənzimləmə düyməsinin də altındakı yerini yaratmaq lazımdır, lakin rekord düyməni yuxarı sağ vəziyyətdədir.

Bunu etmək üçün ilk növbədə bir dil seçin və bu dünya simgesini tıklayarak əldə edilə bilər.

Qeydə başlamaq üçün mikrofon simgesini basın və mikrofonunuza danışın. Ən yaxşı nəticə üçün danışdığımda yavaş-yavaş danışan proqramın proqramı davam etmə şansı tapdı.

Nəticələr aşağıda göründüyü kimi yaxşı deyildi:

Salam və qoşulmaq xoş gəlmisiniz. Mətn dönüşüm dunelm farrell recession 2008-ə çevrilən dönüşüm kimi səslər haqqında gündəm maddələr və yaxşı səsləndirdilər ki, 2014/10/09, 2014/10/13 Edinburqda fransız almaniyasını seçdiyiniz zaman siz birləşdirilmiş krallıqda dənizin mikrofonunda mətn yazmağı başa vurduğunuza görə yaxşı bir şəkildə İngilis cənubundakı ingilis vətəninin ən yaxşı ingilis vurğusunu seçə bilərsiniz, amma bu textrenaya bu torrentalong faktiki sənədi ilə və dinləyicilər üçün sizi tutan səhvləri görə bilərsiniz

Dictanote

Dictanote, diktasiya məqsədləri üçün istifadə edilə bilən digər bir Chrome App və daha intuitiv olmasına baxmayaraq, nəticələr VoiceNote II-dən daha yaxşı deyildi.

Yalnız Dictanote'un demo versiyasını istifadə edərək, yeni sənədlər yaratmanıza mane olur, ancaq artıq redaktorda olan mətn üzərində danışmaq imkanı verir. Səsin tanınmasını test edə bildim, amma nəticələr VoiceNote II-dən daha yaxşı deyildi və mən pro versiyasına qeydiyyatdan keçmədim.

Dikte və poçt

"Dikte Etme ve saxlayın" doğal Google ses tanıma API'sini kullanan Android Uygulamasıdır.

"Diktasiya və poçt" dan gələn nəticələr bu nöqtəyə cəhd göstərən digər proqramlardan daha yaxşı idi.

Salam, Linux haqqında xoş gəlmisiniz. Bu gün mətni səsə çevirməkdən bəhs edirik

"Diktasiya və poçt" ilə olan hiylə sənətkarlıqla danışmaq və oxumaqdır.

Söhbətini başa çatdıqdan sonra nəticəni özünüzə göndərə bilərsiniz.

Talk və Talk Dikte

Mən çalışdığım digər Android tətbiqi "Talk and Talk Dictation" idi.

Bu app üçün interfeys dəstənin ən yaxşısı idi və səs tanınması həqiqətən çox yaxşı işləmişdir. Dikte qeyd edildikdən sonra nəticələri elektron poçt vasitəsilə, o cümlədən müxtəlif yollarla bölüşməyə müvəffəq oldum.

linux haqqında about.com saytına xoş gəlmisiniz ki, sözü mətnə ​​çevirməkdən bəhs edirik

Gördüyünüz kimi, yuxarıdakı mətn, bəlkə gözlədiyiniz kimi aydındır. Yavaşca danışmaq əsasdır.

Xülasə

Native Linux Səsin tanınması və xüsusilə diktaturla bağlı bir yola sahibdir. Google Voice API-nı istifadə edən bəzi tətbiqlər var, ancaq hələ depolarda siyahıda deyil.

ChromeOS tətbiqləri bir az daha yaxşıdır, amma ən yaxşı nəticə mənim Android telefonumdan istifadə olundu. Bəlkə telefon daha yaxşı bir mikrofona malikdir və buna görə də səs tanıma proqramı dönüşümün daha yaxşı bir şansını göstərir.

Səsin tanınması həqiqətən istifadə edilə bilən üçün daha az quraşdırma tələb olunduğundan daha intuitiv olmalıdır. Siz anlaşılandırmaq üçün dil modelləri və lüğətlər ilə üzləşməməlisiniz.

Səsin tanınmasının bütün sənəti çox çətin olduğuna görə təşəkkür edirəm, çünki hər kəsin fərqli bir səsi var və bir ölkədə regiondan regiona qədər çox dialekt var, dünyada istifadə olunan yüzlərlə dilləri narahat edir.

Buna görə mənim təhləməm ki, səsləndirmə proqramı hələ də davam edir.