Negara Pengakuan Suara Linux

Pambuka

Aku nglumpukake akeh wektu kanggo nggoleki artikel lan cukup kerep aku mikir babagan perkara kanggo artikel nalika mlaku ing stasiun sepur utawa nalika metu lan umumé.

Siji sore nalika mlaku ing 1,5 mil menyang stasiun saka karyane aku panginten "ora becik yen aku bisa ngrekam apa aku pengin ngomong lan banjur wis ditranskripsikan kanthi otomatis menyang file teks sing aku bisa ngowahi lan format ing" .

Aku wis ngentekake akeh jam nyawang pilihan beda sing kasedhiya kanggo pangenalan swara lan ndhikte kayata rekaman langsung liwat mikropon nganggo piranti lunak dictation ing Linux, ngrekam file menyang format MP3 utawa WAV lan ngowahi liwat baris perintah, uga nggunakake Chrome lan aplikasi Android.

Artikel iki nyoroti temuan saya sawise dina hard labor.

Linux Pilihan

Nyoba golek perangkat lunak ndhikte lan swara pangenalan ing Linux ora gampang amarga bisa uga opsi sing ora ana sing pinter.

Kaca wikipedia iki nduweni daftar potensial pilihan kayata CMU Sphinx, Julius lan Simon.

Aku nggunakake SparkyLinux sing adhedhasar Pengujian Debian ing wektu iki lan aku bisa pitutur marang kowe yen mung paket pengenalan swara sing kasedhiya ana ing repositori kasebut yaiku Sphinx.

Program-program native Linux saya rampung nyoba yaiku PocketSphinx, sing digunakake kanggo ngonversi file WAV menyang teks lan Freespeech-VR yaiku aplikasi python sing ngijini sampeyan ngrekam terus saka mikropon.

Aku uga nyoba pirang-pirang aplikasi Chrome kalebu VoiceNote II lan Dictanote.

Pungkasan aku nyoba "Aplikasi Dictation and Email" lan "Aplikasi Sayap lan Talk" Android Aplikasi.

Freespeech-VR

Freespeech-VR ora kasedhiya ing repositori standar. Aku ngundhuh file saka kene.

Sawise ngundhuh lan nyithak isi file zip, aku mbukak terminal lan dialihake menyang folder ing ngendi file kasebut diekstrak.

Aku ngetik perintah ing ngisor iki kanggo mbukak freespeech-vr.

sudo python freespeech-vr

Aku duwe sepasang headphone karo mikropon sing cukup sopan lan aksen Inggris kidul sing cukup jelas.

Tèks ing ngisor iki muncul ing jendhela freespeech-vr:

Sugeng rawuh ing asu unit kasil Dina Nggawe Menehake Cara Ngatur Ujian Lan kudu nyoba Kapan Teks nggunakake cara sistem Pidato Aku Kanggo saben siji Mung Ing Kanggo Mugi-Mugi tetep lan Cara siji Pitik emas minangka sistem Ea nalika jenenge telpon sabanjure telpon telpon Berkas iki Soon cukup kasus telpon kanggo Hands- Space the sphinx Going Sing ora telpon bakal dienggo A dilatih lan lan piranti Gunakake ngandika Nalika sampeyan rampung Ngucapake file sing dipigunakaké Paling pungkasan crita A lan nggunakake dening Nalika banget carane sukses Linux iki minangka Apa sampeyan supaya ora

Aku arep ngomong saiki iki ora situs web Unit Anjing lan ora ana gunane aku nyritakake apa-apa karo pitik Golden. Aku bener nyoba kanggo njlèntrèhaké proses nggunakake piranti lunak pangenalan swara.

Aku nyoba piranti lunak sawetara kaping kalebu beda werna lan kacepetan nanging akurasi ana kurang.

PocketSphinx

PocketSphinx bisa njupuk file WAV lan ngowahi teks kasebut kanthi nggunakake baris perintah.

PocketSphinx kasedhiya liwat panyimpenan Debian lan kudu kasedhiya kanggo saperangan distribusi.

Masalah utama sing ditemokake karo PocketSphinx yaiku sampeyan butuhake gelar ing konsep pangenalan swara, file basa, kamus lan cara nglatih sistem kasebut.

Sawise nginstal PocketSphinx sampeyan kudu pindhah menyang situs web CMU Sphinx lan maca informasi sabisa. Sampeyan uga kudu ngundhuh file model ing ngisor iki.

(Yen sampeyan dudu pamicara Basa Inggris asli milih model basa sing cocok kanggo sampeyan).

Dokumentasi kanggo PocketSphinx lan Sphinx ing umum angel dimangerteni kanggo wong lay nanging saka apa aku bisa nggawe file kamus sing digunakake kanggo nyedhiyake dhaptar kemungkinan tembung lan model basa duwe daftar potensial pelafalan.

Kanggo nyoba PocketSphinx Aku nggunakake rekaman swara sandi dhewe, potongan saka Al Pacino ing "The Devils Advocate" lan potongan saka "Morgan Freeman". Titik iki kanggo nyoba macem-macem voices lan kanggo kula ana ora ana sing bisa nyritakake crita kanthi cetha minangka Morgan Freeman lan ora ana sing ngirimake garis kaya Al Pacino.

Kanggo PocketSphinx kanggo mbutuhake file WAV lan perlu ing format tartamtu. Yen file kasebut ing format MP3, gunakake perintah ffmpeg kanggo ngowahi dadi format WAV:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

Kanggo mbukak PocketSphinx gunakna perintah ing ngisor iki:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous njupuk file WAV lan ngganti menyang teks.

Ing printah ndhuwur pocketsphinx dingerteni kanggo nggunakake file kamus sing diarani "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" kanthi model basa "cmusphinx-5.0-en-us.lm". Berkas sing diowahi menyang teks diarani voice2.wav (sing minangka rekaman sing digawe karo swara saya). Pungkasane 2> nyedhiyakake kabeh output sing metu sing ora perlu dadi file sing diarani voice2.log. Hasil tes nyata ditampilake ing jendela terminal.

Asile nggunakake swara saya yaiku:

welcome to the next about well no week subject about which recognition software in minute

Asil ora minangka horrendous kaya freespeech-vr nanging isih ora bisa digunakake. Aku banjur nyoba nggunakake PocketSphinx karo Al Pacino nanging iki ora ana asil maneh.

Akhire aku nyoba nggunakake swara Morgan Freeman saka film "Bruce Almighty" lan ing kene ana asil:

000000000: kita bakal dadi dheweke
000000001: kabeh sing angel ya dina sing saiki ya iki paling kita wis urip aku dadi bagian dening panas
000000002: ing elevator sing kunci metu saka jam baseball utawa ngerti apa sing kudu dilakoni ing urip
000000003: apa sing bakal waras
000000004: padha ora nulis
000000005: padha karo aku
000000006: sampeyan kudu aturan
000000007: aku wis nyana sampeyan
000000008: lan dheweke sinau ing kene sing minangka ilustrasi yaiku partai natal pembunuh
000000009: ternyata salah sawijining cara kanggo nulis o. bokong aku panginten sawetara tansah nganggo siji
000000010: kaya masalah united ora menehi wong sing apik aku sing kira-kira ing wektu iku nalika kita ora kabeh sing sampeyan mikir aku ing donya bakal omah-omahé lan aku wis weruh sing
000000011: bapak sing nduweni
000000012: apa akeh babagan iki
000000013: apa sing diwenehake
000000014: kabeh sampeyan iku sing ora tiba kanggo akèh
000000015: tengen ing tiba
000000016: ayo terus kanggo aku
000000017: iku ora seneng yen aku uga mikir sing bakal duwe sing sing kabeh sing nikah ing ora ana aku aku kaya ora kaya cara

Tes saya ora bisa dianggep ilmiah lan para pangembang saka PocketSphinx nyatakake yen aku ora nggunakake piranti lunak kanthi bener. Ana uga teknik sing disebut latihan swara kang bisa digunakake kanggo nggawe luwih alus kamus lan file basa.

Pendapatku sing paling penting yaiku, mung angel banget kanggo nggunakake saben dina.

VoiceNote II

VoiceNote II yaiku App Chrome sing nggunakake API pangenalan Google Voice.

Yen sampeyan nggunakake browser Chrome utawa Chromium sampeyan bisa instal VoiceNote II liwat Toko Web .

Ikon ing VoiceNote II ditampilake kanthi cara sing aneh amarga sampeyan kudu nyiyapake basa ing ngisor jendhela lan tombol edit uga ana ing ngisor, nanging tombol rekaman ing posisi tengen ndhuwur.

Bab pisanan sing kudu sampeyan gunakake yaiku milih basa lan bisa didownload kanthi ngeklik ikon donya.

Kanggo miwiti rekaman, klik ing ikon mikropon lan wiwit ngomongake menyang mikropon sampeyan. Kanggo asil sing paling apik aku ketemu ngomong alon-alon dadi kunci supaya piranti lunak bakal duwe kesempatan kanggo terus.

Asile ora gedhe kaya sing bisa dideleng ing ngisor iki:

Hello lan welcome to connect. About.com todays articles about voice to text conversion dunelm farrell resession 2008 as conversions and said well supported the best way i found addon text voice to show 2014debian or rpm package open it voice type to speech to text open if you want to choose vs milih ing edinburgh german french njaluk sampeyan wektu ing united kingdomstart ing segara microphonewhat sampeyan rampung nulis teks minangka file teks kanggo menehi hasil uga sing banget standar aksen Inggris saka kidul Inggris paling apik nanging aku arep menyang textvia iki torrentalong karo dokumen sing bener lan sampeyan bisa nemokake kesalahane sing nggawe sampeyan kepengin ngrungokake

Dictanote

Dictanote minangka Aplikasi Chrome liyane sing bisa digunakake kanggo tujuan imajinasi lan nyedhaki minangka luwih intuisi nanging asil ora luwih apik tinimbang VoiceNote II.

Aku mung nggunakake versi demo saka Dictanote sing ngalangi sampeyan nggawe dokumen anyar nanging sampeyan bisa ngobrol liwat teks sing wis ana ing editor. Aku bisa nguji pangenalan swara nanging asil ora luwih apik tinimbang VoiceNote II lan aku ora mlebu kanggo versi pro.

Dictation And Mail

"Dictation And Mail" yaiku aplikasi Android sing nggunakake API pangenalan swara Google asli.

Asil saka "Dictation and Mail" luwih apik tinimbang program liyane sing nyoba nganti titik kasebut.

hello welcome to Linux about., dina iki kita ngomong babagan nindakake swara menyang teks

Ing trik karo "Dictation and Mail" bisa ngomong alon-alon lan ngucapake uga sampeyan bisa kanthi logat malah.

Sawise sampeyan rampung ngomong sampeyan bisa email asil kanggo dhewe.

Dictation Talk and Talk

Aplikasi Android liyane sing aku nyoba yaiku "Dictation Talk And Talk".

Antarmuka kanggo app iki paling apik saka tandan lan pangenalan swara nate banget tenan tenan. Sawise ngrekam dekrit, aku bisa nuduhake asil ing macem-macem cara kalebu liwat email.

welcome to linux about.com today we are talking about convert speech to text

Minangka sampeyan bisa ndeleng teks ing ndhuwur kira-kira minangka cetha minangka sampeyan bisa nyana bisa njaluk. Ngomong alon iku kunci.

Ringkesan

Native Linux nduweni sawetara cara kanggo nyangkut pangenalan swara lan khusus ndhikte. Ana sawetara aplikasi sing nggunakake API Google Voice nanging durung ditulis ing repositori.

Aplikasi ChromeOS luwih apik tinimbang nanging asil paling apik wis kasedhiya nggunakake telpon Android. Mungkin telpon nduweni mikropon sing luwih apik lan mulane piranti lunak pangenalan swara nduwe kesempatan kanggo konversi.

Kanggo pangenalan swara dadi bisa digunakake, perlu luwih intuisi karo persiyapan kurang dibutuhake. Sampeyan kudu ora kudu kekacoan karo model basa lan kamus supaya bisa dipahami.

Nanging, aku ngormati yen kabeh seni pengenalan swara banget tantangan amarga kabeh wong duwe swara sing beda lan ana akeh dialek saka wilayah menyang wilayah ing negara sing ora kuwatir babagan ratusan basa sing digunakake ing saindenging jagad.

Analisis ku, kuwi, piranti lunak pangenalan swara isih aktif.