音声ファイルからテキストに変換
たまに音声ファイルからテキストに変換したくなる時があるので、メモ。
英語のTranscript生成が前提。
有料ソフト等を使わずにMacでやる場合、下記のようなやり方があるようだ。
どちらかと言えば「Mac OS Xのテキスト認識」機能の方が精度がいいような気がする。
そして、いずれの場合でも句読点の付与やCapitalizeなどはされないので、別途方法が必要。
コマンドラインでやる場合。
$ brew update $ brew tap watsonbox/cmu-sphinx $ brew install --HEAD watsonbox/cmu-sphinx/cmu-sphinxbase $ brew install --HEAD watsonbox/cmu-sphinx/cmu-pocketsphinx $ pocketsphinx_continuous -infile sample.mp3 > mp3は対応していないのでエラー出る。 $ brew install ffmpeg $ ffmpeg -i sample.mp3 -ar 16000 -ac 1 sample.wav > ffmpegでサンプルレートが16000で1チャンネルのwavファイルに変換 $ pocketsphinx_continuous -infile sample.wav > result.txt $ cat result.txt > hoge hoge...
参考ページ
- Getting started with CMU Sphinx on Mac OS X
- command line - Convert a .mp3 to wav file with mplayer - Super User
- CMUSphinx Tutorial For Developers – CMUSphinx Open Source Speech Recognition
Mac OS Xの機能を使う場合
- Soundflowerをインストール。
- 「音声入力と読み上げ」で「音声入力」を「入」、「拡張音声入力を使用」をオンにして、入力を「Soundflower 2ch」にする。
- Audacityなどの音声再生ソフトで出力を「Soundflower 2ch」にする。
- TextEdit等を開き、上記の音声再生ソフトで任意の音声を再生したら、即座にTextEdit等をアクティブにして「音声入力を開始」(ショートカット:Fnキー2回押す、などを利用)する。
参考ページ
Google音声入力を使う場合
参考ページ
webサービスのデモ
webサービス?だと、以下の様なものもあった。