音声ファイルからテキストに変換

たまに音声ファイルからテキストに変換したくなる時があるので、メモ。

英語のTranscript生成が前提。

有料ソフト等を使わずにMacでやる場合、下記のようなやり方があるようだ。

どちらかと言えば「Mac OS Xのテキスト認識」機能の方が精度がいいような気がする。

そして、いずれの場合でも句読点の付与やCapitalizeなどはされないので、別途方法が必要。

コマンドラインでやる場合。

  • cmu-sphinxを利用して sample.mp3 をテキスト化(Transcript)するとりあえずの手順。
$ brew update
$ brew tap watsonbox/cmu-sphinx
$ brew install --HEAD watsonbox/cmu-sphinx/cmu-sphinxbase
$ brew install --HEAD watsonbox/cmu-sphinx/cmu-pocketsphinx
$ pocketsphinx_continuous -infile sample.mp3
> mp3は対応していないのでエラー出る。
$ brew install ffmpeg
$ ffmpeg -i sample.mp3 -ar 16000 -ac 1 sample.wav
> ffmpegでサンプルレートが16000で1チャンネルのwavファイルに変換
$ pocketsphinx_continuous -infile sample.wav > result.txt
$ cat result.txt
> hoge hoge...

参考ページ

  1. Getting started with CMU Sphinx on Mac OS X
  2. command line - Convert a .mp3 to wav file with mplayer - Super User
  3. CMUSphinx Tutorial For Developers – CMUSphinx Open Source Speech Recognition

Mac OS Xの機能を使う場合

  1. Soundflowerをインストール。
  2. 「音声入力と読み上げ」で「音声入力」を「入」、「拡張音声入力を使用」をオンにして、入力を「Soundflower 2ch」にする。
  3. Audacityなどの音声再生ソフトで出力を「Soundflower 2ch」にする。
  4. TextEdit等を開き、上記の音声再生ソフトで任意の音声を再生したら、即座にTextEdit等をアクティブにして「音声入力を開始」(ショートカット:Fnキー2回押す、などを利用)する。

参考ページ

  1. Convert recorded audio to text | Level Up Lunch
  2. Macの音声入力の残念なところ - IGINブルネイ/syasudaの日記(MT版)

Google音声入力を使う場合

  1. Soundflowerをインストール。
  2. Macの音声の入出力をともにSoundflowerにする
  3. Googleドキュメントで新規ファイルを開く
  4. ツールから音声入力を選択
  5. 音声再生ソフトを再生

参考ページ

  1. 21世紀の文字起こし - the code to rock
  2. 21世紀の文字起こし(2) - the code to rock

webサービスのデモ

webサービス?だと、以下の様なものもあった。

Speech to Text Demo

入力ファイルの整形に使えそうなもの

  1. GitHub - textlint/textlint: The pluggable natural language linter for text and markdown.

参考ページ

  1. textlintで日本語テキストの文字校正を試してみた - the code to rock
  2. textlintで日本語の文章をチェックする | Web Scratch