インタビューや会議の際に発言内容をメモしながら、後で間違えないよう録音もする人は少なくないだろう。だが、録音した音声を聞いてテキストに起こす作業はかなりの手間がかかる。筆者の場合は聞き取りづらい箇所を繰り返し再生したり、パソコンに文字を打ち込む操作が遅れて音声の再生を一時停止したりしているうちに、実際の録音時間の何倍もかかってしまう。作業が終わるころには疲れてうんざりしていることもある。
筆者と同じように「骨の折れる文字起こし作業を何とか楽にこなしたい」と考える人は、洋の東西を問わず多いのかもしれない。最近はAI(人工知能)によって音声を解析して自動的に文字起こしするツールが国内外で増えてきた。中でも大きな注目を集めているのは、米OpenAI(オープンAI)の音声認識AI「Whisper」だ。
同社は米テスラ創業者のイーロン・マスク氏らが設立したAIの研究開発企業で、2020年に発表した言語処理AI「GPT-3」などで知られている。その同社が2022年9月に一般公開したWhisperは音声からの文字起こしの正確さに定評がある。しかも日本語に対応しており無料で使えるという。そこで今回は、筆者自身が作成した日本語の音声データを使ってどこまで正確に文字起こしできるのか確かめた。
Whisperを利用するためには、プログラミング言語「Python」に対応したプログラム実行環境を用意する必要がある。パソコンに導入することも可能だが、ブラウザー上でPythonのコードを記述、実行できる米Googleの無料Webサービス「Google Colaboratory」(Colab)を使うことにした。同サービスではGoogleアカウントを持っていれば、特にソフトウエアをインストールしなくてもすぐPythonを使えるようになる。GPU(画像処理半導体)機能を無料利用できるので、深層学習など大量のデータを扱う処理も高速化しやすい。
Pythonの実行環境を整備
Colabの一連の操作は次の通りだ。まずGoogle Colabにアクセスして、Pythonのコードを記述するための「ノートブック」を新規作成。次いで、ノートブックに記述したプログラムの実行環境「ランタイム」を起動する。
続いてColabのメニューの「ランタイム」から「ランタイムのタイプを変更」を選択。初期状態では「ハードウェアアクセラレータ」は「None」という設定になっているが、データ処理を高速化するため「GPU」に変更して保存しておく。さらに、オープンAIがソースコード共有基盤「GitHub」で公開しているリポジトリーからWhisperを入手してインストールする。コマンドは以下の通りだ。
!pip install git+https://github.com/openai/whisper.git
音声データもColabにアップロードしておく。この作業はメニュー操作でも、ファイルのドラッグ・アンド・ドロップでも可能だ。
今回使用した音声データは筆者が自分で文章を読み上げて録音したものだ。読み上げる文章は、日経クロステックに掲載されているIT関連のニュース記事から選んだ。普段エンタープライズITを取材している筆者としては、IT業界用語まで含めて正確に文字起こしできるかどうかも知りたかったからだ。記事は全角で約500文字。カッコ内の文字だけ読み飛ばしながらゆっくりと読んだ場合、所要時間は2分強だった。