全2888文字
PR

 AI(人工知能)の研究開発ベンチャーである米OpenAI(オープンAI)が複数の高性能なAIを2022年秋に相次ぎ公開し、世界の技術者から注目を集めている。その1つはチャットで様々な質問に答える対話型AI「ChatGPT」。もう1つは、音声を解析して自動的に文字起こしする音声認識AI「Whisper」だ。筆者もWhisperを使った日本語での文字起こしに挑戦したところ、その精度の高さには舌を巻いた。

 こうした中、国産の音声認識AIにも日本語の文字起こしの正確さを売りにする新顔が登場した。スマートフォンゲームや広告、フードデリバリーなどの事業を手掛けるレアゾン・ホールディングスが2023年1月18日に公開した「ReazonSpeech」だ。

 ReazonSpeechは3種類のプロダクトで構成されている。1つめは、テレビ放送の録画データなどから音声コーパスを自動抽出する「ReazonSpeechコーパス作成ツール」。音声コーパスとは、音声データとテキストデータを発話単位で対応付けた例文データベースのことだ。2つめは、実際にReazonSpeechコーパス作成ツールを使って約5万時間分のワンセグ放送録画データから自動抽出した、1万9000時間の「ReazonSpeech音声コーパス」である。

 そして3つめが、ReazonSpeech音声コーパスを基にした学習済みモデル「ReazonSpeech音声認識モデル」だ。レアゾン・ホールディングスは3つのプロダクトをいずれも無償公開している。今回はReazonSpeech音声認識モデルを使い、日本語の音声データを使った文字起こしの正確さを確かめた。

ブラウザーから使えるPython実行環境を活用

 ReazonSpeechを利用するには、まずプログラミング言語「Python」に対応したプログラム実行環境を用意する必要がある。筆者の場合はブラウザー上でPythonのコードを記述、実行できる米Googleの無料Webサービス「Google Colaboratory」(Colab)を使用した。

ブラウザー上でPythonのコードを記述、実行できる米Googleの無料Webサービス「Google Colaboratory」。レアゾン・ホールディングスは同サービス上でサンプルコードを公開している
ブラウザー上でPythonのコードを記述、実行できる米Googleの無料Webサービス「Google Colaboratory」。レアゾン・ホールディングスは同サービス上でサンプルコードを公開している
(出所:日経クロステック)
[画像のクリックで拡大表示]

 Colab上での準備作業は次の流れで進めた。まずGoogle Colabにアクセスし、Pythonのコードを記述するための「ノートブック」を新規作成。次いで、ノートブックに記述したプログラムの実行環境「ランタイム」を起動した。