全1757文字
PR

 テレワークでWeb会議が主流となっても、企業では依然として議事録を作成しているケースがあると聞く。会議が長くなるほど、録音した音声データをテキストに起こしてまとめる作業は手間がかかる。文字起こしの作業を自動化できないか――。議事録を作ったことがある人なら、誰でもそう思うだろう。

 こうした場合、一般に「Google ドキュメント」の音声入力機能などが使われているようだが、筆者はシャムロック・レコードの「UDトーク」というアプリを活用している。iOSかAndroidのスマホで利用できる。Web会議の際にはパソコンのスピーカーの前にスマートフォンを置き、UDトークのボタンをタップすれば、するするとスムーズにテキスト化していく。キーボードをタイプするスピードとは比べられないほどの速さだ。

 UDトークは聴覚障害者のコミュニケーション支援を主目的に開発したアプリだが、健常者にとっても有用だ。150カ国以上の外国語を翻訳でき、異なる言語でもアプリを通じてコミュニケーションできる。

固有名詞や専門用語の登録も可能

 UDトークには個人向けの無料プランと有料プラン(コンパクトプラン)、各種の法人向けプランがある。個人向けプランでは、利用に当たり音声認識率向上のための音声データの収集や再利用に同意しなければならない。この点が気になる場合は、音声データを収集しない法人向けプランを利用する。

 UDトークの音声認識エンジンとしてアドバンスト・メディアが開発した「AmiVoice(アミボイス)」と米Google(グーグル)製のものを採用しており、どちらかを選んで利用する。

 AmiVoiceは議事録作成のほか、コールセンターや製造・物流の現場において音声データのテキスト化に使われている。AmiVoiceであれば、固有名詞や専門用語などの単語を事前に登録しておくことで認識の精度を高めることができる。また、「えーと」や「あのー」といった場つなぎの発言は自動でカットされるため、編集時に文章を整えやすい。

 Google製の音声認識エンジンは環境音が大きいときに有効だという。UDトークの公式サイトでは、例えば飲食店やパーティー会場で使用するには、Googleの音声認識の方が雑音に強いとしている。ただし、Googleの音声認識では、単語登録ができない、句読点が付けられない、場つなぎの発言をカットできないといったデメリットがあるので、総合的にはAmiVoiceの方が文章を編集しやすいだろう。

ファイル形式はTXT、CSV、HTMLの3種類

 UDトークの一連の操作は次の通りだ。まず、アプリを起動して「タップして話す」をタップすると音声認識を始める。一時停止や終了したい場合は「タップして終了」を選択すればよい。文字起こしに失敗した箇所は、タップして手動で修正する。その後、音声から変換されたテキストデータをメールやクラウドサービスなどに送信する。テキストデータのファイルはTXT、CSV、HTMLの3種類の形式で同時に作成される。このうちHTMLファイルでは漢字にふりがなが振られる。用途に応じて使い分けるとよい。

「タップして話す」をタップすると音声認識が始まる (出所:筆者、以下同)
「タップして話す」をタップすると音声認識が始まる (出所:筆者、以下同)
[画像のクリックで拡大表示]
話し終わったら「タップして終了」、「メニュー」の順にタップする
話し終わったら「タップして終了」、「メニュー」の順にタップする
[画像のクリックで拡大表示]