![]() |
写真1●オペレーターの発話音声をリアルタイムに認識 |
このほかVisualVoiceにはキーワードを自動抽出する機能を備えており,重要性・緊急性の高い言葉(「障害」や「事故」など)をオペレーターが発声した場合,スーパーバイザーに自動通知することができる(画面写真2)。
音響モデルを工夫
VisualVoiceの特徴は,認識に使う音響モデルにある。
![]() |
写真2●スーパーバイザーに自動通知 |
一般に音声認識システムでは,認識率を高めるため,音響モデルを話者に適応させる。NECのVisualVoiceでは,話者に音響モデルを適応化させる際に,その話者の音声サンプル数が十分多い場合は詳細に,少ない場合は大まかにと,適応の度合いを自動的に変化させる。こうすることで,5分程度の短い音声でも適応の効果があるとする。また6時間程度の音声があれば,適応効果は最大になるという。
結果として認識率は単語単位で70~80%。「実用上問題ないレベルを達成できた」(NEC)とする。またVisualVoiceの製品化に当たって,グループ企業のNECフィールディングの東日本カスタマサポートセンターなどで検証を実施している。
価格は20席の場合,オペレーターを対象とする「VisualVoiceオペレータ支援」が400万円と,スーパーバイザー向けの「VisualVoiceスーパーバイザー支援」がそれぞれ400万円から。両者をセットにした「VisualVoiceコンタクトセンター支援」は600万円からである。このほか,業務分析から導入教育まで行う導入サービスが650万円から,導入後のチューニング・サービスが30万円からとしている。
なお,今回のVisualVoiceはNEC中央研究所が開発した認識エンジンをベースに製品化したもの。NECは昨年,研究所の成果を市場ニーズに合わせて企画・商用化するための組織「市場開発推進本部」を発足させており,今回のVisualVocieは最初の成果とする。「今後はモバイル分野のミドルウエア製品などを予定」(塩川正二本部長)という。