全1302文字

 聞き流しながら情報を得られる音声ニュースやオーディオブックなどのコンテンツが増えている。それに伴って人の声などを人工的に生み出す音声合成技術の適用範囲も広がっている。実用化から40年超を経た音声合成技術だが、品質に対するユーザーの不満は尽きず、文章の間(ま)、アクセント、テンポなどが不自然に感じられることが少なくない。東京工業大学に通う現役の大学生が2020年11月に設立したYellston(東京・港)は、聞き取りやすい音声を低価格で提供していくことで、音声コンテンツ市場の開拓を目指している。

Yellston代表取締役社長の早川尚吾氏
Yellston代表取締役社長の早川尚吾氏
東京工業大学の情報理工学院情報工学系に在学中。(撮影:日経クロステック)
[画像のクリックで拡大表示]

 「音声1つを500円で作成・提供できるようにしていく」(Yellston代表取締役社長の早川尚吾氏)。その上で、人工音声で発声する文字数に応じて利用料金が決まるようにする。具体的には1文字当たり0.1~0.2円を想定する。「競合他社は音声の作成費用などがまだ高価」(早川氏)であり、人工音声の音源の利用継続にサブスクリプションを採用している企業もいる。そこで同社は手軽に利用できる価格設定にして、ユーザーの参入障壁を低くする。

 同社が想定する市場は、音声ニュース、オーディオブック、ゲームなどである。人声で収録するとなると、収録時間、スタジオの確保などの手間が発生する。「人工音声を利用すれば、収録にかかる時間や収録場所の費用などを抑えて音声コンテンツを作成できる。それによって、さまざまなコンテンツに音声を適用できるようになるはず」(同氏)とする。

 声のプロであるアナウンサーや声優にとってもメリットがあるという。Yellstonは人工音声を公開できるサービス基盤も構築する計画で、アナウンサーや声優が生成した人工音声を公開すれば、利用状況に応じて料金を還元する仕組みを予定する。つまりユーザーと提供者が「声」という商品を売買する基盤にしていくというわけだ。またアナウンサーや声優など以外の一般人も声を提供できるようにする。