PR

 米Microsoftがコグニティブサービスの提供を始めたのは、2015年4月。当初は「Project Oxford」という名称だったが、2016年3月に「Microsoft Cognitive Services」へと変更し、Azureのサービスに組み込んだ。その後、サービスを拡充し、2017年1月末時点で、24種のサービスを提供する(表1)。

表1 Cognitive Services一覧
表1 Cognitive Services一覧
[画像のクリックで拡大表示]

 Cognitive Servicesによって、「見る」「聞く」「話す」「判別する」「予測する」といった、人のような情報処理を行える。サービス一つひとつはWeb APIを備える部品で、アプリケーションやフレームワークに組み込んで使う。フレームワークは、様々なソーシャルメディアでテキストチャットを行う、Microsoftの「Bot Framework」をはじめとして、多数登場している。

 Cognitive Servicesの人のような情報処理は、ディープラーニング(深層学習)を含む機械学習の技術をベースにしている。ユーザーは、複雑なニューラルネットワークを組み上げたり、多数の教師データを用意したりする必要がなく、REST形式のWeb APIをコールするだけでサービスを利用できる。

5カテゴリー、24種を提供

 Cognitive Servicesにはどんなサービスがあるのか。全24種のサービスは、「Vision」「Speech」「Language」「Knowledge」「Search」という五つのカテゴリーに分類できる。カテゴリーごとに、主なサービスを見ていこう。

 Visionカテゴリーは、主に画像や動画の認識サービスだ。「Computer Vision」は、風景などの画像の内容を解析する。例えば、被写体の説明文やタグの生成、画像内の文字認識、サムネイル画像の作成などを行う。「Emotion」は、写真・動画に写った人の表情について、喜び、怒り、驚きといった感情の項目ごとに点数評価する。「Face」では、顔写真から年齢や性別を判定する。二つの顔写真の同一人物判定も可能だ。

 Speechカテゴリーでは、音声を取り扱う。「Bing Speech」は、発話音声をテキスト化するBing Speech Recognition、テキストの発話音声を合成するBing Text to SpeechというAPIを提供する。Text to Speechは、18カ国10言語をサポートしており、日本語では女性と男性の声を選択できる。また、SSML(Speech Synthesis Markup Language)という発話用のマークアップ言語を用いて、アクセントなどを調整できる。

 「Speaker Recognition」では、二つの発話音声を聞き比べ、同一人物かどうかを判定する。

 Languageカテゴリーのサービスは、文章の分析・点数評価を行う。「Text Analytics」は、文章の言語判定や、キーフレーズの抽出、文章全体の感情分析といった機能を持つ。「LUIS(Language Understanding Intelligent Service)」では、文章を入力することで、話している内容の意図や、キーワードを抽出する。「Translator」は文章の翻訳に加え、発話音声をテキスト化し、別の言語に翻訳することも可能だ。

 Knowledgeカテゴリーは、単語やテキストのデータから、関連する情報を推定するサービスである。「Recommendations」を使うと、顧客一人ひとりに合わせたお薦め商品を選ぶレコメンド機能を実現できる。「QnA Maker」は、自然言語での問い合わせに回答するQ&Aボットのサービス。既存のFAQのWebページを指定すると、その内容を学習して回答する。

 Searchカテゴリーは、Microsoftの検索エンジンBingの機能をWeb API化したもの。「Bing Autosuggest」は、検索キーワードの入力途中に、文字を補完する。さらに、Webページ、画像、動画、ニュースをそれぞれ検索するサービスがある。

 2017年1月末時点では、これらのサービスのいくつかは、米国西部もしくは米国中部リージョンのみで提供されており、東日本・西日本リージョンでは使えない。また、プレビューのものや、一部の機能が日本語対応していないものがあるので注意してほしい。