PR
本記事は、日経 xTECHの「彼女は笑ってる、3大クラウドの表情分析AIで実力検証」(2018年6月28日掲載)を再編集したものです。

 3大クラウドが提供する学習済みAIの代表格「顔認識AI」の実力検証として、今回は人の顔写真から喜怒哀楽といった表情や感情を読み取る「表情分析」を試す。利用したのは、AWSが「Amazon Rekognition」、Microsoft Azureは「Face API」、グーグルのGoogle Cloud Platform(GCP)は「Google Cloud Vision」である。

 表情分析は人の目で見ても難しいもの。表情によっては、怒っているのか、悲しんでいるのか、微笑んでいるのか分からない、というケースさえある。AIにとってもハードルの高い分析である。

 今回はさまざまな表情の中でも、検出が比較的容易とされる笑顔の分析を検証する。人の目で見て「微笑」「中笑い」「大笑い」という3段階の笑顔を用意した。

 3社の表情分析AIは、表情分析の結果について、項目やスコアの出し方が異なる。3社横並びの比較が難しいので、1社ずつ検証結果を見ていこう。

AWSは3段階の笑い顔を把握

 AWSのRekognitionでは、入力した顔画像について、性別や年齢層、眼鏡やひげの有無、目を閉じているかどうかといった項目ごとの結果が返ってくる。

 表情分析で注目すべき項目は「smiling/not smiling(笑顔)」と「感情」だ。笑顔については、その度合いをパーセンテージ(百分率)で提示する。感情の種類には、HAPPY(幸せ)、SAD(悲しみ)、ANGRY(怒り)、CONFUSED(困惑)、DISGUSTED(嫌悪)、SURPRISED(驚き)、CALM(平静)、UNKNOWN(不明)があり、それぞれパーセンテージでスコアを示す(カッコ内は筆者による和訳)。

 女性モデルが微笑した写真を分析したところ、smilingは98.3%、感情には「appears to be happy、98.2%」と示された。表情分析に用いるパラメーターやアルゴリズムは非公開だ。

 ただ、分析にかけた写真を見ると、両目の瞳孔と鼻の頭、口角の5点にマークが付いている。この5点の距離や、点を結んだ図形の変化などを手掛かりに、表情を判定しているとみられる。例えば口を開けて笑えば、口角の位置が上がり、鼻の頭と口角を結んだ三角形は押しつぶされた形に変わる。

 中笑いでは、smilingは99.3%、感情は「appears to be happy、99.6%」だった。想定通りにどちらのスコアも微笑を上回った。

 しかし大笑いは、smilingが99.1%、感情は「appears to be happy、99.1%」。どちらも中笑いの数字を下回った。原因は不明だ。

AWS「微笑」→smiling=98.3%
AWS「微笑」→smiling=98.3%
[画像のクリックで拡大表示]
AWS「中笑い」→smiling=99.3%
AWS「中笑い」→smiling=99.3%
[画像のクリックで拡大表示]
AWS「大笑い」→smiling=99.1%
AWS「大笑い」→smiling=99.1%
[画像のクリックで拡大表示]