全1910文字
PR

 富士通、富士通研究所、フランスの国立研究機関であるInria(フランス国立情報学自動制御研究所)の3者は共同で、時系列データを分析して異常を検知する機械学習モデルの自動作成技術を開発した。OSS(オープンソースソフトウエア)として公開する。3者が2020年3月16日に発表する予定だ。

 富士通と組んだInriaは世界的に著名な研究機関だ。Python用の科学技術計算ライブラリー「scikit-learn」の開発元としても知られる。3者が開発した機械学習モデルの自動作成技術は、Inriaの「位相的データ解析(Topological Data Analysis、TDA)」技術のOSSライブラリーである「Gudhi」に追加することで広く公開する。

 AI(人工知能)の本体である機械学習モデルの自動作成技術は「AutoML(自動機械学習)」などと呼ばれ、米グーグル(Google)など大手ITベンダーが開発にしのぎを削っている。機械学習モデルを作成するには人間のデータサイエンティストが「特徴量の抽出」「アルゴリズムの選定」「パラメーターのチューニング」などをする必要がある。AutoMLはこれらの作業をすべて自動化する。

データの分布を「図形的」に捉える

 今回3者が開発したAutoMLは2つの特徴がある。時系列データを分析する機械学習モデルを対象にしている点と、「位相的データ解析技術」を使う点だ。位相的データ解析技術とは、数学の一分野であるトポロジー(位相幾何学)の手法を、機械学習モデルの開発に適用したものだ。データの分布をいわば「図形的」に捉えることで、機械学習モデルの特徴量を設計するのだという。

 かみ砕いて言うと、現在の主流である統計的な機械学習手法では、データの分布をよく表す線形や非線形の「関数」を探す。推論に際しては、観測したデータと関数の予測値がどれだけ一致するかで、それが何かを推定したり異常か正常かを判断したりする。

 これに対して位相的データ解析技術では、データの分布をよく表す「図形」を探す。そのうえで観測したデータが図形の中に入るかどうかを見て推論をする。

 「統計的な機械学習手法はデータの個人差や個体差、ノイズをうまく扱えない傾向がある。それに対して位相的データ解析技術は個人差や個体差、ノイズに強い」。富士通研究所の梅田裕平主任研究員はそう説明する。特にIoT(インターネット・オブ・シングズ)デバイスや人間の時系列データには個人差や個体差、ノイズがよく発生することから、こうしたデータの分析には位相的データ解析技術が向いているのだという。

 ここまでは位相的データ解析技術の話だ。今回富士通と富士通研究所は位相的データ解析技術によって、機械学習モデルの開発プロセスを全面的に自動化する技術を開発し、Inriaのライブラリーを使って実装した。対象の機械学習モデルは時系列データの異常値を検出するものだ。