全3465文字
PR
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 現在の機械学習は、学習データとテストデータが同じデータ分布からサンプリングされているという、いわゆるi.i.dを仮定する場合が多いが、世の中の多くの問題はこの仮説が成り立たない。そして、多くの手法は学習時とテスト時のデータ分布が異なる場合に性能が大きく劣化する。

 例えば、CG画像で学習させた画像認識モデルを使って実写の画像認識を解く場合や、ある病院で取得した医用画像を使って学習したモデルを別の病院や別の撮影機器の医用画像に適用する場合に性能が劣化する。人間では気にならないような、ほんのわずかな差によって大きく性能が劣化することも少なくない。この問題は機械学習の実用化の際に大きな問題となる。

著者の岡野原大輔氏
著者の岡野原大輔氏

 一般に、あるドメイン(元ドメイン、Source Domainと呼ぶ)で学習したモデルを別のドメイン(目標ドメイン、Target Domainと呼ぶ)でもうまくいくようにすることをドメイン適応と呼ぶ。そして、学習時には元ドメインの教師ありデータと目標ドメインの教師なしデータを利用でき、目標ドメインでうまく予測できるようにするような問題設定を教師なしドメイン適応(UDA:unsupervised domain adaptation)と呼ぶ。