現時点でデータが豊富にあるケースはまれ。だからこそ、成功事例の多くは、適切なAI技術を選ぶことで少ないデータ、少ない実験/計算回数で結果を出している。理論の空白地帯にMIで挑戦し、これまで知られていなかった相関関係を見つけ出した例も出てきた。大手企業が続々と出資して、1~2年内に材料の量産を見込むベンチャー企業もある。
マテリアルズインフォマティクス(MI)を用いた新材料の開発事例を見ると、成功のカギが大きく2つあることが分かる。
(1)利用できるデータの量やタイプに応じて適切なAI技術を選ぶ、(2)予測モデルを構築する上で支配的なパラメーターとなる「記述子」を適切に選ぶ、である。
(1)について、一口にAI技術、あるいは機械学習の技術といっても実際にはさまざまな種類、手法があり、それらの選択次第で得られる結果が変わってくる。
AI技術使い分けの大きなポイントは2つ。第1は、利用できるデータの量だ(図1)。
データが多ければ選択できるAI技術は多いが、逆に少ないと選択肢は限られる。例えば、注目を浴びているディープラーニング(深層学習)は特徴量、MIでいう記述子を自動抽出できる優れた技術だが、データが大量に必要になる。MIの利用が始まって間もない現段階で、そうした大量のデータが利用できるケースは多くない。
最初はデータが少なくても、実験や計算が比較的容易で、データを量産しながらMIを適用している開発事例がある。一方で、新材料開発の場合、1回の実験、1回の計算に膨大な時間やコストがかかることがよくある。その場合、高精度な予測モデルを構築することを目指すよりも、所望の特性を備えた材料を見つけるまでに必要な実験や計算の回数を減らすことを目的としたAI技術を選んだほうが良い場合もある。例えば、「ベイズ最適化」(Bayesian Optimization)だ。開発事例もベイズ最適化の採用例が多い。
AI技術使い分けの第2のポイントは、記述子の数だ。記述子が多い、つまりモデルの次元数が多い場合は、深層学習など複雑なモデルを表現できるAI技術を選ぶことになる。ベイズ最適化は次元数が多いと計算が重く、収束も悪くなるため、選択しにくくなる。
次元数が少ないことが分かっている場合は、「スパースモデリング」を選ぶと、学習させるデータも比較的少なくて済む。