課題はデータベースがないこと
最後に、MIを使いこなす上で最も苦労する点を教えてください。
西野氏:データを集めることです。化学メーカーなのでデータ自体はあります。ところが、各研究開発グループが自分たちの使いやすい形で持っている。いわゆる、マシンリーダブルな形で持っていないので、そのフォーマットに変えるととてもコストがかかるのです。
金子氏:マシンリーダブルとは、機械学習にかけられるという意味。すなわち、機械学習に使えるフォーマットに変換するということです。例えば、実験データには「条件は材料Aを0.5g、Bを1.0g入れた」と日本語のテキストで書いてあるとします。これは人間は読めますが、機械学習では整理しないと読めません。この整理を全データで行わなければならないのです。
西野氏:しかも、各研究開発グループで開発するターゲットが全く異なります。そのため、用意されるフォーマットは全然違うものになります。これらを全部まとめて全社で使える形にするには、非常にコストがかかります。こうした背景もあって、材料系のデータベースはそろわないのです。これを全社的にデータに対するリテラシーを上げつつ、データを登録しやすいインフラ整備を進めることがMIを活用する大きな課題となります。
住友化学 技術・研究企画部 主席部員(現:内閣府 政策統括官(科学技術・イノベーション担当)付 上席政策調査員)

住友化学 デジタル革新部 部長

住友化学 デジタル革新部 R&Dデータ科学チーム チームリーダ
