BERTに比べて1000倍以上パワフル
そんなマルチモーダル化に対応しつつあるのが、MUMである。MUMもTransformerをベースにしている。75種類の言語と多数の異なるタスクで同時に学習させることで、従来の機械学習モデルに比べて情報をより包括的に理解できるとする。LaMDAに比べて、より実用化に近い段階にあるという。最初の適用先は検索を想定している。検索エンジンに適用した場合、異なる言語をまたいで、テキストや画像といったさまざまな形式の情報を横断的に検索して結果を示す。
グーグルは、Transformerを利用するBERTを19年秋から検索サービスに導入している。そのBERTに比べて、「1000倍以上パワフル」(同社)と胸を張る。何をもって「1000倍」かつ「パワフル」なのか、Google I/Oの基調講演では具体的な指標を明らかにしなかったものの、披露した検索のデモからはその実力がうかがえた。
基調講演では、「アダムス山に登ったので、次の秋に富士山に登りたい。どんな違った準備をすればいいか」とMUMに問うた場合の結果を示した。こうした質問の場合、質問者はアダムス山と富士山を比較しつつ、富士山への登山の準備を進めたいと考えている。加えて、「準備」という言葉に、「どんなトレーニングをすべきか」「秋の富士山の天候に合わせてどのような装備が必要か」などのニュアンスも含めている。MUMであれば、こうした質問者の意図をくみ取ったかのような検索結果を示すという。この質問の場合、例えば秋の富士山は雨が降りやすく、防水性の装備が必要だという情報(検索結果)を提示できる。
MUMは、多言語に対応する点も特徴にする。検索の際に大きな障壁になるのが言語の違いだ。富士山に関する情報は日本語のWebサイトに豊富にある。ところが、従来の検索エンジンだと、米国から英語で検索するとこうした日本語の情報にアクセスするのが難しい。MUMであれば、言語をまたいだ検索が可能で、英語で富士山について検索しても、日本語で書かれた豊富な情報からより包括的な検索結果を提示できるようになる。
MUMはマルチモーダル化の初期段階にあり、テキストと画像を横断して検索できるという。例えば、登山靴を撮影し、この靴で富士山を登れるかと質問すると、イエス・ノーを提示する。加えて、富士山の登山で推奨されている装備のリストを紹介する、といったことが可能になるという。
現在、MUMはテキストと画像の理解にとどまるものの、マルチモーダル化を加速させる。将来、動画や音声の情報も含めて検索できるようになるとみる。
LaMDAやMUMは、いずれも実用化する際は、グーグル内にある、公平性や正確性、安全性、プライバシーに関する基準を満たすようにするとしている。実際BERTも、18年に発表し、検索に適用したのは19年秋と時間をかけて、こうした点を吟味したという。近い将来の実用化を考えているMUMの場合、BERT実用化と同様な工程を経るとしている。