PR
全5737文字

人工知能(AI)の研究開発において、2020年代はCNNやトランスフォーマーといった“要素技術”を統合し、より複雑な“世界”を自ら学習していくAIシステムが登場する時代になりそうだ。これまで競合していた記号推論との連携や融合も始まり、学習するだけでなく人間に分かる言葉で自ら考え、説明するAIの登場も見えてきた。

 現在、人工知能(AI)の研究開発が猛烈な勢いで進められており、ほかの分野とはスピード感がまるで違う。例えば、最速のAI演算システムの演算能力は3.4カ月ごとに2倍になっているという報告がある。半導体のムーアの法則での1.5~2年でトランジスタ密度が2倍、従来型スーパーコンピューターでの演算能力が2年で3倍になるというスピードをはるかにしのぐ。仮にこのペースが続くすると、5年後、10年後のAIを予測するのは、ムーアの法則での約18年後と約35年後、つまり2038年や2055年の世界を予測するのに等しい。逆に、従来の感覚で開発に10年掛かると感じたAIの研究テーマは、実際には3年足らずで結果が出る可能性がある。

「視覚」に続き「言葉」も人間超え

 これを踏まえて、2020年および2025年のAI技術の状況を考えてみよう。2020年までの1~2年は、「CNN」という視覚系深層ニューラルネットワーク(DNN)に対して出遅れていた言語系DNNの応用が急激に発展した年だった(図1)。言語系DNNの基本構造は「トランスフォーマー(TRM)」という。

図1 マルチモーダル×マルチタスクが始まる
図1 マルチモーダル×マルチタスクが始まる
2015年頃に画像認識で人間を超えたCNN(a)と2019年に一部の言語間テキスト翻訳で人間を超えた言語モデルの基本要素であるトランスフォーマー(b)の構造。近い将来に、これらの「視覚系」と「言語系」のニューラルネットを入力(エンコーダー)側に、多くの機能(タスク)をデコーダー側に備えたマルチモーダル×マルチタスクのニューラルネットが登場しそうだ(c)。複数のタスクの出力を全体最適にする学習は「メタ学習」と呼ばれる。これらの技術開発が進めば、同時通訳や自動運転のほか、自ら外界を学習していくロボットなどが実現する可能性がある。
[画像のクリックで拡大表示]

 TRMを組み合わせた米Googleの「BERT」などの言語モデルは、文や文章の文脈を把握し、同じ単語でも文脈の違いで意味が変わることを“理解"している。TRMに基づく機械翻訳の精度は一部の言語間で2018~2019年に人間を超えた。Googleは2019年10月25日、英語圏でのインターネット検索エンジンをBERTベースに切り替えた。

 既にBERT超えの言語モデルも次々と発表されている。例えば、トピックを与えるとそれに沿った長い文章を出力する「GPT-2」、入力データのさまざまな長さや形式に対して柔軟で、インターネットからクローラーが収集した6.1Tバイトといった巨大なテキストデータ群にも対応する「T5」などだ。

GPT-2(Generative Pre-trained. Transfomer version 2)=米国の研究機関OpenAIが開発したトランスフォーマーベースの文章生成AI。論文は2019年2月に発表されたが、あまりに自然な文章を生成するため、フェイクニュースなどに悪用される危険があるとして、そのソースコードがフルに公開されたのは2019年11月のことだった。
T5(Text-to-Text Transfer Transformer)=Googleが2019年10月に発表した最新のBERT後継モデル。

 ちなみにCNNの画像認識の精度は2015年の時点で人間を超えている。

この記事は有料会員限定です

「日経エレクトロニクス」定期購読者もログインしてお読みいただけます。

日経クロステック有料会員になると…

専門雑誌8誌の記事が読み放題
注目テーマのデジタルムックが読める
雑誌PDFを月100pダウンロード

有料会員と登録会員の違い