全2715文字
PR

 機械翻訳などiPhone向けのAI(人工知能)を強化している米Apple(アップル)だが、同社は2022年6月に開催した開発者会議「WWDC 2022」に合わせて、興味深い事実を明らかにした。iPhoneで稼働するアップル製AIの多くは、ライバルである米Google(グーグル)のTransformerベースだったのだ。

 Transformerは「自己注意機構(SA、Self-Attention)」と呼ばれる技術で、もともとはグーグルが機械翻訳で使うために開発し2017年に論文で詳細を発表した。人間並みの文章読解能力を備えるBERTや人間が書いたような文章を生成できるGPT-3などの言語モデルで使われていることで知られる。最近はその活躍の場を画像認識やロボット制御、プログラムのソースコード生成など様々な領域に広げている。

 グーグルのライバルであるアップルも、実はTransformerの熱心なユーザーだった。アップルはWWDC 2022の開催に合わせて研究チームが公表した文書で、様々なAIにTransformerを採用していることを明らかにした。

被写体識別や機械翻訳などにTransformerを活用

 具体的には、iPhoneのカメラが備える「Panoptic Segmentation(パノプティックセグメンテーション)」機能や、iPhoneの写真アプリケーションが備える画像の撮影シーンを分析する機能、iPhoneの画面上に表示されている物体や文字を認識して読み上げる「VoiceOver」機能、翻訳アプリにおける機械翻訳機能などがTransformerを使っているのだという。

 パノプティックセグメンテーションとは、カメラが捉える複数の被写体を個別に識別して、切り抜き可能にするAI機能である。例えば最近のiPhoneのカメラは、被写体ごとにコントラストやライティング、肌のトーンなどを調整する「スマートHDR 4」という機能を備えている。ここでの被写体識別を担っているのがパノプティックセグメンテーションである。

 パノプティックセグメンテーションとは、Facebookの運営元である米Meta(メタ)が2019年に定義した比較的新しい画像の識別(セグメンテーション)タスクで、従来の画像識別に比べてより細かく物体を識別する。例えば従来は、複数の被写体が重なって写っていると、そのグループ全体を切り抜くだけだったが、パノプティックセグメンテーションの場合は、各被写体の領域を個別に切り抜く。

 さらにiPhoneのパノプティックセグメンテーションは、単に人物を切り抜くだけでなく、その人の髪の毛や肌、歯、眼鏡なども識別して切り抜くことも可能だ。

メタが開発したTransformerベースの画像識別AIを改良

 iPhoneのパノプティックセグメンテーションは、メタがTransformerを使って開発した画像識別AIである「DETR(DEtection TRansformer)」をアップルが改良した「HyperDETR」というAI技術がベースになっている。つまりiPhoneのパノプティックセグメンテーションは、グーグル、メタ、アップルの技術が組み合わさって実現したものと言えるわけだ。

 アップルがTransformerを使って開発したiPhone向けのAI機能の特徴は、iPhone向けにアップルが独自に開発したApple Aシリーズのチップが搭載する機械学習専用コア「Apple Neural Engine」で動作する点だ。

 スマートフォンで使えるAI機能の中には、実際の推論処理をサーバーサイドで行うものが少なくない。スマホの処理性能が限られているためだ。しかしプライバシー保護を製品の訴求点に掲げるアップルは、スマホのデータをサーバーに送って推論するのではなく、推論もスマホで完結させる方針だ。