ひどい手ぶれ動画やノイズまみれの写真を、AI(人工知能)がきれいに修正する。米Google(グーグル)が2022年9月8日(米国時間)、動画や写真の様々な不備を修正するAIである「MAXIM(Multi-Axis MLP for Image Processing)」のソースコードや学習済みモデルをオープンソースとして公開したと発表した。
MAXIMは動画や写真に対するノイズ除去(denoising)や手ぶれ補正(deblurring)、煙霧除去(dehazing、煙や霧の除去)、水滴除去(deraining、雨など水滴の除去)、低照度補正(low-light enhancement、暗い画像を明るく補正すること)などができるAIだ。
ノイズ除去や手ぶれ補正などができるAIは以前から存在する。ただし従来のAIがどれか1つの補正タスクに特化していたのに対して、MAXIMは1つの機械学習モデルで様々な補正タスクに対応するうえに、各補正タスクの性能も高い。いくつかのベンチマークでは最高水準(State of the Art、SoTA)を達成した。
グーグルはMAXIMで手ぶれ補正などを施したサンプル画像を公開しているが、その効果はすさまじいの一言だ。
これまで筆者は、手ぶれやノイズがひどい写真や動画は保存しておいても無駄と思って、削除していた。しかしMAXIMがあれば、どんなひどい写真や動画も後から復活させられそうだ。データを削除してきたことを、今は深く後悔している。
40万円のGPUでも1枚の処理に3分必要
とはいえMAXIMはまだ、一般ユーザーにとって手が届く技術ではない。MAXIMで写真を補正するのに、小売価格で40万円以上もする米NVIDIA(エヌビディア)のAI用GPU「NVIDIA T4」を使っても、1枚当たり3分かかる。秒間30フレームの動画であれば、1秒の動画の補正に90分(1分の動画なら90時間)かかる計算になる。
しかし半導体性能の向上やアルゴリズムの進化を考えると、数年後にはMAXIM並みの画像補正機能がスマートフォンに搭載されることだろう。その頃には「撮影に失敗する」という概念自体がなくなってしまうかもしれない。
多層パーセプトロン(MLP)の弱点を克服
MAXIMは性能だけでなく、アーキテクチャーも格段に進歩させたという。画像分野のAIといえば従来はCNN(Convolutional Neural Network、畳み込みニューラルネットワーク)が圧倒的な存在感を示していた。しかしMAXIMはCNNではなく多層パーセプトロン(MLP)を使用する。
MLPは画像の座標情報だけを扱う「低レベル画像タスク」において優れた性能を発揮することが、従来のグーグルによる研究で明らかにされていた。しかしこれまでは、MLPは高解像度画像に適用できないことが課題だった。MLPはピクセル同士の関係性を画像全体にわたって把握しようとするため、高解像度になると計算量が爆発してしまうためだった。