色のないモノクロの世界が一瞬にして色とりどりの世界に様変わり―。AI(人工知能)がモノクロ写真や白黒の線画に自動で色を付ける技術が登場している。深層学習によって着色の不自然さがなくなり、その精度は90%に上昇。出版社が活用に乗りだし、自社製ソフトに組み込むIT企業も現れた。AIの鮮やかな腕前により、クリエイティブの世界が変わりそうだ。
「色を付けた途端、命が宿るように感じます」「カラーだと本当にリアル。一瞬で目に入ってくる」「生き残るために懸命だった時代をイメージできました。ありがとうございます」。戦後73年目となる2018年の終戦の日、東京大学情報学環の渡邉英徳教授がTwitterにアップロードした写真は、瞬く間に多くの人の目に触れることとなった。
写真は大人や少年、幼児が所狭しと雑魚寝をしている様子を写したものだ。道路のようなコンクリートの上に新聞や布を敷き、思い思いの姿で寝入っている。ある少年は上半身を出して熟睡し、その少年と足を絡め合うようにぼろぼろの衣服を身にまとった別の少年が目を閉じている。
写真は1946年に撮影された上野駅の様子だった。米写真雑誌『LIFE』が掲載したもので、終戦間もない日本を生々しく写し出していた。このツイートは5500以上リツイートされ、8000件以上の「いいね」がついた。これだけの反響を得たのは情景の生々しさだけが理由ではない。白黒であるべきはずの写真がカラーだったからだ。
物体に加えシーンも参考に推定
渡邉氏は2016年12月に白黒の写真をAI(人工知能)を使ってカラーにする取り組みを始めた。2017年12月までの約1年間で集めたインプレッション(閲覧数)は累計約6000万に上る。渡邉氏がカラー化に使ったのがAIによる色付け技術だ。
筑波大学人工知能科学センターの飯塚里志助教らが開発したAIを用いた。特徴は2つのニューラルネットワークで構成する予測モデルだ。1つは局所的な部分や物体を捉えるニューラルネットワークで、部分的に「それが何か」を認識して色を推定する。
もう1つのニューラルネットワークは写っている風景などのシーンを捉える。写真が屋外なのか屋内なのか、屋外なら庭園なのか、それともゴルフ場なのかといった判断をする。2つが導いた特徴を「結合レイヤー」によって1つに統合して最適な色を推定。輝度を調整して、色を付けた画像を出力する。2015年に研究を始めた当時は「カラー化のような複雑な画像変換について深層学習を用いて直接学習する研究はほとんどなかった」(飯塚氏)。
シーンを推定するニューラルネットワークを使うことで色付けの精度が高まったという。物だけにフォーカスして画像を推定する場合、例えば平面だとそれが外壁なのか壁紙なのか、それとも空なのか天井なのかといった判断が難しい。そこにシーンを加えることで「庭園」や「教会」などと推定できれば、平面は屋外にある教会の外壁だと推定できる可能性が高まり、色付けの精度を引き上げやすくなる。「人間も画像を見た際に物体が何かを把握し、領域が何であるかを認識して推定している。人間の判断をいかに予測モデルに落とし込むかに焦点を当てた」(飯塚氏)。
教師データは画像データのライブラリ「Places2」の画像を活用した。約230万枚の画像に205種類のシーンをタグ付けしたデータだ。色付けの結果はユーザーによるテストによって評価した。約90%の結果について自然だとの回答を得たという。
ただし、「90%を99%にするのは難しい」(飯塚氏)。人工物の場合、「どんな色でもあり得る」からだ。例えば洋服や商品のパッケージといった人工物について色の「傾向」を読み取るのは容易ではない。特定の洋服や商品のデータが教師データとして用意されていない限り、推定するのは実質不可能だ。現在、人工物のような判断が難しい物については「セピア色といった平均的な色になってしまう」(飯塚氏)という。
飯塚氏は現在、この技術を動画に応用する研究を進めている。モノクロの動画に色を付けられれば、過去のニュース映像や映画が鮮やかによみがえるかもしれない。