全3940文字
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です
本記事はロボットとAI技術の専門誌『日経Robotics』のデジタル版です

 現実世界の多くが連続値で表される。時空間は連続であるし、物体やその性質、サイズ、形状、重さなどを表すのも連続値であり、画像や音声など観測シグナルも連続量で表される。

 そのため、現実世界の問題を機械学習や深層学習で扱う場合、連続量の入力を受け取り連続値のベクトルを内部状態として持ち処理するのが自然である。最終的な出力結果だけ、分類結果など離散的な情報を扱う場合もあるが、基本的に内部はすべて連続量で処理される。こうした連続値を使った表現は誤差逆伝搬法を使った勾配法による最適化とも相性がとても良く、スケーラブルな学習を実現する。

著者の岡野原大輔氏
著者の岡野原大輔氏

 これに対し、情報を連続値で扱わずに離散値で扱う表現が提案されている。例えば画像の潜在表現に離散値を使うVQ-VAE1)がある。オリジナルのVAE(変分自己符号化器)は潜在変数を使った生成モデルであり、連続値を持った潜在ベクトルから復号化器を経由し画像を生成する。これに対しVQ-VAEは、離散値を持つ潜在変数を生成し、次に、各離散値に対応した埋め込みベクトルを入力とした復号器で画像を生成する。埋め込みベクトルの数は離散値の種類数しか無いので、画像を離散的な情報で表しているといえる。