全3630文字

 NHK放送技術研究所は2021年6月に開催した「技研公開2021」で、「シーン記述による360度映像と3次元映像の合成技術」を発表した。これまでの2次元映像とは異なり、3次元空間での情報処理を駆使した没入型の高臨場感メディアを提供するための技術である。開発したテレビ方式研究部主任研究員の青木秀一氏に、ISO/IECの分科会であるMPEGで進められている360度映像や3次元映像に関する標準化動向について解説してもらう。(日経エレクトロニクス)

ISO/IEC (MPEG)における標準化

 ISO/IEC (International Organization for Standardization/International Electrotechnical Commission:国際標準化機構/国際電気標準会議)においてマルチメディアの情報処理技術の標準化を行う分科会であるMPEG (Moving Picture Experts Group)は、360度VRアプリケーションも含む、より自由度と没入感の高いイマーシブメディアの実現に向け、MPEG-I「イマーシブメディアの符号化表現」(ISO/IEC 23090)の標準化を進めている。「MPEG-I」と呼ばれる標準規格の構成を表1に示す。

表1 MPEG-I標準規格の構成
(表:NHK放送技術研究所)
表1 MPEG-I標準規格の構成
[画像のクリックで拡大表示]

(1)360度VRコンテンツのファイルフォーマット

 MPEGは、360度VRコンテンツのファイルフォーマットとして「OMAF (MPEG-I パート2)」を19年に標準化した。NHK技研が開発したシステムでは、360度映像を格納するファイルフォーマットとしてOMAFを用いている。

 OMAFでは、360度映像を2次元映像に射影変換することで、2次元の映像を対象に開発された映像圧縮符号化技術や配信技術などを活用する。OMAFにおける360度VRコンテンツの送信側と受信側の処理フローを図1に示す。

図1 OMAFにおける360度VRコンテンツの処理フロー
図1 OMAFにおける360度VRコンテンツの処理フロー
(図:NHK放送技術研究所)
[画像のクリックで拡大表示]

 撮影した360度映像は、射影変換により矩形(くけい)の2次元映像に変換される。圧縮符号化した映像と音声は、360度映像に施した射影変換を特定するメタデータとともにファイル化し、受信側に伝送される。受信側では、メタデータを基に送信側と逆の処理を行い、360度映像のうち、HMDなどのセンサーで特定された領域(ビューポート)の映像をレンダリングして表示する。

 現在のOMAFは固定視点の360度VRコンテンツを対象とする仕組みであるが、視点移動に対応した映像(イマーシブビデオ (MPEG-I パート12))や、後述するボリュメトリック映像をサポートするための拡張が検討されている。

(2)立体的な映像を表現するボリュメトリック映像

 360度映像は決まった視点から外側を見る映像であるが、広い範囲での視点の移動に対応するため、ボリュメトリック映像を3次元空間に配置し、レンダリングにより映像を生成する方法が検討されている。前回解説したNHK技研が開発したシステムでも、この方法を用いている。

 ボリュメトリック映像とは、物体を取り囲むようにカメラを配置し、全方向から撮影することで、物体の立体的な構造を保持している映像である。このボリュメトリック映像を表現する方法として、ポリゴン(多角形)とテクスチャー(多角形に貼り付ける画像)を組み合わせる方法と、「ポイントクラウド」を用いる方法がある。

 ポイントクラウドは3次元空間の画素の集合として物体を表現しており、それぞれの画素はその位置情報と色情報を持っている。ポリゴンとテクスチャーの組み合わせでボリュメトリック映像を表現する方法に比べ、なめらかな曲面を精度よく表現でき、高画質化に適している。こうした特徴に着目し、開発したシステムにおけるマンボウとハリセンボンの映像は、ポイントクラウドで表現している。

 ポイントクラウドは画素を密に配置するほど高精細な表現が可能となるが、画素ごとにその位置情報も保持する必要があるため、100万ポイントで1フレーム当たり15MB以上の情報量となる。MPEGでは、このポイントクラウドを既存の映像圧縮符号化方式で圧縮する方法を開発し、「ボリュメトリック映像の符号化と映像ベースのポイントクラウド圧縮」 (MPEG-I パート5)として21年に標準化した。

 ポイントクラウドを圧縮符号化するための前処理の概要を図2に示す。立体的な構造を持つポイントクラウドを、それを取り囲む「バウンディングボックス」に射影し、さらに「パッチ」と呼ばれる単位に分割する。それぞれのパッチをテクスチャーと呼ばれる矩形の領域に配置することで、2次元の映像として扱うことができるようになる。それに加えて、バウンディングボックスの射影面までの距離情報を示すジオメトリ、さらに矩形のテクスチャーにパッチが配置されていることを示す「オキュパンシマップ」、の合計3つを映像信号として圧縮符号化する。

図2 ポイントクラウドの圧縮符号化の前処理
図2 ポイントクラウドの圧縮符号化の前処理
(図:NHK放送技術研究所)
[画像のクリックで拡大表示]

 これらの符号化ストリームと、パッチごとの3次元空間上の位置を示す補助情報を組み合わせることで、ポイントクラウドの圧縮ストリームが構成される。開発したシステムにおけるマンボウとハリセンボンのボリュメトリック映像は、このようにして圧縮符号化され、リアルタイムに復号して表示されている。

(3)3次元空間を記述するためのシーン記述

 MPEGでは「シーン記述」の標準化に当たり、Khronos (さまざまなプラットフォームで動作するグラフィックスやメディア処理に関するオープンな規格を開発しているコンソーシアム)が開発し、3次元モデルを表現するために広く用いられている「glTF2 (GL Transmission Format)」を、動画像やポイントクラウドを取り扱えるよう拡張した。シーン記述とは、3次元空間におけるボリュメトリック映像の位置や向き、大きさと、周りを取り囲む360度映像を、記述言語を用いて指定する手法である。22年1月に標準化される「MPEGメディアのためのシーン記述」 (MPEG-Iパート14)では、以下のような拡張がglTF2に対して行われている。

  • 動画のような時間方向の情報を持つメディアのサポート
  • 空間オーディオのサポート
  • 推奨ビューポートの記述

 シーン記述に基づき、映像も音声もレンダリング制御を行う端末のアーキテクチャーの概要を図3に示す。

図3 シーン記述に基づき映像・音声のレンダリング制御を行う端末アーキテクチャーの概要
図3 シーン記述に基づき映像・音声のレンダリング制御を行う端末アーキテクチャーの概要
(図:NHK放送技術研究所)
[画像のクリックで拡大表示]

 今後、AR (拡張現実)用途を想定した実空間へのボリュメトリック映像の合成や、利用者のインターラクションのサポート、触覚データのサポートなどの拡張が検討される見込みである。