PR

4.6TOPSの性能、3TOPS/Wの効率

 Arm ML processorはモバイル機器での推論処理に向けて一から新規開発したコアで、最大4.6TOPS(Trillion Operations Per Second)の処理性能を持つ。電力効率が高いことが特徴で、3TOPS/Wの効率を達成できるという。電力効率と処理性能を両立させるために、Arm ML processorは2つの演算回路を備える。1つは特定の演算を処理する回路。もう1つは畳み込み層以外の演算を担うプログラム可能な回路である。さらに、コア全体を制御する回路や、メモリーとのやりとりを担うDMA回路などを備えている。

2種の演算回路を備える。(出所:Arm)
2種の演算回路を備える。(出所:Arm)
[画像のクリックで拡大表示]

 Arm OD processorは同社としては第2世代の物体検出プロセッサーコア。60フレーム/秒のフルHD動画からリアルタイムで検出が可能だという。検出可能な大きさは50画素×60画素からフルスクリーンまで。DSPコアを使う既存の手法に比べて最大80倍の処理性能を持つとする。

 今回発表されたソフトウエア群は「Arm NN SDK」(NNはNeural Networkの略)と呼ばれる。ニューラルネットワーク学習用フレームワーク(NNフレームワーク)とプロセッサーコアを結び付けるためのオープンソースのLinuxソフトウエアである。NNフレームワークで学習したニューラルネットワークを特定のプロセッサーコアに最適化した実装用データに変換する。

Project Trilliumと既存品の関係。一部予定を含む。(出所:Arm)
Project Trilliumと既存品の関係。一部予定を含む。(出所:Arm)
[画像のクリックで拡大表示]

 サポートするNNフレームワークは、最初は「TensorFlow」と 「Caffe」。今後、他のNNフレームワークに対応を広げる。ターゲットのプロセッサーコアは上述のArm ML processorや同社のCPUコア/GPUコア。CPUコアの「Cortex-A」やGPUコアの「Mali」に最適化する際には同社の「Compute Library」を、CPUコアの「Cortex-M」に最適化する場合には「CMSIS-NN」をそれぞれ利用する。

 Project TrilliumのうちはArm OD processorは 「Mobile World Congress 2018」(2018年2月26日~3月1日にスペイン・バルセロナで開催)で紹介される模様。また同年4月からProject Trilliumの初期プレビュー版が登場し、同年中頃には一般リリースの予定である。