PR

 システム開発などを手掛けるエスペラントシステム(千葉県流山市)と宇宙航空研究開発機構(JAXA)の研究チームは、米国の月着陸船「アポロ11〜17号」が月面に設置した地震計から得たデータを使って実証実験を実施し、ビッグデータをビッグデータのまま検索・加工・提供できる技術を開発した(ニュースリリース)。さまざまなビッグデータの流通への展開が期待できるほか、人工知能(AI)との連携が容易になるという。

 エスペラントシステムとJAXAは、低コストのシステム構成で高速にビッグデータをダウンロードできるサービスの実現を目指し、2019年5月から「巨大時系列データの高速アクセスに関する研究」に取り組んでいる。今回の実証実験では、読み取り専用の「READ ONLYデータベース」を用いてビッグデータの超高速処理を実現した(エスペラントシステムが公開した資料)。

 アポロ11〜17号が月面に設置した地震計のデータは、「データの蓄積・管理」サブシステムと「オンライン検索・分析・ダウンロード」サブシステムに分割できる。前者に使うデータベースは処理時間の制約が少なく、高速・大規模の処理の実現が容易だ。後者のデータベースは、高速なレスポンスが要求されるものの読み取り専用で対応可能なため、読み取り専用を前提とすれば高速・大規模の処理を実現できると研究チームは考えた。

 併せて、テーブルを分割してシステムが大規模・高価・低速になるのを抑えた。分割したテーブルを任意に選び、任意の順序で仮想的にユニオンにできれば、サービスの多様化と高度化を図れる。さらに研究チームは、D5A形式のファイルをCSVの50%に圧縮できる機能を開発し、SSDのストレージサイズを小さくした。マスタービッグデータを管理するシステムは、パソコンサーバーとSSDのみで構成できるという。

 ベンチマークテストでは、4項目(時間、lpx、lpy、lpz)から成るアポロ11・12・14・15・16号のテーブル5つを仮想的にユニオン化し、約40億行(40億6917万1800レコード)のテーブルを作った。その上で、1項目の区間を指定して数億行を検索したところ、0.055m〜0.291m秒(平均0.099m秒)で検索できた。

 さらに、x/y/zの3次元の大小関係に基づく「複数項目範囲インデックス」を開発。これによって1000万行のテーブルから3項目(x/y/z)の区間を指定したときに16m〜520m秒で検索できたとする。

 こうした技術は、さまざまな観測データやIoT(Internet of Things)機器で収集したデータ、ブロックチェーンデータ、ログデータなどに適用できるので、これらビッグデータの検索・表示・ダウンロードサービスへの展開が想定される。AIとの連携では、AIがビッグデータを学習する際、検索・集計に時間がかかり学習が進まないという課題を解決できるという。AIがこれらの技術を使ってサービスに必要なビッグデータを拾い上げれば、新しいデータ提供サービスも可能になると、研究チームはみている。