使いやすい環境にするために…

 これらの課題を解決し、オンサイトリサーチセンターが運用に乗るようにするためには、どうすべきか――。これが、前述の「新たなエビデンス創出のための次世代NDB データ研究基盤構築に関する研究」を開始した動機だと黒田氏は説明した。

 オンサイトリサーチセンターを利用者にとって使いやすい環境とするため、黒田氏が目指したのは「利用者が事前にデータハンドリングの学習ができること。小さなダミーデータセットによって自身が作成したプログラムを事前にテストできる仕組み」(同氏)だという。利用者がNDBのダミーデータを実際に操作し、分析技術を学べる学習環境を整備するとともに、ミニマムなデータセットを使って研究者自らが試行を繰り返した後、オンサイトリサーチセンターのサーバー上でデータ抽出・分析できる基盤を構築しようというものだ。

 NDBデータ利用研究基盤の構築に際しての厚生労働省からの要請は、今後さまざまなデータベースがNDBに統合されたり、研究者の利用が増加したりすることを踏まえ、スケーラブルな仕組みであること。加えて、長期に渡りシステム拡張していく上で、特定ベンダーの独占にならないよう“ベンダーロックイン”な仕組みは避けること、という点だったという。「この2つをクリアするために、(現状では)Hadoopを使うという結論に至った。Hadoopに関して、各社を比較した中で現在技術的に信頼できるベンダーはNTTデータだと判断し、システム構築を依頼した」(黒田氏)。

Hadoopを用いた次世代NDBデータ研究基盤
Hadoopを用いた次世代NDBデータ研究基盤
[画像のクリックで拡大表示]

 構築した基盤では、NDBからのデータの取り込みから名寄せのプロセスを経て、研究や目的別のデータマートを作成する。こられのデータマートから縮小したデータを取り出して分析サーバーを構築し、分析用端末で研究者な試行分析の学習ができるようにした。

 また、名寄せに関するアルゴリズムの研究開発してきた奈良県立医科大学と、目的別にデータを再構成するデータマート開発に東京大学が参画している。京都大学は、全体設計と小規模のダミーデータを利用した学習環境の整備を担当した。

京都大学、奈良県立医科大学、東京大学がそれぞれ分担
京都大学、奈良県立医科大学、東京大学がそれぞれ分担
[画像のクリックで拡大表示]

 この次世代NDBデータ研究基盤により、黒田氏は学習環境によりデータ分析に関する知識の普及に期待が持てるとする。さらに、オープンでスケーラブルな仕組みとしたことにより今後、学校健診データや介護レセプトデータなどが統合された場合でも、十分に対応できる基盤だと自負した。「NDBは世界に冠たる医療・健康データベースであり、その活用が促進されれば新たなデータヘルスサービスが提供できるようになる」(同氏)。