運用に乗らないワケは…

 現行のオンサイトリサーチセンターは、なぜ今のままでは運用に乗らないのか。黒田氏は、NDBデータ利用基盤の運用上の問題と技術的な問題を挙げる。運用上の問題については、データ利用の申請から承認、分析、研究結果の発表に至るプロセスの運用設計が難航していることや、データ利用を支援するオンサイトリサーチセンターの人材不足があるという。

 一方、技術的な問題については大きく3つのポイントがあるとする。すなわち、(1)名寄せに関するNDB自身の課題、(2)データ利用におけるシステムの可用性、(3)データ分析に関する整理問題・知識問題、である。

 (1)の名寄せに関するNDB自身の課題については、まずNDBデータには、保険者番号から生成するID1と氏名から生成するID2の2種類のIDがある。転職・退職や結婚・離婚などで保険者番号が変わることによるID1と、氏名のデータ入力ミスが多いとされるID2は、基本的に名寄せが困難なデータ環境となっている。「(非常に煩雑な名寄せ作業を)データ利用する研究者自身が行わなければならないのが、現在のNDB。本来は事前に名寄せしたデータにしておく必要がある」と黒田氏は言う。

 (2)のデータ利用におけるシステムの可用性の課題は、大規模データを抽出し、分析を行おうとしたときに、オンサイトリサーチセンターのシステム基盤が機能的・性能的に十分でないことである。例えば、高血圧症の関連病名を1000万人・6年分のレセプトデータから分析しようとした場合、データは14.9億レコードになり、分析用端末にダウンロードするのに3時間46分を要するという。また、データ量は分析端末のローカルメモリーに格納できるサイズでなく、たとえ分析対象期間を2年に絞ったとしても、重回帰分析などの重い分析作業にシステムリソースが耐えられるものでないという。

 (3)のデータ分析に関する整理問題・知識問題の課題は、研究者が分析のためにデータ取得や分析をする作業に非常に時間がかかる点である。東京大学のオンサイトリサーチセンターでは、データをハンドリングする専任者を置き、研究者の研究目的・ニーズを把握し、目的に応じた分析用データベースを作成して研究者に渡している。研究者と専任者が同じ研究室であってもデータベース設計に1週間程度を要しており、実際の分析作業を含めるとかなりの時間がかかっていると黒田氏は指摘する。

 「例えば500万人分のデータ抽出する場合、サンプリングに約18時間を要する。研究者がそのデータで回帰分析などのデータ解析を終了するには2週間程度かかるが、そのうちの5日間ぐらいは夜間バッチ処理を行っている。研究目的や内容を相談できる専任者がそばにいる場合でさえ、こうした状況であり、『みなさんNDBデータを使ってください』と言える環境ではない」(黒田氏)。