「データシェアリング」がトレンド
米国では2016年6月、がんゲノム情報の新たなデータベースが立ち上がった。NCI(米国立がん研究所)による「Genomic Data Commons」がそれだ。従来、米国のがんゲノムデータベースとしては「Cancer Genomics Hub(CG Hub)」がよく知られており、Genomic Data Commonsはその後継となる。
Genomic Data Commonsの大きな特徴と井元氏が話すのが、このデータベースが米University Of Chicagoのプライベートクラウド上に構築されること。米Amazon.com社や米Microsoft社などのクラウド基盤とも互換性を持つデータベースになる見込みだ。
このデータベースには、米バイオベンチャーのFoundation Medicine社が2万人分のがんゲノムデータを拠出する予定。がんゲノムデータの国家レベルのシェアリング拠点とする計画だ。
Genomic Data Commonsを支えるクラウド基盤は、1万2000個を超えるCPUコアや、約5P(ペタ)バイトのストレージから成る。井元氏は、米国が目指す100万人分のゲノムデータ格納に向けては(データを圧縮しても)100Pバイトのストレージが必要との指摘を引用しつつ、ゲノム解析では「データが湯水のようにあふれる」と語った。例えば、井元氏が所属する東京大学医科学研究所のゲノム解析用スーパーコンピューター「shirokane3」では、2015年3月の本格稼働開始から1年余りで、既にストレージ容量の半分以上を使ったという。