PR

 先日、東京都杉並区にある日本年金機構の本部を訪れた。日経SYSTEMSの8月号の特集「きれいなデータの作り方」の取材である。改めて年金記録問題を糾弾するつもりはない。年金記録がなぜ汚れたのか、問題が公になってから4年の間、どのようにしてデータをきれいにしてきたのかを探るのが取材の目的だった。

 周知の通り、2007年に年金記録データに関して重大な問題が発覚した。いわゆる“宙に浮いた5000万件”である。それから時間とコストをかけて、2011年3月時点で、3118万件が確認できたという。ようやく6合目までたどり着いた形だ。記者はこの問題や一連の取り組みについて「IT現場にいくつもの教訓を残してくれた」と考えている。すなわち、データをきれいにするための教訓である。

教訓(1)データは入力時に汚れる

 簡単に年金記録問題をおさらいしよう。第二次大戦中に始まった年金制度。当時は紙の台帳でデータを管理しており、それをのちにコンピュータシステムに登録した。そして1997年、国民一人に一意の番号を振った「基礎年金番号制度」が始まる。転職や退職などで複数の年金番号を持つ人は「氏名」「生年月日」「性別」を頼りに、基礎年金番号に名寄せしていった。

 ところが、このとき名寄せできなかった未統合の年金データが、実に5095万件に上った(判明したのは2007年)。これが“宙に浮いた5000万件”である。誰の年金記録か分からないデータが大量に残り、それを名寄せする作業がここから始まった。取材を受けたある幹部は「未統合データのほとんどは入力ミスが原因だった」と明かす。

 この入力ミスは、年金記録を登録あるいは修正するときのミスと、紙の台帳からシステムに転記するときのミスに分かれる(このほか改ざんもある)。ミスが起こった原因はいろいろあるが、記者は次の点に着目する。一つめは前者の原因の一つである「入力作業に多くの部署が介在していること」、二つめは後者の原因の一つである「記載内容の解釈を入力者自身に任せたこと」だ。

 例えば前者の場合、個人が記入した記録用紙は企業の総務担当者から年金事務所の担当者、そして入力代行業者へとわたる。入力代行業者が入力時に読めない文字があっても、それを本人に確認する可能性は低い。まさに“伝言ゲーム”の様相である。入力までのフローが複雑で長ければ、どこかでミスが起こりやすくなる。

 転記ミスはもっとやっかいだ。昭和17年(1942年)から存在する紙の台帳である。当時の職員の一部は「草書体」と呼ぶひと筆書きのような文字で記載していた。現在ではほとんど見ることのないこの書体は「さんずい」と「にんべん」の違いさえ判別するのが難しい。こうした台帳を転記する入力者が、自身の判断で識別していれば、ミスが出ない方がおかしいぐらいである。

 これを受けて日本年金機構は、現在、多くの部署が介在する状況を改善するために企業から年金データを電子ファイルで直接受け取る方式を広げつつある。紙の台帳と年金データの照合も改めて実施。ここではプロの書道家を招き、草書体の文字の識別を急いでいる。

 もしシステムに登録するフローがシンプルで、入力する際に間違いを発見するチェック機構があったら、ここまで汚れたデータが蔓延していなかったのではないか。入力時に汚れたデータを確実にシャットアウトすることが、きれいなデータを作る上でまず大事であることを改めて教えてくれた。

教訓(2)精度の高いデータと照合する

 教訓の二つめは、精度の高いデータと照合することの必要性である。年金記録問題に取り組む対策チームは、年金データのクレンジングを進めてきた。しかし、なかなか作業は進まない。理由は氏名や住所の変更、死亡の有無などがきちんとメンテナンスされていなかったからだ。

 「精度の高い別のデータと照合しなければ、年金データの精度は一向に上がらない」という結論に至った対策チームは、自治体が持つ住民基本台帳データに解決策を求めた。行政サービスを受けるには住民登録が必要である。そのため住民基本台帳データは、年金データと違ってメンテナンスされる必然性が備わっている(もちろん住民基本台帳データにも不備はあるが)。

 年金データと住民基本台帳データを照合すると、効果はてき面だったという。基礎年金番号に名寄せできなかった多くのデータを名寄せできたほか、死亡の確認が取れたデータも大量にあった。2011年7月以降、定期的にこの照合を繰り返すように改め、年金データのメンテナンスが一部で自動化されている。

 この手法は企業情報システムにも応用できそうだ。もし顧客マスターに汚れたデータが混ざっていたら、データを1件ずつクレンジングしていくのは大変である。しかし、世間には法人名や住所などのリファレンス(辞書)データがある。こうしたデータを正データとして照合させれば、結果的に確実で早いクレンジングを実施できる可能性は高い。