PR

 欠損した値、不正なレコード、間違ったファイル形式―。正常なデータに紛れ込んで統計分析の邪魔になる上記のようなデータを「バッドデータ」と呼び、その対処策を記した書。 本書の特徴は、19人のデータサイエンティストが1章ずつ担当して、経験を基にしたバッドデータに関する意見を述べていることだ。

 19人の著者の経歴は、ベンチャー企業のCTO、英国安全衛生研究所の統計チームのメンバー、米連邦議会予算事務局の経済学者といった具合にさまざまである。このため、本書の内容は多岐にわたる。データと現実が一致しないときはどうすべきか、ネット上に散在する形式の違うデータを集めて再構成するにはどうすればよいか、バッドデータに対処する組織はどうあるべきか、などである。なかには、「実際に『バッドデータ』なんてものはない、アプローチがまずいだけだ」と述べる著者もいる。文体や事例も各章ごとに変わり、多様な視点の意見が読める。データ分析に関わるエンジニアにお勧めだ。

なぜなぜ分析 管理


バッドデータハンドブック
Q. Ethan McCallum 著
磯 蘭水 監訳
笹井 崇司 訳
オライリー・ジャパン発行
2940円(税込)


■同じ本の別の書評も読む