全4816文字

データカタログをつくるための製品・サービスは多岐に渡り、提供される機能にも差がある。スモールスタートが可能で、データカタログの代表的な機能を備えるクラウドサービスがある。そうしたサービスとして「AWS Lake Formation」と「Microsoft Purview」が挙げられる。

 前回に続き、データカタログについて解説します。組織内でデータの活用を進めるには、どのようなデータが存在するのかを分かる状態にしなければなりません。データカタログは組織内のデータセットの情報を登録し、検索できるようにしたシステムです。データカタログの存在は、データを活用したいと考えている利用者にデータセットの所在や特徴を的確に伝えられることになり、データ活用のアイデアを生み出すきっかけにもなります。

 データカタログを作成するための製品・サービスは数多く、提供される機能群には差があります。製品・サービスの価格は幅広く、数千万円以上するエンタープライズ向けから、月額数千円で利用できるクラウドサービスまで存在します。今回はスモールスタートが可能で、データカタログの代表的な機能を備える間口の広いクラウドサービスとして、米アマゾン・ウェブ・サービスの「AWS Lake Formation」と米マイクロソフトの「Microsoft Purview」について解説します。

付加機能に違いがある

 データカタログに求められる基本的な機能としてはメタデータの自動収集、ビジネス用語の登録や検索が挙げられます。付加機能としては、データ追跡やインポート/エクスポートなどがあります。付加機能とは、必須ではないがユーザーニーズによっては利用要件として必要になる可能性がある追加機能といった意味合いです。Lake FormationとPurviewを比較すると付加機能に違いがあります。

表 データカタログ製品の比較
付加機能は製品・サービスによって異なる
表 データカタログ製品の比較
[画像のクリックで拡大表示]

メタデータ収集、検索機能

 データカタログで最も基本となる機能です。ほとんどの製品がデータベースなどから、メタデータ(データの名称、型、桁などのデータに関する情報)を自動収集する機能を備えています。自社で利用している環境に対応していることが確認のポイントです。高機能な商用製品では非常に多くのデータソースからの収集に対応しています。

ビジネス用語登録、検索機能

 メタデータはエンジニアが厳密に判別できるような用語や文字列になっていることが多く、非エンジニアが見ても理解できない文字列で名称が定義されているものがあります。メタデータだけでデータカタログを運用するのは利便性が高いとは言えません。

 多くの組織では、一般ユーザー(非エンジニア)とエンジニアの両方がデータカタログの利用者となります。非エンジニアは普段使い慣れているビジネス用語で検索したいというニーズがあります。データカタログ製品の多くはビジネス用語の登録と検索機能を備えています。製品・サービスによってタグだけの登録なのか、用語間の関連性も定義できるのかといった違いがあります。関連性が定義できれば類似する用語で検索結果が得られるといった利点があります。