全4002文字
PR

分散型データ基盤とは、データを分散して保持する形態のデータ基盤を指す。環境の変化に適応しやすい一方、データの不整合を招きやすいデメリットがある。データガバナンスやツールの活用によって欠点を克服し、変化に強いシステムを築ける。

 デジタルトランスフォーメーション(DX)を進める上で重要となるデータ基盤には、3つの設計パターンがあると前回までの本欄で説明しました。「分散型」「統合型」「データレイク型」の3パターンです。今回は「分散型」について説明します。

変化に強いがデータ不整合に注意

 分散型データ基盤とは、その名の通りデータを分散して保持する形態を指します。複数のデータベースがそれぞれデータを保持して、データベース間でデータを連携したり、データの収集や分析をしたりするといった複雑に絡み合ったシステム構造をしています。メッシュ型のような構成をイメージしてください。

 それぞれの目的で構築されたシステムのデータ基盤を疎結合する構造のため、変化に対応しやい利点があります。例えば新しくデータベースを構築して既存のシステムに組み込みたい場合や、新しくリリースされた分析ツールを導入したい場合、それぞれのデータ基盤が独立して稼働しているため、比較的容易に組み込めます。分散型はデータ連携さえできれば、他のシステムのデータベースがどの製品であろうと、制約を受けずに追加・変更できます。DXを進めるということは、企業もシステムも構造が常に変化し続けるのが前提です。変化に適応しやすいことが分散型の最大のメリットです。

 既存システムを一新して変化を起こすことも考えられますが、企業活動を継続している中で、技術やコスト、スケジュール、人員調達などの要因によって全てを変えるのは難しい場合もあります。こうしたケースでも、分散型は現行のシステムに新しいシステムを組み込みやすいと言えます。近年、サービスを機能単位で細分化するマイクロサービスが好まれていますが、これも分散型の1つです。

 一方、分散型にはデメリットもあります。分散型の特性でもあるデータベースが独立していることによって引き起こされます。複数の独立したデータベースの個別最適化が進むと、それぞれの関係性が無視され始めます。その結果、データが連携されなくなり、それぞれ孤立した状態になります。これをデータのサイロ化と呼びます。

 サイロ化が起こると何が問題になるのでしょうか。分散型でデータ連携が必要な理由は、同じデータが各データベースに分散しているからです。重複するデータを更新する際、「置き去り」となるデータベースが存在すると、どのデータベースのデータが最新で正しい状態なのかが分からなくなります。

 また、データが分散している状態において、データ連携の失敗に伴うシステムエラーが発生した場合、運用管理がしっかりされていないと問題の発生箇所や影響範囲が分からなくなります。システムエラ―を正しく検知し、事象を正しく認識できていなければ、どのように修正すればよいのか分からず、正しいデータに修正できません。サイロ化を防ぎ、データの不整合を発生させないための設計の難易度が高いのが分散型のデメリットといえます。

図 メッシュ型の構成を取る分散データ基盤
図 メッシュ型の構成を取る分散データ基盤
データを分散して保持する
[画像のクリックで拡大表示]