PR

データの利活用が企業のデジタル化に重要な役割を果たす。データ基盤の構成次第でデジタル化の成否が決まると言っても過言ではない。代表的なクラウドサービスを利用した設計パターンを紹介する。

 本連載はデータ基盤設計時の設計ポイントを解説します。今回は「デジタル化を進める中小企業」を例にAWS(Amazon Web Services)やMicrosoft Azureでデータ分析基盤を構築するポイントを説明します。

中小企業におけるデータ基盤

 自社ECサイトと実店舗で商品を販売する小売業のA社は、データを生かした経営戦略の立案やマーケット分析、業務効率の向上を目指しています。しかし、データを分析するデータ基盤が整備できていない状態でした。そこで再利用できるデータを蓄積・管理するデータレイクを構築することにしました。

 A社の既存システムには、ECサイトと業務システムがあります。ECサイトはWeb/APサーバー(Linux)4台とデータベースサーバー(MySQL)1台で構築していました。アクセス数は数千件/日。イベントでアクセスが集中する時間帯は数万件/時間になります。データベースが保持するデータは、商品関連データや在庫管理データ、取引先データ、顧客データなどです。

 一方の業務システムはWeb/APサーバー(Linux)2台とDBサーバー(MySQL)1台で構築し、営業関連データや開発関連データ、人事・総務関連データといったシステムを含みます。MySQLを利用しているのは、ECサイトのトランザクション特性に合った安価なリレーショナルデータベースだからです。

 データ分析基盤はAWSまたはAzure上に構築します。データを収集・蓄積するデータレイク(オブジェクトストレージ)とデータの連携・加工をするバッチサーバー(Linux)1台、データを分析するデータベース(MySQL)1台で構築します。データ分析基盤にMySQLを選択したのは、(1)ECサイトをMySQLで構築・運用しているので社内の技術者が慣れている、(2)短期間で構築するため他のDBを検討する時間がなかった、(3)極端に大きな(複雑な)クエリーにはならない見込みがあった、という理由からです。

クラウドなら刻々と変わる環境に対応できる

 A社のデジタル化はデータの集約・分析から始め、将来的に他のテーマに広げていくことを目指しています。そのためデータレイクの構築には従来のデータ基盤とは異なる前提条件があります。(1)やりたいことが後から変わる、(2)集めるデータが後から増える、(3)柔軟かつスピーディーに対応したい、というものです。

 (1)と(2)は今後の拡張性を意味します。現在、ビジネスを取り巻く環境は一気に変化します。今後、新たなサービスや新しい技術の登場によってやりたいこと、できることがどんどん増えるからです。また、IoT機器などの普及で収集可能なデータも爆発的に増加することが予想されます。こうした環境に対して柔軟にかつスピーディーに対応できるようなデータレイクが企業の競争優位性につながります。

 そして、筆者らがクラウド環境でデータレイクの構築を推奨する理由の1つが(3)の前提条件です。オンプレミス環境ではサーバーやストレージ、ネットワーク機器などを購入し、それらの機器をセットアップして、初めて容量を追加できます。そのため急激なデータ量の増加に対処できません。またデータ量の問題を見越して事前に大きめのハードウエアを用意しておくなど投資が過剰になりがちです。

 一方、クラウドサービスはスケールアウトが可能なアーキテクチャーを採用しています。サーバーやストレージの増強はコンソール画面から可能です。また機械学習やAI(人工知能)関連の新サービスも次々と登場しています。それらの新サービスをすぐに活用できるのもメリットです。

AWSおよびAzureで分析基盤を構築する

 AWSで構築する場合の構成図から見ていきましょう(図1)。「Virtual Private Cloud(VPC)」はAWS内の仮想ネットワークです。この中でAWSリソースを起動できます。

図1●中小規模のデータ基盤(AWSの構成例)
図1●中小規模のデータ基盤(AWSの構成例)
[画像のクリックで拡大表示]