データ活用・データ連携のお役立ちコラム
データ活用・データ連携のお役立ちコラム
データウェアハウス(DWH)とは、企業内の複数システムから大量のデータを時系列で蓄積するデータサーバーです。企業が何らかの意志決定を行うために、既存システムのデータを1つのデータベースに統合し、業務横断的にデータを活用できる環境を構築します。今回のコラムでは、企業がデータを戦略的に使いこなすための情報基盤であるDWHについて、わかりやすく解説します。
DWH(Data Ware House:データウェアハウス)を直訳すると“データの倉庫”です。これは、データを保管しておくデータベース(Database)のことを意味します。保管というのであれば、パソコンのハードディスクや基幹系システムのサーバもすべてDWHと呼べそうですが、そういうわけではありません。
DWHを提唱した米国のコンサルタント・William H.Inmon氏は、「DWHは、意志決定のため、目的別に編成され、統合された時系列で、削除や更新しないデータの集合体」と定義しています。
企業は会計管理、在庫管理、顧客管理などのさまざまなシステムを用いてデータを管理しています。これらのシステムはそれぞれ別のデータ体系で構築されているため、データを収集してもそのままでは分析を行うことができません。企業が何らかの意志決定を行うためには、既存システムのデータを1つのデータベースに統合し、業務横断的にデータを分析する必要があります。
基幹システムを含むさまざまなデータソースからデータを集めて格納し、人間がそれらのデータを用いて分析を行い、意思決定できる環境を提供するのがDWHです。
DWHとデータベースはどう違うのでしょうか。
まず挙げられるのは、DWHはデータ分析に特化したデータベースであるという点です。超並列処理アーキテクチャを採用しており、1つのクエリ処理を同時並行で行えるため、通常のデータベースより飛躍的に高い検索・分析機能を発揮します。
また、データの格納も、データを「顧客」「商品」「店舗」「従業員」「取引先」というようにサブジェクト(主題)ごとに分解・整理されて行われており、効率的かつ統合的なデータ分析に適しています。
さらに、データが時系列に沿って消去・更新されることなく常に蓄積されていくという点も、通常のデータベースとは異なるポイントです。
データレイクとは、英語ではdata lakeと綴り、字義どおりには“データの湖”を意味します。データがたくさん集まる場所という点では、データレイクはDWHの類語です。
しかし、格納するデータの内容に関しては、両者は大きく異なります。DWHが対象としているのは、基幹業務システムやデータベース内に収められていた、規則性のある構造化データです。
これに対しデータレイクは、構造化データに加えて、データベース化できない非構造化データも対象にしています。非構造化データとは具体的に、電子メール、CADデータ、画像や動画ファイルなどを指します。
そしてデータレイクでは、これらのデータが、加工を施されることなくそのままの形で一元的に格納されます。
データマートとは、英語ではdata mart、martは“小売店”です。DWHが“データの倉庫”ですから、ここからはまず、DWHとデータマートでは器の大きさが異なりそうだということがわかります。
データを統合的に格納するDWHと違って、データマートは「顧客管理用」などといった具合に特定の目的に合わせて作成します。目的が明確であるため、必要なデータ項目も限られ、構築が容易です。分析性能も、データ量が少ないことからDWHに比べると高いレスポンスが期待できます。ただし、分析できる範囲は狭く、ルーチンワークで利用するのには適していますが、新しい仮説をいろいろ試したいといった場合、有用性は落ちます。また、あとからデータ項目を追加するケースが頻発すると、メンテナンス工数は増大します。
BIとは、英語ではBusiness Intelligenceと書き、“ビジネスの知能”を意味します。これは、データを集め、格納し、分析を行って、何らかの意思決定のため判断の助けとする目的で用いる手法や技術のことを指します。BIツールというのは、この用途で開発された専用ツールです。
DWHがデータを格納することに特化し、それらのデータがどう活用されるかについては対象外としています。それに対してBIは、概念的にはデータの格納プロセスも含んでいるものの、どちらかというと分析プロセスに主眼を置いています。その意味で、DWHとBIは補完関係にあるともいえ、両者を組み合わせて活用することでより包括的なデータ分析を行うことが可能になります。
「商品」や「顧客」などのデータ項目を意味するサブジェクト、DWHでは、この単位でデータが分解・整理して格納されなければなりません。なぜなら、さまざまなデータソースから収集されたままでは、データ体系が異なり包括的な分析が行えないからです。
そのためDWHでは、データをサブジェクトごとに分解・整理する機能が必要です。この機能によって、「商品」なら「商品」のデータが、データソースの違いを超えて一つのデータ集団となり、大規模なデータ分析が行えるようになります。
DWHでは複数のデータソースから情報を収集します。そのため、データの重複が発生する場合もあります。たとえば、同一店舗が2件のデータとして登録されれば、不正確なデータを扱うことになり、分析精度が低下します。
データ重複は表記ゆれによっても起こります。あるデータソースでは「従業員」、あるデータソースでは「社員」となっていると、中身の同じデータが重複して存在することになってしまいます。そのため、DWHではさまざまな観点から重複排除を行い、整合性のあるデータ格納をめざします。
通常のデータベースで重きを置くのは、最新データです。たとえば、顧客の住所という場合、それは現住所を意味します。何かの業務で利用する場合、必要になるのはほとんど現住所で、過去の住所はあまり役に立ちません。また、使わないデータの保存はデータベース性能の低下につながります。
しかしDWHでは、包括的な分析の必要から、現在だけでなく過去の分まできちんと整理した上でデータを保持し続けます。そのように膨大なデータを対象にすることで、新たな“気づき”を得るのがDWHを使ったデータ分析の目的といえます。
DWHでは、一度格納されたデータは更新・削除されることなく長く保管されます。「データの時系列整理」でも述べたように、時系列で整理された膨大なデータを対象とすることが、DWHを使った分析の目的といえるからです。
ただし、DWHも一つの“器”であり、どこまでも無限にデータを保存し続けることは不可能です。容量やコストの観点から限界を迎えることもあり、その際には優先順位の低いデータをアーカイブしたり、削除したりといったメンテナンスを行うこともあります。
膨大なデータを時系列に沿って蓄積するDWHは、策定したKPI(重要業績評価指標)の下、リアルタイムに変動するデータを分析することで、生産性の向上に役立てることが可能です。
わかりやすい活用例は、POSシステムのデータ分析でしょう。店舗で取り扱う商品数は数百から数千点以上となり、毎日レジで入力される販売実績データは膨大なものとなります。しかし、そのデータを時系列に沿って分析処理することにより、目的別に活用していくことができるようになります。たとえば、バイヤーは売れ筋商品の仕入れに、店長は顧客動向や価格・コスト設定の分析に、商品企画部では新商品の開発データとして、有効に活用していくことができるようになります。
DWHに業種による向き不向きはありません。製造業では在庫の削減、物流業ではコスト効率の追求に活用するなど、データを有効活用した戦略的なマネジメントを強力に支援します。DWHの導入にあたっては、自社の業務に最適なシステムを構築することが求められます。以下の2つの視点からDWHの構築をご検討ください。
アプライアンスとは、特定の機能や用途に特化したハードウェア・ソフトウェア一体型の専用機器のことです。DWHアプライアンスは、アプリケーション、コンピュータ、ストレージをあらかじめ1つのシステムとして統合したもの。導入・運用は企業側で行うため、データの秘匿性は保たれます。ただし、データ分析のパフォーマンス最適化のための調整も社内で行うことになります。
DWHはクラウドサービスでも提供されています。初期導入コストをかけることなく、データ容量の増加にも柔軟に対応できるのが特長です。「スモールスタート」し、常に適正な容量とパフォーマンスを維持しながらデータ分析を行うことができます。ただし、自社業務への最適化という面ではアプライアンスにおよびません。ゆずれない要件がいくつもある、という場合は注意が必要です。
自社のデータを戦略的に使いこなすために検討したい代表的な機能をご紹介します。
そもそも既存のデータベースの処理速度では追いつかない膨大なデータを分析するためにDWHが提唱されました。データ処理速度は、システムを検討する際の優先条件となります。
DWHに蓄積されるデータは、日々増え続けていきます。ストレージ容量の拡張性と処理速度が維持されるかどうかも、重要なチェック事項となります。
上記のPOSシステムの例を見るまでもなく、社内の誰もが使えるDWHでなければ、データを有効に活用することにはなりません。グラフィカルでわかりやすいユーザインターフェースが保たれるか、操作は簡単に行えるかを確認する必要があります。
DWHは、データソースからデータを抽出し、BIツールとの連携で分析を行う中継的なシステムです。他のシステムと柔軟にデータを連携する機能は必須です、データ移行やフォーマット変換がスムーズに行えるかどうかを必ず確認してください。
DWHは時系列で並列化されたデータを大量に蓄積する倉庫ですから、そのままでは分析が行えません。データを有効に活用するためには、DWHから必要なデータを検索し、特定の形式でレポートにまとめたり、グラフィカルに可視化することによって分析と意志決定をサポートするBIツールを採用し、このツールと連携を図ることが重要です。
BIツールには、分析の目的別に大きく分けて4つの種類があります。
このほか、生産管理や顧客管理など特定の業務に特化した専用アプリケーションも開発されています。DWHとの連携性も考慮し、自社のデータ分析の目的に最適なものをお選びください。
クレジットカード業界では、不正利用を発見するためにDWHが活用されるケースがあります。膨大なデータ量やその関連性の中から通常利用とは明らかに異なる支払いをあぶり出し、すばやく対策に乗り出します。
顧客にフォーカスした分析としては、CRM(Customer Relationship Management:顧客関係管理)分野におけるデータ活用があります。DWHを活用することで、どのような顧客やどのような商品やサービスを好む傾向にあるのか把握でき、顧客の嗜好に応じたアプローチを取れるようになります。
製造業においても、マーケティング情報や顧客からのフィードバックを一元的にDWHへ集め、ニーズに合った新製品開発に役立てるなどの取り組みが行われています。
DWHは、さまざまなシステムで個別に格納されていたデータが統合され、全体最適化されたデータの集合体です。その意味で、企業情報システムの中核的なデータ連携基盤とも位置づけることができます。ここでシンプルかつスマートなデータ連携のしくみを実現することは、眠っていたデータを貴重なデータ資産に変え、企業の迅速かつ的確な意志決定を促すことに貢献します。
ここまでDWHを中心に、その概要や類似概念との違い、その役割について俯瞰してきました。これらの情報を、皆さまの組織にとって最適なDWH、またスピーディかつ的確なビジネスの意志決定を促すデータ連携基盤の構築に役立てていただければ幸いです。