データ活用・データ連携のお役立ちコラム
データ活用・データ連携のお役立ちコラム
データ統合が注目されています。なぜデータ統合することが重要なのでしょうか。そして、実現しようとする先にはどのような課題が待ち受けているのでしょうか。この記事では、具体的な実現方法とともに、データ統合について掘り下げていきます。
複数のソースシステムから特定のターゲットシステムへデータを集めること、それがデータ統合です。その過程では、データの取得やクレンジング、マッピング、変換といったことが行われます。データ統合は、データの価値を高めるために実施します。分散した状態では見えなったものが、集めることによって見えやすくなります。データが掛け算で力を増幅し、新しい気づきや洞察を得やすくなるからです。不確実性の時代といわれる今日、正しく次のアクションを起こすにはすべての状況を包括的に把握することが重要で、そのためには統合されたデータが手元にあることが前提条件になります。
なぜデータ統合が重要なのでしょうか。その理由を具体的に挙げると、次の3点になります。
企業がDXを進める背景にはさまざまな要因が考えられますが、究極のゴールの一つに「新たな価値創出」があることは確かです。それを探し出すのがデータ活用で、DXとは極言すればデータ活用であると言われることもあります。企業の中に眠っている新しいビジネスの芽を発掘するためには、企業が保有しているデータ、外部に存在するデータを幅広く集め、それらを合わせ見ることで気づきや洞察を得ることが重要です。
データは分散したままでは、全容がよく把握できません。どのデータが必要かは統合前にもある程度予想がつきますが、集めてみてはじめて自社が保有しているデータがつかめるようになるとともに、それをコントロール下に置くことができるようになります。また、「商談過程のデータが足りない」「地域の詳細な行事情報が欲しい」など、現在不足しているデータも具体的に見えてきます。
必要なデータは複数のソースシステムに分散している状態では、分析業務のたびにそれを収集してデータセットを構築するという作業が必要になります。確かに、データサイエンティストやデータベース開発者はこうした業務に精通しています。しかし、データ収集・加工は負荷の高い作業であり、このような前工程にそのつど時間をかけるのは、分析業務時間が削られてしまうという点で損失です。あらかじめデータ統合しておけば、分析業務を効率よく進めることができます。
データ統合とは、すなわちデータの集合体を作るということですが、実際に企業で求められるシーンとしては、以下のようなものがあります。
多様なソースシステムから、データを元の形式のまま一元的に集めるデータリポジトリのことをデータレイクといいます。この中には構造化データ、非構造化データ、半構造化データが含まれます。このデータレイクを構築するためにデータ統合が行われます。大きさに関して特に基準はありませんが、一般的には非常に高度化したり、大規模化したりする傾向があり、いわゆる“ビッグデータ”と呼ばれています。
データレイクが元の形式のままのデータ、すなわちローデータを格納するのに対して、データウェアハウスは処理済みデータを格納するデータリポジトリです。また、データレイクはデータならどんなものでも格納しようとしますが、データウェアハウスには使用しないデータは収集しません。しかし、このデータウェアハウスもデータ統合手法で構築されるものであり、ユーザーからの検索やレポート作成要求に応えるために提供されます。
データマートは、データウェアハウスから一部を切り出した、特定の目的に作られる比較的小規模なデータリポジトリです。現在の状況から遠い未来を占うといった壮大な予測を行うというよりは、今日、今週、来週のオペレーションやアクションに役立つ実用的な情報を取得するために構築されます。小規模といってもソースシステムは複数に分散している可能性があり、データ活用のためにはやはりデータ統合が必要です。
データ統合は、企業にとって大がかりなプロジェクトになります。その過程で直面する課題には次のようなものがあります。
データ統合を行うには、入念に計画を立てなければなりません。必要なデータ、それを収集してくるソースシステム、データを統合するインフラ、実際に行う分析の種類などについて検討することになりますが、最初から理想的なデータ統合像を描くのは困難です。一歩ずつゴールに近づく姿勢を持つ事が重要です。また、この領域では専門知識が求められますが、そうした人材の数には限りがあるため、その確保にも苦労することになるでしょう。
データ統合では、多様なソースシステムからデータを収集してくることになります。たとえば、メインフレームデータは、オープンシステムとは文字コード体系が異なるため、データ変換する必要があります。また、システム上の制限からデータ名称や日付などを最低限のデータボリュームで表現している場合があります。活用するなら、それを補う方法を考えなければなりません。
逆に、最近のシステムは“データ爆発”といわれるほど、データボリュームが膨大になっています。画像、動画や大量のIoTデバイスから出力されるセンサーデータなど新しいデータを活用することは可能ですが、それらをどうスピーディーにデータ統合するかは一つの課題です。外部データについても同様です。外部から提供されるデータについては、その粒度をコントロールできませんし、契約上の制限からうまく全社共有できないというリスクも考えられます。
オンプレミスシステムであれ、クラウドであれ、データ統合インフラの構築には少なからずコストがかかります。また、インフラが構築できれば完了ではなく、その後も事業環境の変化に追随する形で、継続的に成長させていくことになります。そのランニングコストについても事前にしっかり見積もっておかないと、取り組みを続けることが難しくなります。
具体的にデータ統合を行うにはどのような方法があるでしょうか。手作業でデータを収集するものから、アプリケーションを利用したものまで、いくつかの方策が考えられます。
複数のソースシステムに接続し、必要なデータを手作業で集めます。必要な場合には、クレンジングや変換・加工を行って、統合リポジトリへデータを格納します。データ統合のためのツールが用意できなければこの方法を取るしかありませんが、非常に労働集約的な作業になることは覚悟しなければなりません。
ときにレガシータイプのソースシステムは、オープン系のデータリポジトリシステムと直接的な連携を苦手とする場合があります。そうしたときには、仲介役としてソースシステムとデータリポジトリの間にミドルウェアやデータハンドリングツールを置きます。
必要なデータの検索・収集・統合プロセスを一手に担う、アプリケーションを利用する方法です。このようなアプリケーションを利用する際は、ソースシステムとデータリポジトリの間のデータ互換性を確実なものにして、いつでも送信できるように準備する必要があります。
これは物理的なデータ統合を行わない方法です。データ仮想化ツールを利用することで、複数のソースシステムのデータベースをあたかも統合された1つのデータベースのようにアクセスすることができます。
複数のシステムでストレージを共有するというものです。ソースシステムからデータのコピーが送られ、データリポジトリでの表示のために変換処理が行われます。これは、従来からデータウェアハウスを構築するときの方法としてよく用いられています。
一般的なデータ統合の手順は以下のとおりです。また、データリポジトリにデータを元の形式のまま一元的に集められるデータレイクを選択した場合は、クレンジングやデータ変換・加工など必要のない手順もあります。
まずは現状分析です。社内のどこにどのようなデータが格納されているかを洗い出していきます。情報システム部門で管理している基幹システム関連のデータのみならず、部門で個別管理しているデータについても漏れなくリストアップします。
リストアップしたデータから、どのデータを統合の対象にするかを決定していきます。構築するデータリポジトリが、データレイクか、データウェアハウスか、データマートかといった規模の違いで、収集の範囲は変わってきます。
どのデータを収集するかを決定したら、統合先で扱いやすいようにデータ処理を行います。完全なデータであればその必要はありませんが、欠落しているデータがあったり、不足しているデータがあったりすれば、補正を行ってデータレベルを揃えます。逆に重複しているデータが存在する場合は削除します。こうしたプロセスをデータクレンジングといいます。ここでは、格納されているデータか正しいかどうかをチェックし、誤ったデータをデータリポジトリに移行しないようにする妥当性の検証も重要です。
必要があれば、データのフォーマットや文字コードの変換なども行います。データの粒度を揃えるために集計処理を行ったりすることもあります。
また、データの属性やデータ属性に付与されたデータ型を変更したり、エラーが発生した場合に備えて事前に取り決めをしたり、データリポジトリで取り扱いしやすいようにデータをソートしたり、データを結合/分割したりといったさまざまな加工処理もこのプロセスで行います。
データ加工が終わったら、データリポジトリへデータを送りこみます。それをデータレイクとするかデータウェアハウスとするか、あるいはデータマートとするかは、データ活用の目的によって異なります。これら以外にも、顧客へのアプローチ手法向上のために構築するもの、ブランディング価値向上のために構築する商品情報に特化したもの、さまざまなマーケティング活動に役立てるもの、企業の所有するデジタルコンテンツを集積したものなど、多彩なデータリポジトリが考えられます。データを統合することで、それぞれの活動の視野が大きく広がるとともに、データの取り扱い作業も容易になります。
データ統合プロセスで使われるツールに、データ統合ツールがあります。これは、多種・大量・複雑なデータを収集・変換・加工し、データリポジトリへ送る処理を行うためのツールを指します。
データ統合ツールに分類されるものとしては、以下のようなものがあります。それぞれ単体で機能を提供するものもあれば、いくつかの機能を複合的に備えているものもあります。
データ統合プロセスで最初に利用するツールです。さまざまなソースシステムからデータを収集・取得するプロセスを担います。データコネクタとして提供されるケースもあり、このツールがあれば、オンプレミスシステムやクラウド上のデータへ容易にアクセスできるようになります。
ソースシステムからデータを抽出・収集し、必要ならば変換・加工を施した上で、データリポジトリへ送り出すところまでを担当します。
抽出したデータの整合性に責任を持つツールです。そのほかにも、データアクセスに関するセキュリティ、データ利用に関する可用性、データを利用するエンドユーザー側の操作性もカバーします。
ソースシステム上のデータを、データリポジトリでの利用のため、標準化する方向で調整するツールです。データの妥当性を検証したり、名称を統一したり、欠損したデータを補正したり、重複したデータを削除したりといった機能を提供します。
組織情報、人事情報、商品情報、顧客情報など、さまざまなシステムで幅広く活用される情報を一元的に管理するマスターデータを管理するツールです。
導入した後に「こんなはずではなかった」と後悔しないために、データ統合ツールを選定する際には以下のようなポイントをよく検証しましょう。
データ統合は、DXの核心であるデータ活用の前工程プロセスです。ツールの性能制限のためにここに時間がかかると、肝心の業務が遅滞してしまいます。事前に試用するなどして、ツールの性能はしっかり把握しておきましょう。
データ統合自体は、データサイエンティストなど専門知識を持ったエンジニアが担当することが多いものです。それでも操作性は高いに越したことはありません。また、将来的にデータ活用人材を広げていくためにも、初めから使いやすいツールを選んでおいた方が賢明です。
データリポジトリへ貯めるデータが多ければ多いほど、新しい気づきや洞察を得られる可能性は高くなります。その意味で、できるだけ多数のソースシステムからデータ収集できた方がよく、ツールはこの目的をサポートできるものを選びます。
高価すぎるツールはデータ活用の継続的な取り組み阻害しますが、“安かろう悪かろう”で使いものにならないのも困ります。使い続けられる適正な価格のツールを選択のポイントにすることも重要です。
ある食品メーカーでは、IoTデバイスを搭載した自動販売機を日本全国に展開しており、そこからさまざまな情報を収集することが可能でした。この企業は、自社の基幹情報システム上のデータと組み合わせて、自動販売機の最適配置や、自動販売機に並べる製品の最適化を図りたいと考えました。そして、大規模なデータレイク構想を立て、ここへデータ統合を実施しました。完成後、このデータリポジトリは、自動販売機事業でおいて求められるシミュレーション分析に役立てられています。
ある小売業では、ビジネスモデル変革に力を入れており、社員や販売員にデータ活用を促すことを考えました。この企業ではスマートフォン向けにアプリを開発しており、そこから消費者とのコミュニケーションデータが得られます。そして、これとPOSデータ、クレジットカードデータなどを組み合わせてデータ統合し、データリポジトリを構築しました。その結果、完成されたプラットフォームを利用して社員や販売員が企画を立案・実行できるようになり、店舗運営の活性化に成功しました。
ある機械部品メーカーでは、製品のテスト工程を問題視していました。品質保証のために膨大な数のテストを実施していましたが、コストを最適化するため、ほんとうに必要なテストだけに絞りたいと考えました。そこで、製造工程で得られるさまざまなデータを統合してデータリポジトリを構築。これを利用して行っていたテストの是非を判断できるようにしました。結果として、品質テストの数は大幅に削減でき、この企業はコスト削減を図ることができました。
ある金融機関では、顧客へのアプローチを最適化するためにデータ統合プラットフォームを構築しました。ここに、顧客の属性データや、顧客が購入した金融商品のデータ、同社が展開しているデジタル広告データなどさまざまなデータを統合。AIを活用してきめこまやかな顧客分析を行うことで、一人ひとりにより適切なフォローが行えるようになりました。の活動により、この企業への顧客からのロイヤリティが向上するという成果が生まれています。
いかがでしょうか。統合されたデータが存在すると、状況を包括的に把握することが可能になります。データ統合は決して容易な取り組みではありません。そこにはある程度専門的な知識が必要で、入念な計画を立案するとともに、ステップを踏んだ着実なプロジェクト遂行が求められます。しかし、無事に完成し、維持運用が軌道に乗れば、そこから大きな成果が得られることは確かです。先進企業はすでにその果実を享受し始めています。ぜひ御社でもご検討ください。
メインフレームからオープン環境への国民健康保険システム移行
PC1台で数千万件のデータ変換を13時間で可能としたRACCOON
数TBに上るメインフレームデータのオープン移行
16時間でデータ変換を完了したRACCOON
公共・自治体向けパッケージで生じるデータ移行プロセス
RACCOON採用で属人化を解消、生産性と利益率が向上
EDIシステムの刷新をきっかけに
ACMS Apex + RACCOONで、グループ全体のデータ連携基盤を実現
基幹システム製品のクラウド化で求められたデータ移行工程の見直し
RACCOONで精査が必要なデータを簡単かつ高品質に移す体制を確立
めざしたのは4通販サイトへのデータ提供の自動化
RACCOON導入で情報の精度・スピードが一気に向上
基幹EDIインフラをAS/400からAWSへ
ACMS Apex、RACCOONが短期開発に貢献