データ活用・データ連携のお役立ちコラム
データ活用・データ連携のお役立ちコラム
ETLツールは、データウェアハウスなどのデータを集積するシステムに対して、さまざまなデータ元システムからデータを抽出(Extract)、変換(Transform)、そしてロード(Load)するためのソフトウェアです。これらのプロセスの頭文字を取って、ETLと呼ばれています。ETLツールは、データを分析可能な形式に整え、意思決定のための洞察を提供するビジネスインテリジェンス(BI)を実施する前の準備プロセスです。データの統合、クリーニング、変換、およびデータウェアハウスへのロードを自動化するため、手動でのデータ処理に比べて時間とコストを削減します。また、データの品質を向上させ、企業が一貫性のある情報に基づいて意思決定を行うことを支援します。
図1 ETLツールとは
関連リンク:ETLとは?3つの機能とツールの必要性、選び方のポイントも解説!
ETLツールでデータ分析を行うには、データ元システムからデータを抽出し、変換・加工を行ってデータウェアハウス(DWH)に格納します。具体的な流れは以下のような流れになります。まず、データ元システムからデータを抽出します。次に、抽出したデータを、必要に応じて変換・加工処理を行います。続いて、DWHに転送します。そうすると、送られたデータを元にBIツールがデータを分析します。
データウェアハウスでは、さまざまなデータ元システムから大量のデータを統合します。このとき、データ形式や文字コードが異なっていると、うまく統合できないだけでなく、その先の分析プロセスでうまく扱うことができません。これまでは、表計算ソフトウェアを使って手動で加工したり、変換・加工ツールを自作するというのが主な方法でした。前者の場合、データ元システムの数が多くなってくるとデータ収集だけでも膨大な手間がかかり、表計算ソフトウェアの高度な知識が必要になるため、どうしても作業が属人化する傾向があります。後者の場合、高度なプログラミングの知識が必要になり、どの組織でもできるというわけではありません。そこで、データ収集、データの変換・加工処理、データウェアハウスへの転送を専門で担うツールのニーズが生まれ、ETLツールが誕生しました。
ツールの種類 | 概要 | 活用事例 |
---|---|---|
ETL | さまざまなデータ元システムからデータを抽出(Extract)、必要に応じて変換(Transform)、そして目的のデータベースやデータウェアハウスに格納(Load)するプロセスを自動化するツール。データの統合、クリーニング、変換、および移動を効率化し、ビジネスインテリジェンスやデータ分析のための信頼性の高いデータ基盤を提供する。 | ●散在するデータの一元化によるレポーティング作成 ●手間のかかるデータ変換作業の自動化 ●ビッグデータのクレンジング |
DWH | 企業が日々生成する膨大なデータを統合し、分析や意思決定を支援するためのシステム。さまざまなデータ元システムからデータを一元化し、時系列に沿って整理・保存することで実現する。DWHは、データの倉庫として機能する。また、データマートやデータレイクとは異なり、特に大規模なデータセットの分析に特化する。 | ●マーケティング分析へのデータ提供 ●広報戦略立案のためのデータ提供 ●カスタマーサポートのためのデータ提供 |
BI | 企業が蓄積する膨大なデータを分析し、経営判断や業務改善に役立てるためのソフトウェア。データ収集・統合、分析、可視化を効率的に行い、ビジネスインテリジェンス(Business Intelligence、BI)を支援する。迅速かつ正確な意思決定を可能にする意味で重要。 | ●収益性の高い製品の特定 ●働き方の可視化による人員配置適正化や業務改善 ●マーケティング戦略の最適化 |
EAI | 異なるシステムやアプリケーション間でデータを統合し、ビジネスプロセスを自動化するためのソフトウェア。企業は情報をリアルタイムで共有し、効率的な意思決定を行うことができる。EAIは、異なるデータフォーマットやプロトコルを使用するシステム間の互換性の問題を解決し、シームレスな通信を実現する。 | ●基幹システムから情報系システムへのデータ転送 ●複数の業務システム間での水平連携 ●オンプレミスシステムとクラウドサービス間のデータを統合 |
RPA | 定型的な業務プロセスを自動化するためのソフトウェア。データ入力や集計などの反復作業をロボットが代行し、人間の作業負担を軽減する。プログラミング知識がなくても利用できるものが多く、業務の自動化を容易に実現できる。 | ●日次売上の集計報告業務 ●入金消込業務 ●勤怠登録の代行業務 |
ETLツールには選び方があります。自社に適していないツールを選んでしまうと、せっかく導入したのに活用されずに終わってしまうリスクもあります。そこで、ここでは「価格」「データ連携アダプタやコネクタの種類」「処理可能なデータ量」「UIの操作性」の4つを取り上げてポイントを紹介します。
ETLツールを選ぶ際には、初期投資と継続的な月額使用料を考慮する必要があります。ツールの価格は、提供される機能や製品の種類によって異なりますので、企業のニーズや予算に応じて適切な選択しなければなりません。たとえば、オンプレミスのソリューションは大きな初期投資がかかるものの、長期間にわたって利用する場合には割安になる場合もあります。多機能のツールは価格が高くなる傾向にあります。自社に必要な機能に絞ったシンプルなツールを選ぶことも一つの方法です。
ETLツールには、さまざまなデータベースやクラウドサービスとの統合を容易にするために、連携用アダプタとコネクタが備わっています。ツールを選ぶ際には、自社で稼働しているシステムとの互換性があるか、今後必要なアダプタやコネクタを備えているかをよく確認しておきましょう。中には1,000以上の種類を提供する製品もあります。アダプタやコネクタが多様であれば、プログラミング知識がなくても、システム間でのデータ統合や処理を円滑に行えます。
処理するデータ量が多い場合は、ETLツールの性能が要件にマッチしているかどうかよく検証しておくことが重要です。この先のビジネスの成長が期待できる場合も、ツールの拡張性について見極めておかなくてはなりません。ETLツールはそれぞれ独自のデータ処理の限界と速度を持っています。自社に適切な性能を備えたツールを選択するようにしましょう。
プログラミングの知識がなくても使用できる製品が増えており、こうした製品を用いれば、直観的なインターフェースを通じて複雑なデータフローを簡単に作成できます。それぞれ独自の操作方法や機能を備えているため、自社の担当者が使いやすいツールを選択することで、データのETL業務の効率と生産性を向上させることができます。導入を決定する前に、無償で提供されている評価版や体験版を利用し、製品の操作性を試してみることをお勧めします。
提供企業 | 国産/ 外資 |
特徴 | 価格 | 評価版 の有無 |
---|---|---|---|---|
製品/サービス名 | ||||
データ・アプリケーション | 国産 | 複数の入出力ファイルを扱い、データ抽出、変換、加工をノンプログラミングで実現 | サブスクリプションモデルは月額4万円から | 有 |
RACCOON | ||||
アステリア | 国産 | 専門的な技術知識がなくても利用できるノーコード環境による設計開発 | 基本機能から始める コアエディションは 初期費用0円、 月額3万円から |
有 |
ASTERIA Warp | ||||
ユニリタ | 国産 | 大量データを扱う際にもメモリに依存せず、マルチスレッドで実行されるため、高速なパフォーマンスを提供 | 要問い合わせ | 有 |
Waha! Transformer | ||||
スリーシェイク | 国産 | プログラミング不要で直感的なユーザーインターフェースを通じて、複雑なデータ操作が可能 | 要問い合わせ | 有 |
Reckoner | ||||
primeNumber | 国産 | プログラミングの知識がなくても、直感的なGUIを通じてデータ統合フローを簡単に設計可能 | フリープランあり | 有 |
TROCCO® | ||||
セゾンテクノロジー | 国産 | 専門的なプログラミング知識がなくても、ドラッグアンドドロップの簡単な操作でデータ連携フローを作成可能 | Selectエディションは70万円から | 有 |
DataSpider Servista | ||||
Talend | 外資 | 1,000以上のコネクターやコンポーネントを使用して、ほとんどすべてのデータソースをクラウドやオンプレミスに接続 | 要問い合わせ | 有 |
Talend Data Fabric | ||||
メシウス | 国産 | kintoneのカスタマイズが不要でありながら、アプリ間でのデータを自由自在に集計可能 | スケジュール実行プランが年額132,000円から | 有 |
krewData | ||||
IBM | 外資 | 大量のデータを効率的に処理し、複雑なデータ統合タスクを高速に実行可能 | 要問い合わせ | 有 |
IBM InfoSphere DataStage | ||||
Precisely | 外資 | レガシーシステムから次世代クラウドおよびデータプラットフォームへのデータをシームレスに統合 | 要問い合わせ | 有 |
Precisely Connect | ||||
JBアドバンスト・テクノロジー | 国産 | 企業内外に存在する様々なデータをノンプログラミングで簡単に他のシステムへ連携・変換可能 | 要問い合わせ | 有 |
Qanat2.0 | ||||
Informatica | 外資 | さまざまなタイプのデータソースからデータを統合するための高パフォーマンスなコネクタを提供 | 要問い合わせ | 有 |
Informatica PowerCenter | ||||
AWS | 外資 | サーバーレスでフルマネージドなETLサービス | DPU時間あたりの課金モデルを採用 | 有 |
AWS Glue | ||||
Microsoft | 外資 | ノーコードでデータパイプラインを構築できる | 消費されたリソースに基づいて課金される従量課金制を採用 | 有 ※トレーニング |
Azure Data Factory |
それでは、市場で選ばれているETLツール14選、その概要をここから紹介していきます。貴社のツールに求める要件を頭に思い浮かべながら、絞りこみを進めてみてください。
株式会社データ・アプリケーションが提供する国産のデータ ハンドリング プラットフォームで、システム間のデータ移行や統合を容易に実現します。このツールは、豊富なデータフォーマットに対応しており、特にExcelデータのインポート機能に優れている点が特徴です。また、基本的にノンコーディングで行える運用のしやすさでも知られており、エラー特定や設計書の自動作成機能も管理の負担を減らします。料金プランは柔軟で、サブスクリプションモデルは月額4万円から、タームライセンスのスタンダードエディションは月額12.5万円から利用可能です。30日間フル機能を利用できる評価版が用意されています。
https://www.dal.co.jp/products/dhp/raccoon/outline.html
アステリア株式会社が提供する国産データ連携ツールです。WindowsやLinuxといった主要OSに対応し、10,000社以上の企業で導入されています。専門的な知識がなくても利用できるノーコード環境を特長とし、企業の業務自動化や効率化、データ活用を実現します。基本機能から始めるコアエディションは初期費用0円、月額3万円から利用可能で、データベース連携やリアルタイム連携が可能な上位エディションも提供されています。さまざまなシステム間のデータ連携を簡単かつ柔軟に行うことができるため、業務の効率化に貢献します。
https://www.asteria.com/jp/warp/
株式会社ユニリタが提供するデータ連携・統合システムで、1999年から20年以上の運用実績を持つ国産ETLツールです。大量データの高速処理能力とノーコードでの簡単な操作性を特徴としており、経済界や公共団体、医療・教育機関など幅広い分野で支持されています。価格に関しては、サーバーライセンス製品として、オンプレミスだけでなくクラウドインフラやアウトソーシングまで利用目的に応じた選択が可能です。具体的な価格体系については、公式サイトからの問い合わせを通じて、サーバの構成や各種オプションの有無、初期導入支援サービスなど、導入要件に合わせた見積もりが提供されます。
株式会社スリーシェイクが提供するクラウド型ETLサービスです。このツールは、100種以上のデータ連携先と接続可能であり、データ連携作業の工数を大幅に削減することができます。プログラム作業が不要で、直感的に操作できるUIも特長で、非エンジニアでもデータの流れを理解できるようになっています。スリーシェイクが運用するインフラ環境で運用されており、可用性やバックアップ・セキュリティ対応なども整っています。価格に関しては、公式サイトから別途問い合わせが必要です。
株式会社primeNumberが提供するデータ活用プロセス自動化のための分析基盤運用・構築支援サービスです。データガバナンス、ジョブ管理、データマート生成、ETL/データ転送などのデータエンジニアリング領域を網羅しています。GUIを使用することによって簡単に設定からデプロイまでに対応できるようになっており、エラーハンドリングやOSSバージョンアップの自動対応など、運用保守面での機能も充実しています。価格に関しては、初期費用が不要で、フリープランでは月額0円から利用可能です。具体的な料金プランは、使用状況や企業のニーズに応じて選択することができます。
https://trocco.io/lp/index.html
株式会社セゾンテクノロジーが提供するデータ連携ツールです。アイコンを使用した直感的な開発環境と充実した運用管理機能を備えており、開発生産性の向上と運用コストの低減を実現します。価格は利用規模やニーズに合わせた3つのエディションが用意されています。たとえば、「Advanced Server Package」は基本構成でサーバ1ライセンスと開発用クライアント5ライセンスが含まれ、価格は550万円からとなっています。また、Selectエディションは70万円からとなっており、必要な連携機能をカスタマイズできるため、限定的な業務に適しています。
https://www.hulft.com/software/dataspider
Talend株式会社が提供するデータ統合、品質、ガバナンスのための包括的なプラットフォームです。このソリューションは、柔軟性、完全性、信頼性を兼ね備えており、Magic Quadrantでリーダーに選ばれるなど、その高い評価を得ています。データ統合には、1,000以上のコネクタやコンポーネントがあり、オンプレミスからクラウド、ビッグデータまで幅広いデータソースとの連携が可能です。価格に関しては、公式には明記されていません。具体的な料金は直接問い合わせる必要がありますが、無償の試用版が提供されています。
https://www.talend.com/jp/products/data-fabric/
メシウス株式会社の提供する、kintoneプラグインのデータ集計・加工ツールです。Excelのような直感的な操作性を持ちながら、データ集計や加工を自動化することができます。
最大の特長は、プログラミング知識がなくても、パズルを組み合わせるような感覚でデータ集計コマンドを操作できる点にあります。実行ログ管理機能により、集計の実行結果をkintone上で簡単に確認することが可能です。価格に関しては、スケジュール実行プランが年額132,000円から、リアルタイム実行プランが年額198,000円からとなっており、企業の規模や用途に応じて選べる複数のプランが用意されています。
https://krew.mescius.jp/products/krewdata.htm
IBMが提供するデータ統合ツールです。大量のデータを収集、変換、配布するためのソリューションとして設計されており、特に大規模なビジネス環境での使用に適しています。ハイパフォーマンスのパラレルフレームワーク、拡張メタデータ管理、そしてエンタープライズレベルのコネクティビティを特長としており、リアルタイムのデータ統合もサポートします。価格に関しては、IBM Cloud Pak for Data as a Serviceを通じて提供されるサブスクリプションモデルや、オンプレミスまたは任意のクラウドでのデプロイメントオプションなど、さまざまな選択肢があります。具体的な料金体系については、IBMの公式ウェブサイトで最新の情報を確認してください。
https://www.ibm.com/docs/ja/iis/11.7?topic=qualitystage-overview-infosphere-datastage
Preciselyの提供するデータ統合ソリューションです。レガシーシステムからクラウドや次世代データプラットフォームへのデータ移行をシームレスに行うことができ、高度な分析や機械学習、データ移行を実現するためのバッチおよびリアルタイムのデータ取り込みを可能にします。多様なデータソースに対応しており、リアルタイムレプリケーションやデータアクセスの簡素化を実現します。Amazon AWS, Microsoft Azure, Google Cloud Platformなどの主要クラウドサービスとの連携も強化されています。価格に関しては、公式サイトや販売代理店から直接問い合わせる必要があります。
https://www.precisely.com/ja/product/precisely-connect/connect
JBアドバンスト・テクノロジー株式会社が提供するETLツールです。企業内外のデータを一元管理・統合することが可能です。直感的なドラッグ&ドロップ操作で設計可能なインターフェースを持ち、プログラミング知識がなくても利用できるため、多くの企業で導入されています。スケジューリング機能により業務プロセスの自動化が可能で、重要なデータの取り扱いも安全です。中小企業庁から認定された情報処理支援機関も提供しており、信頼性の高いツールとして評価されています。価格に関しては、詳細は直接問い合わせる必要がありますが、無償の評価版も提供されています。
https://www.jbat.co.jp/lp/qanat_20/
Informaticaが提供する、エンタープライズデータ統合プラットフォームです。主な特長は、その使いやすさと拡張性です。グラフィカルツールを活用した構築により、コーディングなしでデータ連携が可能となり、IT部門と業務部門の連携を促進します。また、データ量や複雑性に柔軟に対応し、クラウドアプリケーションへの接続も可能です。価格に関しては、カスタマイズ可能な料金プランを提供しており、企業のニーズに応じて変動します。詳細な情報については、直接問い合わせる必要があります。
https://www.informatica.com/jp/products/data-integration/powercenter.html
Amazon Web Servicesが提供するフルマネージド型のサーバーレスETLサービスです。データカタログ機能を利用してメタデータを一元管理し、データソースの発見からETL処理のスケジューリングまでを簡単に行えます。また、AWS Glue Studioを使用すると、視覚的なインターフェースでETL処理を設計し、実行することが可能です。価格に関しては、DPU(Data Processing Unit)時間あたりの課金モデルを採用しており、使用したリソースと時間に基づいて決定されます。DPU時間あたりの料金は0.44USDです。無料利用枠があり、特定の条件下で1年間無料で試せます。
https://aws.amazon.com/jp/glue/
Microsoftが提供するクラウドベースのデータ統合サービスです。オンプレミスやクラウド上にあるデータを一元管理、また組織内で分散して管理されているデータの統合を実現でき、ビジュアル環境を通じてデータの構造化や組織化を行うことができます。さらに、マネージドApache Sparkによってコードの生成とメンテナンスの自動化が可能です。価格に関しては、消費されたリソースに基づいて課金される従量課金制を採用しています。具体的な料金計算にはAzure料金計算ツールを使用し、データの移動量や実行されるアクティビティの種類に応じて見積もりを行うことが推奨されています。
ETLプロセスを自動化することにより、企業は大量のデータを効率的に処理し、その一貫性と品質を確保することができます。これは、作業によるヒューマンエラーが入りこむ余地をなくすことも意味します。データの整合性が保たれるため、データ分析やレポート作成が容易に行えるようになります。逆に、ETLツールを活用しなければ、分析対象のデータを得るまでに時間とコストがかかるため、さまざまな企業活動において遅れを取ることになります。ETLツールをデータ管理戦略の中心に据えることにより、企業の競争力を高めることができます。
ある電気・制御機器商社では、2008年からネット通販サイトを運営しています。販売商品は、 FA機器・電設資材・電子機器・情報通信機器などで、総点数は約26万点に上ります。従来は、基幹システムから通販サイトへの商品情報提供にExcelを仲介させ、そこで商品コードなどのデータ変換を手作業で行っていました。この業務が専任担当者でも2時間はかかり、1日1回が限度でした。また、誤表示を回避すべく、現場にはいつも緊張感が漂っていました。そこで導入したのが「RACCOON」で、これにより、基幹システムから通販サイトへ、データ変換プロセスを含めて2万データが2分で自動送信可能になりました。商品情報提供という業務がなくなった上に、1日4回データを更新できるようになったため、在庫情報のずれがなくなり、商品発送も円滑化しています。担当者は生まれた時間を、商品の見せ方や説明文などといったコンテンツそのものの拡充に時間を割けるようになりました。
ここまで、ETLツールの概要とその選び方、具体的な製品/サービスについて見てきました。このツールは、企業のデータ活用におけるアジリティ、日本語では機敏性や敏捷性と訳されますが、これを向上させるのに非常に重要です。市場には豊富な選択肢が存在するため、自社にとって最良の製品/サービスを探し出すのはなかなか難しい作業になりますが、ここで紹介した情報が選択の一助になれば幸いです。
メインフレームからオープン環境への国民健康保険システム移行
PC1台で数千万件のデータ変換を13時間で可能としたRACCOON
数TBに上るメインフレームデータのオープン移行
16時間でデータ変換を完了したRACCOON
公共・自治体向けパッケージで生じるデータ移行プロセス
RACCOON採用で属人化を解消、生産性と利益率が向上
EDIシステムの刷新をきっかけに
ACMS Apex + RACCOONで、グループ全体のデータ連携基盤を実現
基幹システム製品のクラウド化で求められたデータ移行工程の見直し
RACCOONで精査が必要なデータを簡単かつ高品質に移す体制を確立
めざしたのは4通販サイトへのデータ提供の自動化
RACCOON導入で情報の精度・スピードが一気に向上
基幹EDIインフラをAS/400からAWSへ
ACMS Apex、RACCOONが短期開発に貢献