データ活用・データ連携のお役立ちコラム

データ変換とは?定義やメリット・デメリット、手法などを解説!

最終更新日:2023/08/31 データ変換とは?定義やメリット・デメリット、手法などを解説!

データレイクやデータウェアハウスを利用したデータ管理やデータ分析、さらにはシステムのマイグレーションやシステム間でのデータ連携などで、必ずといっていいほど必要になるのがデータ変換です。一体、データ変換とはどのようなプロセスなのでしょうか。そして、そのメリット・デメリットは?この記事では、具体的なデータ変換の手法も含めてくわしく解説していきます。

INDEX

  1. データ変換とは?
  2. データ変換の重要性
  3. データ変換の仕組みと流れ
  4. データ変換のメリットとは?
  5. データ変換のデメリットや課題とは?
  6. データ変換の種類と手法
  7. データ変換の活用事例
  8. まとめ

データ変換とは?

これは、データを活用するときに行われる事前処理のプロセスです。ビッグデータ分析のような用途で実施されることもあれば、あるシステムから別のシステムにデータを移す時に行われることもあります。具体的には、データをソースシステムで使われていたデータフォーマットや文字コードから、ターゲットシステムで求められるデータフォーマットや文字コードへと変換します。一度の処理で終了する単純なデータ変換がある一方で、何度か変換プロセスを繰り返したり、その過程でデータに加工が施される複雑なデータ変換もあり、難易度はさまざまです。従来はプログラミングによって実現するのが一般的でしたが、最近ではデータ変換ツールを使って実現するケースが増えています。

データ変換の重要性

データ変換を経なければデータが活用できない、システムが稼働できないというプロジェクトは多いものです。設計・開発・実装といった一連のシステム開発プロセスの中においてはほんの一プロセスに過ぎませんが、非常に重要な位置づけにあります。また、データ変換プロセスに割ける時間が限られるケースも多々あり、スピードも要求されます。それでいながら、正確に変換しなければなりません。誤ったデータが入りこめば、ターゲットシステムの信頼性が根本から失われるからです。そのため、データ変換には細心の注意を払う必要があります。

データ変換の仕組みと流れ

データ変換プロセスは、ソースシステムからデータを抽出し、変換を行って、ターゲットシステムへ送信するという順で進みます。さらに細かいステップを説明すると、次のような流れになります。

データの理解

まずソースシステムに対峙し、そのデータの内容を理解します。そして、ターゲットシステムへ移すためにはどのような変換を加える必要があるかを計画します。この段階でしっかりゴールを定めておくことで、データ変換担当者は後工程を迷わず進めることができます。

データ品質の見極め

ソースデータには、矛盾のあるデータが存在したり、データが欠落していたりすることがあります。それらが後工程作業の阻害要因となるリスクもあるため、データ品質は最初によく見極めておくことが必要です。時間はかかりますが省略しないようにします。

データクレンジング

矛盾のあるデータやデータの欠落が見つかった場合は、データクレンジングを行います。従来は手作業やプログラム実行での解決を検討したものですが、今は専用の変換ツールも存在し、これを利用すれば機械的に補正をかけることができます。

データマッピング

データの整形が終わったら、ターゲットシステムのフォーマットへのマッピング、つまり対応づけを行います。ここでもデータ変換ツールの活用が有効です。GUIベースで作業できるものがあり、専門エンジニアでなくてもマウス操作でデータマッピングを行えます。

変換プログラムの作成

いよいよデータ変換プロセスの核心です。データマッピングが終了したので、その情報に基づきプログラムを作成します。データ変換ツールを利用している場合には、データマッピングが終了した段階で、自動的に変換プログラムが生成されます。

変換プログラムの実行

データ変換を実行します。その変換スピードは、使用しているインフラやツールの性能に依存します。不測の事態でエラーが発生することもあるため、事前に入念な時間見積りを行うととともに、プログラム実行中は状況をモニタリングします。

変換されたデータの確認

最後の作業は、変換されたデータ品質をチェックすることです。このプロセスでは、変換プログラムの実行結果として期待する形式でデータが生成できているか、データの内容を詳しく確認します。ファイルを直接確認する、データ変換ツール上で確認する、ターゲットシステムに投入後に確認するなど方法は様々です。万が一問題が見つかった場合は、原因を特定して解決すると同時に、変換プログラムを修正します。

データ変換のメリットとは?

データ活用の促進

企業活動で蓄積されたデータは宝の山です。これを積極的に活用することで新たな知見や気づきが得られます。データ変換によりデータの整形や標準化が実現できれば、データウェアハウスやデータレイクでのデータ活用が促進できます。

データ分析精度の向上

データ分析を正しい方向に導く二大キーワードは、鮮度と精度です。このうちデータの精度についてはデータ変換プロセス中のデータクレンジングで実現でき、これによってより確度の高いデータ分析結果を得ることができます。

データ流通の促進

データ変換によって、あるシステムから別のシステムへデータを移動させることが可能です。この利点を生かせば、貴重なデータ資産に異なる役割を持たせながら何倍にも活躍させることができます。

ITコストの最適化

データ変換は、システム移行時に必要なプロセスです。システム移行は、メインフレームからオープンシステムへなどとダウンサイジングを目的に行われることが多く、これによってITコストの最適化を図ることができます。

データ変換のデメリットや課題とは?

開発予定にデータ変換プロセスを組みこまなければならない

ターゲットシステム側がソースシステム側のデータを解釈できるならば、データ変換は必要ありません。このプロセスなしで進むことができます。しかし、何か変更を加えなければならないのであれば、データ変換を開発スケジュール中に予定しなければなりません。

ある程度の時間が必要

ソースシステムのデータ確認に始まって、ターゲットシステムでの格納をチェックするまで、一定の時間と工数を要します。開発全体を予定の期間内に終わらせるためには、データ変換に関しても入念な計画や事前準備、遂行力が求められます。

場合によっては複雑な作業になる

データ変換はAからBへといった単純な作業で終わるとは限りません。いくつかのステップを経る複雑な作業になることもあります。プログラミングで実現しようとすれば、データとデータ変換に精通したエンジニアの力が必要になります。

進め方を誤るとデータ品質の劣化を招く

正しくデータ変換が行えないと、ソースシステムで持っていたデータの価値が台なしになります。品質の損なわれたデータは間違った結果を招き、企業活動にも影響を及ぼします。データ変換はスピードを重視しながらも慎重に進めることが肝要です。

データ変換の種類と手法

データ変換の具体的な種類と手法としては、次のようなものがあります。

妥当性検証

矛盾のあるデータが存在したり、データ欠落が起こっていないかどうかを確かめるために、データの正しさをチェックします。正しいデータだけを後工程に渡すという制御が行えます。

データ除外

ターゲットシステムでは不要なデータや不正確なデータなど、特定のデータを除外します。これによってムダのないコンパクトなデータ移行が実現できます。

フォーマット変換

リレーショナルデータベースに格納されたデータをCSV形式データに変換するといったように、データのフォーマットを変換します。

文字コード変換

メインフレームのEBCDICデータをLinuxのUTF-8に移行するといったように、データの文字コードを変換します。

属性変換

ID番号や氏名、住所といったデータの属性を、ターゲットシステム側の理由で何らかの変換をかけたいときに使用します。

データ項目操作

データ属性に付与されたデータ型を、たとえば文字列型から数値型に変換したいというときにデータ項目操作を行います。

エラー制御

データ変換中にエラーが発生した際、それぞれのエラーをどのように取り扱うか、あらかじめ決めておくことができます。

ソート

データ集合を、ABC順、あいうえお順といったように、ターゲットシステムで望まれる規則に従って並べかえることができます。

JOIN(テーブル結合)

複数のデータテーブルを1つのデータテーブルに合わせて整形します。これによって、人にとってデータが見やすくなる効果があります。

データ分割

データの集合を、特定の指標にしたがって分けるのがデータ分割です。2分割のみならず、3分割、4分割などと多分割されるケースもあります。

データ結合

データ分割とは逆に、データ結合ではデータの集合を合体させます。

重複除去

ソースシステム側に、同じデータが二重登録されているような場合に重複除去機能を利用すると、これを解消することができます。

関数操作

標準的な関数やユーザー自身が関数を定義するユーザー定義関数を使用してデータに加工を施します。これによって、ターゲットシステム側にすぐに活用できるデータを格納することができます。また、ユーザー定義関数ならより高度な変換に対応でき、煩雑な繰り返し操作を回避するのにも有効です。

振り分け操作

ターゲットシステム側の複数の格納場所にデータを振り分ける機能です。ターゲットシステム側での操作が不要になるので、よりすばやくデータ活用フェーズに入れます。

データ変換の活用事例

明石市役所

明石市では、メインフレームで運用していた国民健康保健システムをオープンシステムに移行することになり、データ移行が必要になりました。プログラミングでの作業はコスト高であることからツールでの移行を検討。データ ハンドリング プラットフォーム「RACCOON」を利用することで、文字コード変換を含む数千万件のデータ移行をわずか13時間で実行しました。それも、インフラとして使用したのは一般的なスペックのノートPC1台でした。
詳しくは→ https://www.dal.co.jp/casestudies/39akashicity/

楽天カード株式会社

楽天のFinTechサービス事業を牽引する楽天カード株式会社では、基幹システムをメインフレームからオープン系テクノロジー環境へシステム移行させることを決断しました。それに伴って文字コード変換を伴うデータ移行が必要になり、同社は大容量データに対応できる能力を評価して「RACCOON」を選択。クラウドパワーを活用して200セッション同時並行という高多重度で作業を実行し、数TBに上るデータ移行がわずか16時間で完了しました。
詳しくは→ https://www.dal.co.jp/casestudies/37rakuten/

株式会社シナジー

公共・自治体向けパッケージ製品ActiveCityシリーズを開発・販売している情報サービス事業者 株式会社シナジー。同社では、地方公共団体の既存システムからActiveCityシリーズへシステム移行するプロセスで、必ず文字コード変換を含むデータ移行が発生、ベテランエンジニアの力が必要になっていました。そこで開発チームは「RACCOON」を採用。これによってデータ移行作業の属人化が解消、生産性と利益率が向上しました。
詳しくは→ https://www.dal.co.jp/casestudies/45synergy/

まとめ

見てきたように、データ変換はデータ活用やシステム開発で必要になることの多い、重要なプロセスです。概念はわかりやすいものの、掘り下げていくとそこには非常に奥深い技術的な特徴があります。データ変換をスマートに成功させるか、困難な作業にしてしまうかは、ひとえにここにどうアプローチするかで変わってきます。データ・アプリケーションには解決策があります。データ変換をご検討の際は、ぜひお気軽にご相談ください。

データ ハンドリング プラットフォーム「RACCOON」の詳しい機能はこちら >>>

この記事の執筆者

データ連携EDIETL

データ・アプリケーション
データ活用研究チーム

データ活用・データ連携のお役立ちコラム

経歴・実績
株式会社データ・アプリケーションは、日本を代表するEDIソフトウェアメーカーです。設立は1982年、以来EDIのリーディングカンパニーとして、企業間の取引を円滑に効率化するソリューションを提供しています。1991年からは日本の標準EDIの開発やSCM普及にも携わっており、日本のEDI/SCM発展に寄与してきました。
現在は、EDI/SCM分野のみならず、企業が所有しているデータの活用についてもビジネススコープを広げています。ハブとなるデータ基盤提供を始めとして、さまざまな角度から幅広く研究・分析を行っており、その提言を通じて日本企業のDX推進を後押ししています。

  • 明石市役所

    メインフレームからオープン環境への国民健康保険システム移行
    PC1台で数千万件のデータ変換を13時間で可能としたRACCOON

  • 楽天カード株式会社

    数TBに上るメインフレームデータのオープン移行
    16時間でデータ変換を完了したRACCOON

  • 株式会社シナジー

    公共・自治体向けパッケージで生じるデータ移行プロセス
    RACCOON採用で属人化を解消、生産性と利益率が向上

  • 小泉産業株式会社

    EDIシステムの刷新をきっかけに
    ACMS Apex + RACCOONで、グループ全体のデータ連携基盤を実現

  • 株式会社カナデンブレイン

    基幹システム製品のクラウド化で求められたデータ移行工程の見直し
    RACCOONで精査が必要なデータを簡単かつ高品質に移す体制を確立

  • スズデン株式会社

    めざしたのは4通販サイトへのデータ提供の自動化
    RACCOON導入で情報の精度・スピードが一気に向上

  • ネスレ日本株式会社

    基幹EDIインフラをAS/400からAWSへ
    ACMS Apex、RACCOONが短期開発に貢献


一覧に戻る