データ取り込み入門 | TechRepublic

データ取り込み入門 | TechRepublic
A person types on a computer that is connected to a system of databases.
画像: Leonid/Adobe Stock

簡単に言えば、データインジェストとは、あるソースからデータを移行または複製し、新しい宛先に移動するプロセスです。データの移動または複製の対象となるソースには、データベース、ファイル、さらにはIoTデータストリームなどがあります。データインジェスト中に移動または複製されたデータは、オンプレミスの宛先に保存される場合もありますが、多くの場合はクラウドに保存されます。

参照:データ移行テストのチェックリスト: 移行前と移行後(TechRepublic (プレミアム))

取り込まれたデータは、ソースに存在したそのままの生の元の形式のままです。そのため、分析やその他のアプリケーションと互換性のある形式にデータを解析または変換する必要がある場合は、後続の変換操作を実行する必要があります。このガイドでは、データ取り込みの詳細とメリット、そして投資を検討すべき主要なデータ取り込みツールについて説明します。

ジャンプ先:

  • データ取り込みの目的は何ですか?
  • データ取り込みの種類
  • データ取り込みとETL
  • 人気のデータ取り込みツール

データ取り込みの目的は何ですか?

データ取り込みの目的は、大量のデータを迅速に移動することです。これは、データの移動や複製中にデータ変換を行う必要がないため実現されます。取り込みの高速化により、組織は迅速にデータを移動できます。

データインジェスチョンは、ソフトウェアによる自動化を利用して大量のデータを効率的に移動させます。IT部門の手作業はほとんど必要ありません。データインジェスチョンは、事実上あらゆるソースから大量のデータを取得する手段です。企業ネットワークに日々流入する膨大な量のデータに対応できます。

参照:トップデータ統合ツール(TechRepublic)

データ取り込みは、ETLなどのデータ編集・フォーマット技術と組み合わせることができる「ムーバー」技術です。データ取り込み自体はデータを取り込むだけで、変換は行いません。

多くの組織にとって、データ取り込みは、データのフロントエンドと企業内に入ってくるばかりのデータを管理する上で重要なツールです。データ取り込みツールを使用することで、企業はデータを即座に中央データリポジトリに移動することができ、貴重なデータが「外部」に残ってしまい、後々アクセスできなくなるリスクを回避できます。

データ取り込みの種類

データ取り込みには、リアルタイム、バッチ、ラムダの 3 つの基本的なタイプがあります。

リアルタイムのデータ取り込み

リアルタイムのデータ取り込みにより、IoT、ファイル、データベースなどのソース システムからデータが取り込まれると、すぐに移動します。

このデータ移動を効率化するため、データ取り込みでは実績のあるデータキャプチャ手法を採用しています。この手法では、前回のデータ収集時から変更されたデータのみをキャプチャします。この操作は「変更データキャプチャ」と呼ばれます。

リアルタイムのデータ取り込みは、株式取引や IoT インフラストラクチャの監視に関連するアプリケーション データの移動によく使用されます。

バッチデータ取り込み

バッチデータ取り込みでは、夜間(一括データ)または日中にスケジュールされた定期的なデータ収集間隔でデータを取り込みます。これにより、組織は意思決定に必要なすべてのデータを、リアルタイムのデータキャプチャを必要としない速度で、タイムリーに収集できます。

分散した小売店や電子商取引の販売店から定期的に販売データを収集することは、定期的なバッチ取り込みが使用される良い例です。

Lambdaデータの取り込み

Lambdaデータ取り込みは、リアルタイムとバッチの両方のデータ取り込み手法を組み合わせたものです。その目的は、データを可能な限り迅速に移動することです。

パフォーマンスに影響する可能性のある遅延またはデータ転送速度の問題がある場合、Lambda データ取り込み技術モデルはデータを一時的にキューに入れて、対象のデータ リポジトリが利用可能になったときにのみそのデータをそのリポジトリに送信することができます。 

データ取り込みとETL

データ取り込みは、ソース ファイルから生データを取得し、そのデータをそのままの状態で直接ターゲットの中央データ リポジトリに移動する、迅速なアクションのプロセスです。

ETL も同様にデータ転送ツールですが、データが格納される中央データ リポジトリでのアクセスに適した形式にデータを変換するため、データ取り込みよりも遅くなります。

参照:データ統合と ETL: 違いは何ですか? (TechRepublic)

データ取り込みの利点は、入ってくるデータをすべて即座にキャプチャできることです。しかし、データを取得した後も、使用できるようにフォーマットするための作業は必要です。

ETLでは、データのフォーマットの大部分は既に完了しています。ETLの欠点は、入力データのキャプチャと処理に時間がかかることです。 

人気のデータ取り込みツール

正確に接続する

The Precisely logo.
画像: 正確に

旧称SyncsortのPrecisely Connectは、高度な分析、データ移行、機械学習の目標達成のために、リアルタイムとバッチの両方のデータ取り込み機能を提供します。また、CDCとETLの両方の機能もサポートしています。

Precisely Connectは、オンプレミスまたはクラウドベースのシステムからデータをソースおよびターゲットにすることができます。データは、リレーショナルデータベース、ビッグデータ、ストリーミング、メインフレーム形式など、あらゆる形式で提供可能です。 

アパッチカフカ

The Kafka Apache logo.
画像: Apache

ビッグデータの取り込みに特化したApache Kafkaは、高スループットのデータ統合、ストリーミング分析、データパイプラインを提供するオープンソースソフトウェアソリューションです。多様な外部データソースに接続でき、世界中のオープンソースコミュニティが提供する豊富なアドオンツールや機能へのゲートウェイとしても機能します。

Talend データファブリック

The Talend logo.
画像: Talend

Talend Data Fabricを使用すると、最大1,000もの異なるデータソースからデータを取得できます。データは、社内またはクラウドベースのデータリポジトリにターゲティングできます。

Talendがサポートするクラウドサービスは、Google Cloud Platform、Amazon Web Services、Snowflake、Microsoft Azure、Databricksです。Talend Data Fabricは、自動エラー検出と修正機能も備えています。

次に読む:クラウドとアプリケーションの移行ツールのトップ 10 (TechRepublic)

Tagged: