データレイクのデータ品質を向上させる5つのヒント | TechRepublic

データレイクのデータ品質を向上させる5つのヒント | TechRepublic
相互接続されたビッグデータ構造の視覚化を見ている人。
画像: NicoElNino/Adobe Stock

データが存在する限り、企業はそれを保存し、活用しようと努めてきました。しかし残念ながら、企業のデータの保存方法と、データの有用性は必ずしも一致しない場合があります。そう、データレイクのことです。

参照: 採用キット: データサイエンティスト (TechRepublic Premium)

データレイクの潜在能力は明らかです。企業がデータを集約・蓄積するための中心的な場所となることです。ある意味では、データレイクは次世代のデータウェアハウスと言えるかもしれません。しかし、ウェアハウスとは異なり、データレイクでは、企業は事前にデータをクレンジングしたり準備したりすることなく、データレイクにデータを投入することができます。

このアプローチは、データの意味を理解するという避けられないニーズを先送りするだけです。しかし、データ品質向上のための取り組みを適切に実施することで、データレイクの活用方法を簡素化・標準化できます。このガイドでは、ビジネスアナリスト、データサイエンティスト、そしてデータの意味を理解するために報酬を得ている社内のその他の担当者が、すべてのデータにアクセスできるようにするための効果的な方法を学びます。

ジャンプ先:

  • データレイクとは何ですか?
  • データレイクの一般的な課題
  • データレイク内のデータ品質を向上させるための5つのヒント

データレイクとは何ですか?

データレイクとは、データのソースや性質(構造化、非構造化、半構造化)を問わず、データを保存するための中央リポジトリです。データがファイルやフォルダに保存されるデータウェアハウスとは異なり、データレイクはデータをフラットな構造で保存し、オブジェクトストレージを使用します。オブジェクトストレージはタグ付けされているため、より簡単かつ迅速に取得できます。

参照: 非構造化データレイクからビッグデータを除去する4つのステップ (TechRepublic)

また、データウェアハウスでは、入力データを処理しやすいように共通スキーマに格納する必要がありますが、データレイクでは、企業はデータを生の形式で保存できます。データウェアハウスは、基幹業務アプリケーションやトランザクションシステムから構造化データを取得し、リレーショナル形式でデータを保存する傾向があります。高速なSQLクエリを実行できますが、高価で独自仕様になる傾向があります。

DecodableのCEO、エリック・サマー氏が指摘するように、データウェアハウスはしばしば誤用され、アプリケーション間でデータ移動を行うために、コストが高く、時間のかかるバッチ指向のETLプロセスが配置されている。一方、データレイクはオープンフォーマットでデータを保存し、より幅広い分析クエリを可能にする傾向がある。

つまり、まずデータを理解できれば、ということです。

データレイクの一般的な課題

これがデータ レイクの最初かつ最も差し迫った問題です。つまり、大きく異なるデータをどのように解釈するかを学ぶことです。

データ レイクおよびデータ ウェアハウス ソリューションの大手プロバイダーである Databricks の製品管理担当 SVP、David Meyer 氏とのインタビューで、同氏はデータ レイクの利点について、「あらゆるデータを詰め込める」ため「さまざまな意味で素晴らしい」と述べています。

しかし問題は、「大規模なデータ分析やAIを実行するために必要な特性があまり備わっていない」ことです。彼はさらに、「トランザクションやACID準拠が不十分で、高速ではありませんでした」と述べました。

Databricksは、ガバナンス機能などを基盤上に構築し、オープンソース化することで、これらの問題の多くを解決しました。例えば、Google Cloudが最近サポートを発表したDelta Lakeフォーマットを開発しました。Delta Lakeフォーマットは、本質的にデータレイクをデータウェアハウスへと変換します。

参照: 採用キット: データベースエンジニア (TechRepublic Premium)

データ レイクはデータ ウェアハウスと同じ問題を抱えているわけではありませんが、熟練した専門家でも管理が難しい場合があることから、実装と維持にコストがかかる場合があります。

構造化されていないデータは、データの取り込み時には解放感があるように見えるかもしれませんが、企業がデータの意味を理解しようとする際には負担となる可能性があります。Databricksのガバナンスオーバーレイのような仕組みがなければ、データレイクはガバナンスとセキュリティの不備に悩まされることがよくあります。

それでも、データレイクには大きな可能性があり、企業はデータ管理のニーズに応えるために引き続き投資を続けるでしょう。では、企業はデータレイクをどのように賢く活用できるのでしょうか?

データレイク内のデータ品質を向上させるための5つのヒント

データレイクをデータレイクハウスに変える

従来のデータレイクに対する一つの解決策は、それを別のものに変えることです。Databricksは、データレイクの上にトランザクションストレージ層を追加することで、データレイクとデータウェアハウスの長所を融合させた「データレイクハウス」というアイデアを最初に考案しました。

これは、マイヤー氏が述べたように、「データをコピーする必要がなく、そのまま残しておける」ことを意味します。データはレイク内に残りますが、Delta Lakeのオープンソースストレージフレームワークに保存されている場合は、Databricks、GoogleのBigQuery、またはこのフォーマットをサポートする他のベンダーのデータウェアハウスツールを適用して、データ品質を向上させることができます。

できるだけ早くデータ形式を標準化する

以前にも書いたように、データ品質を向上させる効果的なアプローチはいくつかあり、その多くはデータレイクにも適用できます。スキーマを気にせずにデータをレイクに放り込みたくなるかもしれませんが、より賢明なアプローチは、事前に十分な検討を行うことです。多くの企業では、データをデータレイク環境に追加する前に、大規模なデータクレンジングと準備プロジェクトを実施しています。

事後的にデータベースを再構築する負担はおそらく避けたいでしょう。競合他社に遅れを取らないためには、事前にデータを取り込む際にデータ形式を標準化しておくことが重要です。このステップによって、データ準備に伴う煩わしさを大幅に軽減できます。

データガバナンスポリシーを直ちに実装する

そうです。データレイクの自由度は無限大と謳われていますが、実際には、データレイクがデータの沼と化さないよう、強力なデータガバナンスポリシーとプラクティスを実装する必要があります。データガバナンスとは、データの取得から廃棄までのライフサイクル全体、そしてその間の様々な利用モードにおいて、組織がどのようにデータを管理するかを規定するものです。

データ ガバナンスにはツールが含まれますが、それだけではありません。データのセキュリティ、可用性、整合性を確保するためにユーザーが従う必要のあるプロセスも含まれます。

ここに暗示されているのは、データ品質はツールよりもプロセスの問題であるという現実です。これらのプロセスには、データ品質の「十分な」基準を定義し、データガバナンス委員会の会議で繰り返し議題にすることが含まれます。

参照: 組織のデータガバナンスチェックリスト (TechRepublic Premium)

こうしたプロセスは、従業員が様々な業務ユースケース、特にAI/ML運用に活用するデータに対する信頼を確立するのに役立ちます。AIとMLテクノロジーの企業における重要性とユースケースの拡大に伴い、データの一貫性、整合性、そして全体的な品質はビジネス価値においてますます高まっています。

関連して、個人情報を含むデータがデータレイクに既に格納されている後に、遡及的にデータを探し出してサニタイズすることはおそらく望ましくないでしょう。個人を特定できる情報は、データレイクに格納される前、または格納時に仮名化するのが賢明です。このアプローチを採用することで、GDPR規制を遵守し、データを無期限に保存できます。

データレイクに関連する組織の変更管理と手順を実装する

データサイロとデータ品質のばらつきは、それらを作成する人々や組織の状況を反映しているということも忘れてはなりません。したがって、データレイク内のデータ品質を向上させる最良の方法の一つは、データレイクにデータを供給する組織構造を改善することです。

スタッフのデータ品質トレーニングへの投資を検討し、データ セキュリティのベスト プラクティスと一般的なデータ リテラシーに関するトレーニングを定期的に提供してください。

参照: トップクラスのデータリテラシートレーニングコースのレビュー (TechRepublic)

データエンジニアを雇う

これらのヒントの残りの部分をどれだけうまく実行できたとしても、データレイクを成功に導くためには、優秀なデータエンジニアを採用し、維持する必要があります。データやデータサイロの作成プロセスに関わらず、データへのアクセスはデータエンジニアに最も適したタスクであり、データサイエンティストやビジネスアナリストとは異なります。

データサイエンティストの採用は困難かもしれませんが、データエンジニアはさらに不足しています。企業全体では、データサイエンティストやビジネスアナリスト100人につきデータエンジニアは1人程度でしょう。データエンジニアは、運用や分析のためにデータを準備する役割を担いますが、人材不足が深刻です。しかし、彼らのスキルは、データレイクとデータ品質管理のために採用するだけの投資に見合う価値があります。

次に読む: トップデータ品質ツール (TechRepublic)

開示: 私は MongoDB で働いていますが、ここで表明されている意見は私自身のものです。

Tagged: