
機械学習やその他のデータサイエンス関連のワークロードを実行する上でデータの重要性が増していることを考えると、企業にとってデータ品質はこれまで以上に重要になっています。複数の調査によると、データ品質がデータチームの最優先事項となっているのも不思議ではありません。
この発言には企業全体が同意するかもしれませんが、実際にデータ品質を実現することは多くの企業にとって依然として困難です。オープンソースのデータ品質ソリューションは、特に大規模なデータ品質ソリューションの代替手段を探している企業にとって役立ちます。
ジャンプ先:
- 企業にデータ品質ソリューションが必要なのはなぜですか?
- オープンソースのデータ品質ソリューションの利点
- オープンソースのデータ品質ツールのトップ
企業にデータ品質ソリューションが必要なのはなぜですか?
「データが壊れることは避けられません」と、Sodaの共同創業者兼CTOであるトム・ベイエンス氏はインタビューで語った。「間違いを防ぐことはできません。できるのは、間違いを追跡し、いち早く知ることだけです。そこでデータの監視とテストが重要になります。」
たとえ企業が完璧なデータからスタートしたとしても、エントロピーは生じます。在庫データの偏りから顧客名のスペルミスといった単純なものまで、質の低いデータはビジネス上の意思決定や顧客体験の質の低下につながります。Baeyens氏の指摘の通り、バグのないソフトウェアと同様に、データ品質は他の何よりもプロセスに大きく左右されます。
参照: 採用キット: データサイエンティスト (TechRepublic Premium)
データ品質は購入するものではありませんが、データ品質ソリューションは、企業が適切なプロセスを導入し、長期的にデータ品質を向上させるのに役立ちます。Talendが最近のホワイトペーパーで述べているように、「データ品質は常時稼働する運用、つまり、データを継続的に制御、検証、拡充し、データフローを円滑化し、より優れた洞察を得るための継続的かつ反復的なプロセスでなければなりません。」
オープンソースのデータ品質ソリューションの利点
データ品質は一般的に、様々な要素で測定できます。例えば、データの完全性、正確性、関連ユーザーへの可用性またはアクセス性、適時性、一貫性などが挙げられます。しかし、データ品質のこれらの側面への関心が高まっているにもかかわらず、多くの企業は依然としてブラックボックス型の独自仕様のソリューションに依存しており、ツールが特定のデータセットに対して特定のアクションを推奨する理由についてほとんど洞察が得られていません。
オープンソースはデータやソフトウェアの品質に対する万能薬ではありませんが、前述の通り、オープンソースのデータ品質ソリューションは、品質提供に関連するプロセスの改善に役立ちます。データサイエンス全般における明確なトレンドの一つは、オープンソースのデータインフラストラクチャへの移行です。これは、使えるけれど理解できないアルゴリズムに盲目的に賭けたいと思う人はいないからです。
では、どのオープンソースのデータ品質ソリューションが優れているのでしょうか?
オープンソースのデータ品質ツールのトップ
デルタ湖

最も興味深いデータ品質ツールの一つは、実際にはデータ品質ツールそのものではありません。Databricksによって最初に開発され、Linux FoundationによってコントリビュートおよびメンテナンスされているDelta Lakeオープンソースストレージフレームワークは、あらゆるデータレイクをデータウェアハウスに変換し、クエリの容易化など、付随するあらゆるメリットを実現します。
Delta Lake は、企業がすべてのデータを共通のオープンソース形式で安心して保存できるように支援し、そのデータの使用とデータ品質ツールの適用を容易にします。
Talend オープンスタジオ

すでに述べたように、Talendはオープンソースのデータ品質ソリューションを求めるユーザー向けに、人気の高いTalend Open Studioを提供しています。Talendは、テキストフィールドの監視、クレンジング、分析、その他関連するタスクを容易に実行できます。このソリューションは、洗練された分かりやすいUIと、ユーザーの質問に答える強力なコミュニティを備えています。
Indeed.com の分析で詳しく説明されているように、「Open Studio のユニークな価値提案の 1 つは、時系列データをマッチングする機能です。コードを追加することなく、ユーザーは単純なデータ プロファイリングからさまざまなフィールドに基づくプロファイリングに至るまで、データを分析できます。」
アパッチ・グリフィン

Apache Griffinは、コミュニティ主導のオープンソースデータ品質ソリューションです。Griffinはバッチモードとストリーミングモードの両方をサポートし、データ品質を測定するための統合プロセスを備えています。Griffinはまず、企業が適時性や完全性といった要素を網羅し、自社にとってのデータ品質の意味を定義し、最も重要な特性を特定できるようにします。このプロセスにより、データがそのデータ品質定義にどの程度適合しているかを容易に測定できます。Expedia、VMware、Huaweiなど、様々な企業がGriffinを活用しています。
ソーダ

オープンソースのデータ品質分野に新たに参入したのが、オープンソースのベテランであるTom Baeyens氏によって設立されたSodaです。Sodaは、データエンジニアが不良データのスクリーニングに使用するテストや、結果評価に使用するメトリクスを制御できるよう支援します。Soda SQLは、効率的なSQLリクエストを使用してデータメトリクスと列プロファイルを抽出し、宣言型のYAML設定ファイルを通じて提供されるクエリを完全に制御します。
Soda はデータ エンジニアによって使用されることが多いですが、このプラットフォームはデータ監視を民主化して、技術者ではないビジネス志向の人々が簡単にデータ モニターを構築できるようにすることを目指しています。
オープンリファイン

OpenRefineは、主に乱雑なデータを整えるために使われるコミュニティ主導のツールです。Googleが開発したツールですが、OpenRefineは大規模なデータの探索、クリーニング、変換に使用できます。
開示: 私は MongoDB で働いていますが、ここで述べられている意見は私自身のものです。