
ハーバード・ビジネス・レビューが選ぶ、21世紀で最もセクシーな職業をLinkedInのプロフィールに書き込んだ。そう、あなたはデータサイエンティストだ。6桁の給料を稼いでいる。かつては停滞していたビジネスを、最新の機械学習モデルとアルゴリズムを駆使したデータ駆動型マシンへと、たった一人で変革させている。両親はあなたの仕事を理解していないかもしれないが、誇りに思っているはずだ。
あなたが基本的にデータ管理者だということを彼らが知っていればよかったのに。
清掃の仕事が、床を掃くようなものであれ、データのクレンジングのような類のものであれ、崇高な職業ではないということではありません。どちらも重要であり、データサイエンス、データクレンジング、あるいはデータ準備においては、データを使って何か有用なことをするための重要な前提条件となります。
参照: 採用キット: データサイエンティスト (TechRepublic Premium)
Anacondaの2021年データサイエンスの現状調査によると、回答者は「データの準備とデータクレンジングに39%の時間を費やしており、これはモデルのトレーニング、モデルの選択、モデルのデプロイに費やされる時間を合わせたよりも長い」と報告しています。他の調査によると、データ準備はデータサイエンティストの時間の80%を占めることもあります。
データ準備はデータサイエンティストにとって非常に多くの時間を費やす作業です。なぜなら、データは精査され、成功に向けて準備されていなければ、結局のところ、ほとんど何も役に立たないからです。優れたデータサイエンスを実現するには、適切なデータ準備が不可欠です。そのため、データ準備とは何か、そしてそれを適切に行う方法を理解することが重要です。
データ準備とは何ですか?
TechRepublic によると、データ準備とは「ユーザーが分析、ビジネスインテリジェンス、可視化に使用できるように、データをクリーニング、変換、再構築するプロセス」です。AWS の定義はさらにシンプルです。「データ準備とは、生データをさらなる処理や分析に適した状態に準備するプロセス」です。
しかし、これは実際には何を意味するのでしょうか?
データは通常、標準化された形式で企業に届くわけではないため、企業での利用に適した形式にする必要があります。データの一部は構造化されており、顧客名、住所、製品の好みなどが挙げられますが、大部分は地理空間情報、製品レビュー、モバイルアクティビティ、ツイートなど、ほぼ間違いなく非構造化されています。
データサイエンティストが機械学習モデルを実行して洞察を引き出す前に、まずデータを変換し、フォーマットを変更したり、場合によっては修正したりして、ニーズに合った一貫した形式にする必要があります。ここで、データ準備が大きな違いを生みます。
データ準備の利点は何ですか?
企業がデータの整合性を確保するためのツールを提供する企業である Talend は、データ準備の主な利点として以下を挙げています。
- 「処理前にエラーをキャッチする」ことでエラーを迅速に修正する能力
- 「データセットをクリーニングして再フォーマットすることで、分析に使用されるすべてのデータが高品質であることを保証する」ことで、最高品質のデータを生成します。
- より良いビジネス上の意思決定を行う能力
さらに、データ準備は、本来は良好な機械学習モデルに不良データを適用する際に膨れ上がるデータ管理コストを削減するのに役立ちます。では、データ準備を適切に行うことの重要性を踏まえ、それを適切に行うためのヒントは何でしょうか?
ビジネスに役立つデータ準備のヒントトップ6
ここまでお読みいただいた方は、データ準備に多大な投資をしなければ機械学習を成功させることはできないとご理解いただけたかと思います。しかし、多くのデータサイエンティストは、適切なデータ準備を犠牲にして、仕事の魅力的な部分(モデル)に集中しようとしています。
MLモデルの学習は比較的簡単ですが、データの分布を理解し、それに応じてモデルを適用することははるかに困難であり、より重要です。こうした理解は、データ準備を通して得られます。様々なビジネスユースケースに向けたデータ準備プロセスを開始する際には、以下の6つのヒントをご検討ください。
1. 準備の準備
データ準備は将来的に不可欠だと判断した今、誰がどの準備タスクを、どのようなスケジュールで、どのようなビジネス目的のために実行するかを計画しましょう。これにより、準備プロセスにおける時間やリソースの無駄をなくすことができます。
2. データが完璧であるふりをしない
データを準備していくと、そこに何があるのかを詳しく見ていくうちに、ほぼ確実にデータに欠落があることに気づくでしょう。重要なのは、データに限界がある場合は関係者に必ず伝え、期待値をできるだけ早期に調整できるようにすることです。
3. ツールは役立つが、人材が不可欠
前述のAnacondaレポートでは、「データの準備とクレンジングは時間がかかり、場合によっては面倒な作業ですが、自動化は解決策ではありません。代わりに、人間が介入することで、データの品質が確保され、より正確な結果が得られ、データのコンテキストが提供されます。」と述べています。
参照: 採用キット: データサイエンティスト (TechRepublic Premium)
有能なデータサイエンティストは、クリーンなデータとはどのようなものかを理解し、生データを利用可能な形に整えるお手伝いをします。必要なスキルを持つ人材を採用するようにしてください。さらに、他のチームメンバーを育成するリーダーシップとメンターシップスキルを持つデータサイエンティストを探すことも重要です。
4. データの分布を理解するために仮説検定を行う
データの適切な分布を把握し、外れ値や欠損値を発見するための一つの方法は、仮説検定を行うことです。バークレー研究所の研究者であるエイドリアン・ペレス氏は、データをより深く理解し、より効果的に活用するための準備を整えるために実行できる一連の検定を概説しました。
5. ユースケースに応じてデータの優先順位を付ける
たとえば、マーケティング分析のユースケースに取り組むときに Eloqua システムのデータを考慮するのは当然のことのように思えるかもしれませんが、特定のモデルのデータ ソースを優先順位付けするには、このような人間の判断が不可欠です。
時間やコストの制約がある場合、各プロジェクトのモデルにとって最も有用となる可能性の高いデータソースを優先順位付けする必要があるでしょう。どのデータソースを他のデータソースよりも優先するかを選択することで、データ準備プロセスを効率化できます。
6. データ保存を真剣に考える
多くの企業はデータレイクをデータスワンプのように扱い、フォーマットを気にせずリポジトリにデータを詰め込んでいます。実際にデータを使用するまでは問題ありませんが、事後にデータベースを再構築する負担は避けたいはずです。そのため、事前にデータを取り込む際にデータフォーマットを標準化しておくことで、データ準備に伴う負担を大幅に軽減できます。
データ準備ツールにはどのようなものがありますか?
データ準備の成功を左右するのは人ですが、市場にはこうした面倒な作業の一部を自動化できるツールが存在します。この市場をリードするツールとしては、Microsoft、Alteryx、Tableau、Zaloniなどが挙げられますが、ビジネスに最適なデータ準備ツールは、予算や具体的なビジネス目標、要件によって異なります。
開示: 私は MongoDB で働いていますが、ここで表明されている意見は私自身のものです。