
画像: iStock/iSergey
データレイクの概念は、情報管理においておそらく最も理解が難しい側面です。データレイクは、購入するものではなく、実際に行うものと考えることができます。「データレイク」は名詞のように聞こえますが、実際には動詞のように機能します。このガイドは、データレイクに関する入門レベルの要約です。
エグゼクティブサマリー
- 概要:データ レイクは、分析のために集めた非構造化情報のセットです。
- 重要性:データベースの行、列、表にきちんと収まる構造化情報の分析は比較的簡単なプロセスですが、非構造化情報の分析は困難です。データレイクは、オープンソースのファイルシステムであるApache Hadoopで最もよく評価されており、このプロセスをシンプルかつ低コストで実現することを目指しています。これにより、企業はこれまでランダムだった情報を紐解き、活用できるようになります。
- 影響を受ける人々:一見すると、企業はデータレイクプロジェクトをデータベース管理者やストレージ管理者に割り当てるでしょう。しかし、ベストプラクティスとしては、経験豊富なHadoopの専門家を雇うことです。Hadoopは必須ではありません。他のファイルシステムを使用することもできますが、これは例外的なケースであり、一般的ではありません。
- いつそれが起こっているか:今。データレイクは、有名企業によるサービス提供によって成熟したコンセプトになりつつあります。
- 入手方法:データレイクは4つの要素から構成されます。非構造化データソース、情報を保存するストレージ、ファイルシステム、そしてデータを分析するための人材とツールです。データレイクを清潔なボトル入りの水に変えるには、これら4つの要素すべてが必要です。
参照:無料電子書籍のダウンロード: エンタープライズストレージの将来に関するエグゼクティブガイド
データレイクとは何ですか?
日立傘下のペンタホ社の最高技術責任者、ジェームズ・ディクソン氏は、2008年に「データレイク」という用語を作り出した人物として知られています。ディクソン氏は、非構造化データを説明する方法を模索していたと述べています。
データマートとデータウェアハウスは既存の用語です。前者は一般的に、情報が実際に使用される部門レベルの概念として定義され、後者はどちらかといえばストレージの概念です。彼は水に例えて考え始めました。喉の渇いた人はマートからボトルを手に入れ、マートは倉庫からケースを調達し、倉庫は野生の水源、つまり湖から水を入手して瓶詰めします。
追加リソース:
- データレイクとデータストリーム:違いを理解してストレージコストを節約する(TechRepublic)
- ビッグデータバケットを定義するための3つのベストプラクティス(TechRepublic)
- ガートナーはデータレイクとデータウェアハウスを混同しないように警告 (ZDNet)
データレイクが重要な理由は何ですか?
データレイクが重要なのは、ビッグデータの負の側面として、誰かが分析しなければならないからです。現代のデータソースを考えてみましょう。ユーザーのPCハードドライブ、ソーシャルネットワーキング、IoT、モバイルデバイス、不正ネットワーク、そしてインディ・ジョーンズの金庫室にある、テープバックアップとでも言うべき、正体不明のデータなどです。
エンタープライズ・ストラテジー・グループのアナリスト、ニック・ルーダ氏は、レイク(どんな名前であれ)は昔から存在していたと説明する。かつては、レイクにアクセスするには多額の費用が必要だった。通常、データが増えれば増えるほど、費用も増える。
未来に向かう途中で面白いことが起こりました。IT 部門は現在、コモディティ ハードウェアやクラウドなどを通じて安価な大容量ストレージに簡単にアクセスできるようになり、さらにオープン ソースの Hadoop ファイル システムも利用できるようになったのです。このシステムは、以前の非構造化データ構成では不可能だった方法で拡張できます。
参照:無料電子書籍のダウンロード:IoTとビッグデータに関するエグゼクティブガイド
ディクソン氏は、アドホックデータレイク、Hadoop、データ分析サービスを用いて金融市場におけるハッキングを発見した顧客を例に挙げました。また別の顧客は、このアプローチを用いて船舶のフジツボ除去時期を決定し、海水の抵抗が減ることで燃料費を節約したと述べています。しかし、すべてのケースが魅力的なわけではありません。一般的に、データレイク分析は、情報管理ソフトウェアに指示を与え、企業のストレージコストを削減し、未知または失われたインテリジェンスを発見するために活用されます。
追加リソース:
- 非構造化データの金鉱を最大限に活用するための 4 つのステップ (TechRepublic)
- ビッグデータに期待すべきではない10のこと(TechRepublic)
- ミニ用語集: 知っておくべきビジネス インテリジェンスと分析の用語 (TechRepublic)
これは誰に影響しますか?
ニック・ルーダ氏は、データレイクプロジェクトで最もよくあるミスは、企業に適切な管理人材がいないことだと述べています。データベース管理者は、非構造化情報に知識をどのように適用すればよいか理解していない可能性があり、一方、ストレージ管理者は多くの場合、基本的な部分に重点を置きます。データレイクによって最も影響を受けるのは、おそらく資金繰りの責任者でしょう。なぜなら、企業は分析の専門家を雇用したり、その業務を専門サービス組織にアウトソーシングしたりするために予算を組む必要があるからです。
追加リソース:
- 職務内容: データ サイエンティスト (Tech Pro Research)
- 職務内容: ビッグデータ モデラー (Tech Pro Research)
- データアナリストを目指す人が必ず答えられる面接の質問5選(TechRepublic)
これはいつ起こるのですか?
データレイクは成熟した概念になりつつあります。連邦情報機関は、犯罪者、詐欺師、テロリストを追跡するためにデータレイクを活用しています。企業もこれに追随し、科学実験だけでなく、重要なプロジェクトにもデータレイクを活用し始めています。
進化する要因の一つはセキュリティです。データレイク業界のプレーヤーは、データレイクを構築するということは、データを通常の保存場所から引き出し、多くの場合は外部ベンダーに委託することを意味するため、セキュリティが不可欠であることを認識し始めています。
追加リソース:
- Hadoop レポートがセルフサービス型ビッグデータに一歩近づく (TechRepublic)
- 迫り来るビッグデータのプライバシーとセキュリティの問題に対処する3つの方法(TechRepublic)
- 農家がビッグデータセキュリティのことで眠れない6つの理由(TechRepublic)
どうすれば入手できますか?
非構造化データのソースを特定したら、それをどこかに保存する必要があります。ストレージ管理者がJBOD(RAID構成の「Just Bunch Of Disks」)と呼ぶもの、あるいはスペースと予算に余裕があればSAN上に保存することも可能です。クラウド上に保存することも可能です。Amazon Web ServicesやMicrosoft Azureが一般的な選択肢です。次に、ファイルシステムを選択します。Apache Hadoopが圧倒的な人気を誇っています。
最も難しいのは、実際にレイクをどう活用するかを考えることです。アクセンチュア、キャップジェミニ、デロイトといったプロフェッショナルサービスプロバイダーは、いずれも支援を提供してくれるでしょう。EMC(近々Dellに統合)、HP Enterprise、IBMといったIT企業のサービス部門も候補に挙がっています。Pentahoのような小規模企業も支援の手を差し伸べることができます。ディクソン氏は冗談めかして、「ユニコーン企業にとって重要なのは、フルタイムのスタッフとして雇えるような、手頃な価格の専門家を見つけることだろう」と語りました。
追加リソース:
- ストレージエリアネットワーク:賢い人のためのガイド(TechRepublic)
- Microsoft Azure: 賢い人のためのガイド (TechRepublic)
- Amazon Web Services: 賢い人のためのガイド (TechRepublic)
- テープストレージ:賢い人のためのガイド(TechRepublic)