
Apache Druidは、膨大なデータセットを迅速にスライス&ダイス分析するために設計されたリアルタイム分析データベースです。Linuxのデスクトップ版、またはGUIを備えたLinuxサーバーからApache Druidを簡単に実行し、データをロードして解析を開始できます。
Apache Druid には次のような機能が含まれています。
- 列指向ストレージ
- ネイティブ検索インデックス
- ストリーミングとバッチインジェスト
- 柔軟なスキーマ
- 時間最適化されたパーティショニング
- SQLサポート
- 水平スケーラビリティ
- 簡単な操作
Apache Druid は、リアルタイムの取り込み、高速クエリ、高い稼働時間を必要とするユースケースに最適なオプションです。
Pop!_OS Linux (どの Linux ディストリビューションでも実行できます) で Apache Druid を実行するプロセスを説明してから、サンプル データを読み込む方法を説明します。
参照: 採用キット: データベースエンジニア (TechRepublic Premium)
必要なもの
これを動作させるために必要なのは、デスクトップ環境と sudo 権限を持つユーザーを備えた実行中の Linux インスタンスだけです。
以上です。データベースマジックをしてみましょう。
Java 8のインストール方法
現時点ではApache DruidはJava 8のみをサポートしているため、Java 8がインストールされ、デフォルトとして設定されていることを確認する必要があります。UbuntuベースのデスクトップディストリビューションにJava 8をインストールするには、マシンにログインし、ターミナルウィンドウを開いて次のコマンドを実行します。
sudo apt install openjdk-8-jdk -y
インストールが完了したら、Java 8をデフォルトに設定する必要があります。以下のコマンドで設定します。
sudo update-alternatives --config java
現在マシンにインストールされているすべてのJavaバージョンのリストが表示されます。Java 8に対応する番号を選択してください。
Apache Druid サービスについて
これから起動するのはApache Druidのマイクロインスタンスです。4つのCPUと16GBのRAMが必要です。Apache Druidには以下の6つの異なるサービス構成があります。
- ナノクイックスタート: 1 CPU、4GB RAM
- マイクロクイックスタート: 4 CPU、16 GB RAM
- 小型: 8 CPU、64GB RAM
- 中規模: 16 CPU、128GB RAM
- ラージ: 32 CPU、256GB RAM
- 特大: 64 CPU、512GB RAM
データのサイズとニーズによって異なります。膨大な量のデータを扱う場合は、Apache Druidをクラスターとしてデプロイすることをお勧めします。ただし、Apache Druidはまだ使い始めたばかりなので、マイクロインスタンスでも十分です。
Apache Druidのダウンロードと解凍方法
Javaがインストールされたら、Apache Druidをダウンロードして解凍します。ターミナルウィンドウに戻り、次のコマンドで最新バージョンをダウンロードします(Apache Druidのダウンロードページで最新リリースであることを確認してください)。
wget https://dlcdn.apache.org/druid/0.22.1/apache-druid-0.22.1-bin.tar.gz
ダウンロードしたファイルを次のように解凍します。
tar xvfz apache-druid-0.22.1-bin.tar.gz
次のコマンドで新しく作成したディレクトリに移動します。
cd apache-druid-0.22.1
次のようにしてサービスを開始します。
./bin/start-micro-quickstart
Apache Druidサービスは問題なく起動するはずです。ただし、サービスの実行中はCtrl + Cでキャンセルするまでターミナルに戻らないので注意してください。
Apache Druidコンソールにアクセスする方法
Apache Druid を実行しているマシンで、Web ブラウザを開き、 を指定しますhttp://localhost:8888
。残念ながら、Apache Druid はリモートマシンからアクセスできないように設定されているため、デスクトップマシンにインストールします。
Apache Druid コンソールが表示されます (図 A )。
図A

データのロード方法
quickstart/tutorial/ディレクトリにある定義済みのサンプルデータを読み込みます。サンプルファイルはwikiticker-2015-09-12-sampled.json.gzです。

図B

ウィンドウの右側にある [データの接続] をクリックし、表示されるサイドバー (図 C ) で、quickstart/tutorial
ベース ディレクトリとして を入力し、wikiticker-2015-09-12-sampled.json.gz
[ファイル フィルター] セクションに入力します。
図C

「適用」をクリックすると、メイン ウィンドウにかなりの量のデータが表示されます (図 D )。
図D

右下にある「次へ: データの解析」をクリックすると、より読みやすい形式でデータのリストが表示されます (図 E )。
図E

「次へ: 時間の解析」をクリックすると、特定のタイムスタンプに対するデータを表示できます (図 F )。
図F

「次へ: 変換」をクリックすると、列の値の行ごとの変換を実行して、新しい列を作成するか、既存の列を変更することができます。
データをクリックし続けると、いつでもクエリを実行し、必要に応じてデータをフィルタリングできます。「スキーマの設定」セクション(図G)では、クエリの粒度を指定したり、ディメンションや指標を追加したりすることもできます。
図G

これがApache Druidの基本機能のほぼすべてです。この強力なデータ分析プラットフォームの機能のほんの一部を紹介したに過ぎませんが、サンプルデータを操作してみることで、その動作をある程度理解できるはずです。
作業が完了したら、必ずターミナル ウィンドウに戻り、CTRL + C で Apache Druid サービスを停止してください。
Ubuntu に興味がありますか? TechRepublic AcademyのThe Mastering Linux Development Bundle をチェックしてください。
Jack Wallen によるビジネス プロフェッショナル向けの最新のテクノロジー アドバイスをすべて知るには、YouTube で TechRepublic の How To Make Tech Work を購読してください。