Hortonworks Data Platformのポイント
- HDFSでデータレイク用ストレージ、YARNが複数のワークロードを同時処理
- リアルタイム分析やストリームデータ処理などさまざまな方式に対応可能
- メタデータ管理やライフサイクル管理などデータ管理ツールも用意
Hortonworks Data Platformの製品解説
ホートンワークスジャパンの「Hortonworks Data Platform(HDP)」は、オープンソースソフトウェア(OSS)の分散並列処理プログラミングフレームワーク「Apache Hadoop」のディストリビューションであり、企業向け機能を追加している。HDP自体もOSSとして提供されているが、ホートンワークスが有償のサポートサービスを提供している。
Hadoopクラスタのリソース管理やジョブスケジューリングを担当する「Apache YARN(Yet Another Resource Negotiator)」と分散ファイルシステムの「HDFS(Hadoop Distributed File System)」が中核。HDFSがデータレイク用ストレージを担い、YARNが複数のワークロードの同時処理を管理する。
さまざまなデータアクセスに対応する。バッチ処理を担う「MapReduce」、Hadoopでのクエリを記述できるドメイン固有言語(Domain Specific Language:DSL)の「Apache Pig」、リアルタイムデータ分析ツール「Druid」、Hadoopにデータウェアハウス環境を構築して、データを集約、分析できる「Apache Hive」、列指向分散データベースの「Apache HBase」、分散型キーバリューストア(KVS)「Apache Accumulo」、HbaseなどのNoSQLストアでリレーショナルデータベース機能を提供する「Apache Phoenix」、ストリームデータを分散処理するための「Apache Storm」、全文検索エンジン「Apache Solr」、インメモリ指向のクラスタコンピューティングフレームワーク「Apache Spark」が利用できる。
データのガバナンスと統合のためのツールも提供。メタデータなどを管理するための「Apache Atlas」、データライフサイクル管理ツール「Apache Falcon」、構造的なデータストアとHadoopの間で大量データを転送するツール「Apache Sqoop」、ストリーミングのログ管理ツール「Apache Flume」、耐障害性の高いメッセージングシステム「Apache Kafka」などがある。
ユーザー認証やアクセス制御、データ保護などを提供するセキュリティ関連のツールや、プロビジョニングやクラスタの配置、監視、管理などを提供するオペレーション関連ツールが含まれる。Microsoft AzureやAmazon Web Services、Google Cloud Platform のいずれでも、クラウドの俊敏性を活用しながらオンプレミスのワークロードを実行できる。
用途と機能 | 企業向けHadoopディストリビューション |
---|---|
特徴 | リアルタイム分析やインメモリ、全文検索、SQLライクなクエリなどに対応。データを統制、管理するための機能も提供 |