ミドルウェア データベース AWS

Amazon EMR:Hadoopベースのデータ分散処理基盤--Sparkも活用

データ分散処理基盤「Amazon EMR」は、OSSのフレームワーク「Hadoop」がベース。Hadoop関連ソフトを活用できるほか、メモリベースのアーキテクチャの分散処理基盤である「Spark」も活用できる。

Amazon EMRのポイント

  • EC2を利用して仮想マシンのクラスタ全体に計算処理を分散
  • HiveやPig、HBase、Phoenix、Impalaなどが活用可能
  • Sparkでストリーミング分析や機械学習、グラフ処理などが可能

Amazon EMRの製品解説

 アマゾン ウェブ サービス ジャパンの「Amazon EMR」は、大量のデータを処理、分析するための分散処理サービス。オープンソースソフトウェア(OSS)の分散並列処理プログラミングフレームワーク「Apache Hadoop」をベースにしている。

編集部おすすめの関連記事

 ログ分析やウェブインデックス、データ変換(ETL)、機械学習、財務分析、科学シミュレーション、生物情報科学研究などを含む、さまざまなビッグデータを確実かつ安全に処理できる。

 仮想マシンのクラスタ全体に計算処理を分散させている。クラスタを構成するノードには仮想マシンサービス「Amazon Elastic Compute Cloud(EC2)」を利用する。必要なキャパシティを簡単にプロビジョニングでき、キャパシティは自動あるいは手動で追加、削除できる。

 クラスタを起動すると、オブジェクトストレージサービス「Amazon Simple Storage Service(S3)」からデータを取り込み、クラスタ内の各インスタンスに振り分け、データの処理を開始する。ノードのプロビジョニングやクラスタのセットアップ、Hadoopの設定、クラスタのチューニングといった作業は不要だ。データの処理結果は、Amazon S3やEMR内の分散ファイルシステム「Hadoop Distributed File System(HDFS)」に出力される。

 Hadoopで稼働するさまざまなOSSを利用できる。

 「Apache Hive」はデータウェアハウスとして利用でき、SQLベースの言語である「Hive QL」でデータの構造化や集約、問い合わせといった機能を担い、テキストやログなどの非構造化データソースを処理する。「Apache Pig」もSQLライクにMapReduceを記述できる領域特化型言語(DSL)。

 「Apache HBase」は、構造化データに低遅延でアクセスするために設計されたデータストア「BigTable」をベースにしたNoSQL。HDFSで動作してBigTableに似た機能をHadoopで利用できる。

 「Apache Phoenix」はHBaseに保存されているデータに対してACIDトランザクションを利用できる。「Apache Impala」はSQL構文でインタラクティブにアドホックにクエリをかけられる。MapReduceの代わりに、従来のリレーショナルデータベース管理システムで活用される超並列処理(MPP)エンジンに類似したMPPが活用される。

 「Presto」はアドホックなデータ分析用に最適化された分散型SQLエンジン。ANSI SQLをサポートしていて複雑なクエリや集計、結合などを実行できる。HDFSやAmazon S3など複数のデータソースのデータを処理できる。

 クラスタコンピューティングフレームワーク「Apache Spark」も利用できる。HadoopもSparkも複数のマシンでのクラスタ環境で動作する分散データ処理基盤だが、Hadoopはディスクベースだが、Sparkはメモリベースのアーキテクチャ。ストリーミング分析を担う「Apache Spark Streaming」や機械学習フレームワーク「MLlib」、分散グラフ処理フレームワーク「Apache GraphX」なども利用できる。

Amazon EMRのまとめ
用途と機能Hadoopをベースにしたデータ分散処理基盤
特徴仮想マシンのEC2やオブジェクトストレージのS3を活用。HadoopベースのHiveやPig、HBase、Phoenix、Impalaを活用、PrestoやSparkも利用できる。

CNET_IDを登録して全ての記事を読む
(登録3分、無料)

CNET_IDはTechRepublic Japan/CNET Japan/ZDNet Japanでご利用いただける共通IDです。CNET_IDを登録することで、TechRepublic Japanの全ての記事を読むことができます。人気の記事にはこのようなものがあります。

あなたにおすすめの記事

関連記事

ホワイトペーパーランキング

  1. Docker、Kubernetesがもたらす IT業界の一大変革
  2. 今さら聞けない? Dockerコンテナ入門
  3. 【ZDnet Japan調査】情報システム部門200名への調査から見る「攻めのIT戦略のリアル」
  4. AWSが解説!クラウド移行で失敗しないためのベストプラクティスと戦略─「6つのR」とは
  5. 【公式資料】AWS移行実践!大規模なクラウド化はこうすれば始められる

編集部おすすめ

トレンドまるわかり![PR]

サーバ
PC・モバイル
ストレージ
ネットワーク
仮想化
クラウドサービス
OS・ミドルウェア
OS
ミドルウェア
アプリケーションサーバ
開発
データベース
RDBMS
NoSQL
その他データベース
DWH
ETL
EAI/ESB
運用
セキュリティ
新興技術
財務・経理
人事・労務
マーケ・営業
購買・調達
生産・製造
データ分析
コミュニケーション
通信・通話
文書・コンテンツ
サイト構築
PCソフト
学習

ベンダー座談会

Follow TechRepublic Japan

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]