ミドルウェア Amazon Web Services

Amazon EMR:大量データの分散処理環境をクラウドで構築

「Amazon Elastic MapReduce(EMR)」は、クラウド上で大量のデータを処理、分析するための分散処理サービスである。オープンソースの分散並列処理フレームワークである「Apache Hadoop」をベースにしている。

 Amazon Web Services(AWS)の「Amazon Elastic MapReduce(EMR)」は、大量のデータを処理、分析するための分散処理サービスである。オープンソースの分散並列処理フレームワーク「Apache Hadoop」を用いることで、仮想サーバのクラスタ全体に計算処理を分散させている。

 クラスタを構成するノードには仮想マシンサービス「Amazon Elastic Compute Cloud(EC2)」を利用する。データの入出力にはオブジェクトストレージ「Amazon Simple Storage Service(S3)」を、クラスタのパフォーマンス監視とアラーム発生にはモニタリングサービス「Amazon CloudWatch」を用いる。Hadoopクラスタを起動し管理する「Amazon EMRコントロールソフトウェア」で制御する。

 クラスタを起動すると、Amazon EMRはAmazon S3からデータを取り込み、クラスタ内の各インスタンスに振り分け、データの処理を開始する。ノードのプロビジョニングやクラスタのセットアップ、Hadoopの設定、クラスタのチューニングといった作業は不要だ。データの処理結果は、Amazon S3やAmazon EMR内の分散ファイルシステム「Hadoop Distributed File System(HDFS)」に出力される。

 処理アプリケーションの開発には、Java、Cascading、Ruby、Perl、Python、R、PHP、C++、Node.jsなどを使用可能。Hadoop上にデータウェアハウス環境を構築できる「Apache Hive」、Hadoopでクエリを記述できる「Apache Pig」とも連携する。

 クラスタは処理するデータ量に応じて、規模を容易に拡大、縮小できる。必要に応じて複数のクラスタを起動し、不要になったら終了させられるため、トライ&エラーによる試行や大量データの効率よい処理が可能になる。

 Amazon EMRの料金は、使用するインスタンスの時間ごとに1時間単位で支払う。時間料金は、使用するインスタンスタイプに応じて異なり、Amazon EC2の料金に加算される。ログの分析、ウェブインデックス、データウェアハウジング、機械学習、財務分析、科学シミュレーション、生物情報科学研究のデータ処理などに実績がある。

Amazon Elastic MapReduce
Amazon Elastic MapReduceの画面(Amazon Web Services提供)
Amazon Elastic MapReduceの概要
用途と機能大量のデータを処理、分析するための分散処理サービス
特徴Hadoopを用いることで、仮想サーバのクラスタ全体に計算処理を分散させ、高いパフォーマンスを実現している。ノードのプロビジョニングやクラスタのセットアップ、Hadoopの設定、クラスタのチューニングといった作業は不要
税別価格10ノードのHadoopクラスタが1時間あたり0.15ドル、など
導入企業ソネット、リクルート、など

関連記事

編集部おすすめ

ピックアップ製品

サーバ
PC・モバイル
ストレージ
ネットワーク
仮想化
クラウドサービス
OS・ミドルウェア
OS
ミドルウェア
アプリケーションサーバ
開発
データベース
運用
セキュリティ
新興技術
財務・経理
人事・労務
マーケ・営業
購買・調達
生産・製造
データ分析
コミュニケーション
通信・通話
文書・コンテンツ
サイト構築
PCソフト
学習

ベンダー座談会

Follow TechRepublic Japan