ミドルウェア

Apache Hadoop:ペタバイト級のデータを分散処理するオープンソースフレームワーク

オープンソースの分散並列処理フレームワークである「Apache Hadoop」は、ペタバイト級のデータを複数のマシンに分散して処理できる高いスケーラビリティを持っている。

 「Apache Hadoop」は、大量のデータを複数のマシンに分散して処理するオープンソースの分散並列処理フレームワークだ。数千ノードでの分散処理やペタバイト級のデータの処理に対応している。HadoopはJavaで開発されており、処理を記述する際も基本的にはJavaで書くことが想定されている。

 処理を記述するプログラミングモデル「MapReduce」や分散ファイルシステム「Hadoop Distributed File System(HDFS)」などで構成されている。MapReduceとHDFSは、Googleが論文で発表した基盤技術をオープンソースとして実装したものだ。

 Hadoopの特徴は高いスケーラビリティにある。サーバを追加することでHDFSの容量や分散処理のためのリソースを増やせる仕組みとなっている。サーバの追加時にHadoopクラスタを停止する必要はない。

 データはキーバリューストア(KVS)で保持する。KVSはリレーショナルデータベース(RDB)やデータウェアハウス(DWH)と異なり、データを格納するためのスキーマの定義が不要である。Hadoopでは、処理する際にHDFSに格納したデータに意味づけする方式を採っている。

Hadoop
Hadoopの公式サイト
Apache Hadoopの概要
用途と機能大量のデータを複数のマシンに分散して処理するオープンソースの分散並列処理フレームワーク
特徴高速なデータの処理を可能にする高いスケーラビリティがある
税別価格無償(オープンソース)
導入企業Yahoo、Facebook、など
現行版の提供開始日2015年4月

CNET_IDを登録して全ての記事を読む
(登録3分、無料)

CNET_IDはTechRepublic Japan/CNET Japan/ZDNet Japanでご利用いただける共通IDです。CNET_IDを登録することで、TechRepublic Japanの全ての記事を読むことができます。人気の記事にはこのようなものがあります。

関連記事

ホワイトペーパーランキング

  1. IBM Watson が拡げるビジネスの可能性
  2. クラウドファーストと言うけれど…理由あって実現できない企業の「次の手」
  3. 人手がかかりすぎるから脱却するには?:「脅威インテリジェンスの活用と自動化」によるアプローチ
  4. 次世代 モダンBI・分析プラットフォームを正しく選ぶための選定ポイントとは
  5. “できる中小企業”の人材採用――事例から紐解く「コア人材」獲得のポイントとは?

編集部おすすめ

ピックアップ製品

サーバ
PC・モバイル
ストレージ
ネットワーク
仮想化
クラウドサービス
OS・ミドルウェア
OS
ミドルウェア
アプリケーションサーバ
開発
データベース
運用
セキュリティ
新興技術
財務・経理
人事・労務
マーケ・営業
購買・調達
生産・製造
データ分析
コミュニケーション
通信・通話
文書・コンテンツ
サイト構築
PCソフト
学習

ベンダー座談会

Follow TechRepublic Japan