ミドルウェア

Apache Spark:SQLなどが可能なインメモリ対応データ処理フレームワーク

データ処理フレームワークの「Apache Spark」は、分散並列フレームワーク「Apache Hadoop」クラスタ上でインメモリ上で分散処理する。Hadoopから独立して稼働させることもできる。コンポーネントでさまざまなワークロードを実行できる。

 「Apache Spark」は、オープンソースの汎用的なデータ処理フレームワークである。バッチ処理やストリーミング処理などに対応するアプリケーションを開発できる。分散並列処理フレームワーク「Apache Hadoop」のクラスタ上で稼働するが、Hadoopから独立してアプリケーションを稼働させることもできる。

 Sparkは、分散ファイルシステム「Hadoop Distributed File System(HDFS)」にキャッシュを設けることで、インメモリ上で分散処理するといったことも可能だ。これによって、ストレージへのオーバーヘッドをなくし、MapReduceが苦手としていた繰り返し処理やドリルダウン分析の処理速度を高めている。

 Sparkにはさまざまなコンポーネントが用意されており、HDFS上にあるデータをさまざまなワークロードを実行できるようになっている。コンポーネントとしては、SQL実行環境として活用するための「Spark SQL」、機械学習させるための「MLlib」、データをストリーム処理するための「Spark Streaming」、グラフ処理するための「Spark GraphX」などがある。

 分散処理フレームワーク「MapReduce」を置き換えるものとして「Hadoop YARN(Yet Another Resource Negotiator)」があるが、YARNは分散処理をハンドリングするためのフレームワークとして使用するため、Sparkとは役割が異なる。

Apache Sparkの概要
用途と機能Hadoop向けのデータ処理フレームワーク
特徴Spark SQLやMLlib、Spark Streaming、Spark GraphXなどのコンポーネントでさまざまなワークロードをHDFS上のデータを対象に実行できる
税別価格無償(オープンソース)

関連記事

ホワイトペーパーランキング

  1. 調査結果:働き方改革の実態――働き方改革によって、どんな支障が出るのか?
  2. どこから解消すれば良い?中小企業の永遠の課題「3つの不足」へのアプローチ
  3. ニーズが高まるDBaaS、30項目の基準で有力ベンダー13社を調査
  4. AI×人間の相乗効果 IBM Watson が拡げるビジネスの可能性
  5. AIはホテルの適切な単価も導き出す。さらなる付加価値もコグニティブで。

編集部おすすめ

ピックアップ製品

サーバ
PC・モバイル
ストレージ
ネットワーク
仮想化
クラウドサービス
OS・ミドルウェア
OS
ミドルウェア
アプリケーションサーバ
開発
データベース
運用
セキュリティ
新興技術
財務・経理
人事・労務
マーケ・営業
購買・調達
生産・製造
データ分析
コミュニケーション
通信・通話
文書・コンテンツ
サイト構築
PCソフト
学習

ベンダー座談会

Follow TechRepublic Japan