ミドルウェア

Apache Spark:SQLなどが可能なインメモリ対応データ処理フレームワーク

データ処理フレームワークの「Apache Spark」は、分散並列フレームワーク「Apache Hadoop」クラスタ上でインメモリ上で分散処理する。Hadoopから独立して稼働させることもできる。コンポーネントでさまざまなワークロードを実行できる。

 「Apache Spark」は、オープンソースの汎用的なデータ処理フレームワークである。バッチ処理やストリーミング処理などに対応するアプリケーションを開発できる。分散並列処理フレームワーク「Apache Hadoop」のクラスタ上で稼働するが、Hadoopから独立してアプリケーションを稼働させることもできる。

 Sparkは、分散ファイルシステム「Hadoop Distributed File System(HDFS)」にキャッシュを設けることで、インメモリ上で分散処理するといったことも可能だ。これによって、ストレージへのオーバーヘッドをなくし、MapReduceが苦手としていた繰り返し処理やドリルダウン分析の処理速度を高めている。

 Sparkにはさまざまなコンポーネントが用意されており、HDFS上にあるデータをさまざまなワークロードを実行できるようになっている。コンポーネントとしては、SQL実行環境として活用するための「Spark SQL」、機械学習させるための「MLlib」、データをストリーム処理するための「Spark Streaming」、グラフ処理するための「Spark GraphX」などがある。

 分散処理フレームワーク「MapReduce」を置き換えるものとして「Hadoop YARN(Yet Another Resource Negotiator)」があるが、YARNは分散処理をハンドリングするためのフレームワークとして使用するため、Sparkとは役割が異なる。

Apache Sparkの概要
用途と機能Hadoop向けのデータ処理フレームワーク
特徴Spark SQLやMLlib、Spark Streaming、Spark GraphXなどのコンポーネントでさまざまなワークロードをHDFS上のデータを対象に実行できる
税別価格無償(オープンソース)

CNET_IDを登録して全ての記事を読む
(登録3分、無料)

CNET_IDはTechRepublic Japan/CNET Japan/ZDNet Japanでご利用いただける共通IDです。CNET_IDを登録することで、TechRepublic Japanの全ての記事を読むことができます。人気の記事にはこのようなものがあります。

関連記事

ホワイトペーパーランキング

  1. 新たな個人データ保護の時代到来!~2018年EU-GDPR施行とその対応~
  2. クラウドファーストと言うけれど…理由あって実現できない企業の「次の手」
  3. BIからBA、そしてコグニティブに至る上での落とし穴
  4. IBM Watson が拡げるビジネスの可能性
  5. これまでのやり方では不都合がたくさん。メールマーケティングの価値を最大化するためには

編集部おすすめ

ピックアップ製品

サーバ
PC・モバイル
ストレージ
ネットワーク
仮想化
クラウドサービス
OS・ミドルウェア
OS
ミドルウェア
アプリケーションサーバ
開発
データベース
運用
セキュリティ
新興技術
財務・経理
人事・労務
マーケ・営業
購買・調達
生産・製造
データ分析
コミュニケーション
通信・通話
文書・コンテンツ
サイト構築
PCソフト
学習

ベンダー座談会

Follow TechRepublic Japan