ミドルウェア

Apache Spark:SQLなどが可能なインメモリ対応データ処理フレームワーク

データ処理フレームワークの「Apache Spark」は、分散並列フレームワーク「Apache Hadoop」クラスタ上でインメモリ上で分散処理する。Hadoopから独立して稼働させることもできる。コンポーネントでさまざまなワークロードを実行できる。

 「Apache Spark」は、オープンソースの汎用的なデータ処理フレームワークである。バッチ処理やストリーミング処理などに対応するアプリケーションを開発できる。分散並列処理フレームワーク「Apache Hadoop」のクラスタ上で稼働するが、Hadoopから独立してアプリケーションを稼働させることもできる。

 Sparkは、分散ファイルシステム「Hadoop Distributed File System(HDFS)」にキャッシュを設けることで、インメモリ上で分散処理するといったことも可能だ。これによって、ストレージへのオーバーヘッドをなくし、MapReduceが苦手としていた繰り返し処理やドリルダウン分析の処理速度を高めている。

 Sparkにはさまざまなコンポーネントが用意されており、HDFS上にあるデータをさまざまなワークロードを実行できるようになっている。コンポーネントとしては、SQL実行環境として活用するための「Spark SQL」、機械学習させるための「MLlib」、データをストリーム処理するための「Spark Streaming」、グラフ処理するための「Spark GraphX」などがある。

 分散処理フレームワーク「MapReduce」を置き換えるものとして「Hadoop YARN(Yet Another Resource Negotiator)」があるが、YARNは分散処理をハンドリングするためのフレームワークとして使用するため、Sparkとは役割が異なる。

Apache Sparkの概要
用途と機能Hadoop向けのデータ処理フレームワーク
特徴Spark SQLやMLlib、Spark Streaming、Spark GraphXなどのコンポーネントでさまざまなワークロードをHDFS上のデータを対象に実行できる
税別価格無償(オープンソース)

CNET_IDを登録して全ての記事を読む
(登録3分、無料)

CNET_IDはTechRepublic Japan/CNET Japan/ZDNet Japanでご利用いただける共通IDです。CNET_IDを登録することで、TechRepublic Japanの全ての記事を読むことができます。人気の記事にはこのようなものがあります。

あなたにおすすめの記事

関連記事

ホワイトペーパーランキング

  1. 多機能、シンプル管理、サポート面--管理者の「欲しい」を全部入りにしたストレージとは
  2. 12社のオールフラッシュアレイを徹底比較! 世界のバイヤーが参考にする「AFA製品評価ガイド」公開
  3. 【消費税改正実態調査】全業種に影響する企業の消費税改正対応が、わずか2割しか対応が進んでいない現状
  4. IoT、AI、自動化で事業を組み上げよ--製造業のITのための最新テクノロジー完全ガイド
  5. 既存のセキュリティ対策は“穴だらけ”─企業の命運は次世代型の防御アプローチにかかっている

編集部おすすめ

トレンドまるわかり![PR]

サーバ
PC・モバイル
ストレージ
ネットワーク
仮想化
クラウドサービス
OS・ミドルウェア
OS
ミドルウェア
アプリケーションサーバ
開発
データベース
運用
セキュリティ
新興技術
財務・経理
人事・労務
マーケ・営業
購買・調達
生産・製造
データ分析
コミュニケーション
通信・通話
文書・コンテンツ
サイト構築
PCソフト
学習

ベンダー座談会

Follow TechRepublic Japan

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]