ミドルウェア

Apache Spark:SQLなどが可能なインメモリ対応データ処理フレームワーク

データ処理フレームワークの「Apache Spark」は、分散並列フレームワーク「Apache Hadoop」クラスタ上でインメモリ上で分散処理する。Hadoopから独立して稼働させることもできる。コンポーネントでさまざまなワークロードを実行できる。

 「Apache Spark」は、オープンソースの汎用的なデータ処理フレームワークである。バッチ処理やストリーミング処理などに対応するアプリケーションを開発できる。分散並列処理フレームワーク「Apache Hadoop」のクラスタ上で稼働するが、Hadoopから独立してアプリケーションを稼働させることもできる。

 Sparkは、分散ファイルシステム「Hadoop Distributed File System(HDFS)」にキャッシュを設けることで、インメモリ上で分散処理するといったことも可能だ。これによって、ストレージへのオーバーヘッドをなくし、MapReduceが苦手としていた繰り返し処理やドリルダウン分析の処理速度を高めている。

 Sparkにはさまざまなコンポーネントが用意されており、HDFS上にあるデータをさまざまなワークロードを実行できるようになっている。コンポーネントとしては、SQL実行環境として活用するための「Spark SQL」、機械学習させるための「MLlib」、データをストリーム処理するための「Spark Streaming」、グラフ処理するための「Spark GraphX」などがある。

 分散処理フレームワーク「MapReduce」を置き換えるものとして「Hadoop YARN(Yet Another Resource Negotiator)」があるが、YARNは分散処理をハンドリングするためのフレームワークとして使用するため、Sparkとは役割が異なる。

Apache Sparkの概要
用途と機能Hadoop向けのデータ処理フレームワーク
特徴Spark SQLやMLlib、Spark Streaming、Spark GraphXなどのコンポーネントでさまざまなワークロードをHDFS上のデータを対象に実行できる
税別価格無償(オープンソース)

「ミドルウェア」で読まれている記事

TechRepublic Japanで人気の記事

編集部オススメ

トレンドまるわかり![PR]

財務・経理
人事・労務
マーケ・営業
購買・調達
生産・製造
データ分析
コミュニケーション
通信・通話
文書・コンテンツ
PC・モバイル
新興技術
ITインフラ
クラウドサービス
OS・ミドルウェア
OS
ミドルウェア
アプリケーションサーバー
開発
データベース
運用
セキュリティ

ホワイトペーパーランキング

  1. 企業価値を「デジタル由来」に転換--大企業のDXをハッカソンで支える日本マイクロソフト
  2. スモールスタート思考で業務を改善! 「社内DX」推進のためのキホンを知る
  3. 2021年のサイバー脅威予測が明らかに─将来の攻撃に企業はいかに備えるべきか
  4. 6割のサイバー攻撃ではマルウェアは使われていない事実が判明─求められる新たな防御戦略とは
  5. “テレワークだからこそ”デスクトップPCを利用すべき?!ノートPCにはない魅力の数々に迫る

Follow TechRepublic Japan

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]