ミドルウェア

Apache Spark:SQLなどが可能なインメモリ対応データ処理フレームワーク

データ処理フレームワークの「Apache Spark」は、分散並列フレームワーク「Apache Hadoop」クラスタ上でインメモリ上で分散処理する。Hadoopから独立して稼働させることもできる。コンポーネントでさまざまなワークロードを実行できる。

 「Apache Spark」は、オープンソースの汎用的なデータ処理フレームワークである。バッチ処理やストリーミング処理などに対応するアプリケーションを開発できる。分散並列処理フレームワーク「Apache Hadoop」のクラスタ上で稼働するが、Hadoopから独立してアプリケーションを稼働させることもできる。

 Sparkは、分散ファイルシステム「Hadoop Distributed File System(HDFS)」にキャッシュを設けることで、インメモリ上で分散処理するといったことも可能だ。これによって、ストレージへのオーバーヘッドをなくし、MapReduceが苦手としていた繰り返し処理やドリルダウン分析の処理速度を高めている。

 Sparkにはさまざまなコンポーネントが用意されており、HDFS上にあるデータをさまざまなワークロードを実行できるようになっている。コンポーネントとしては、SQL実行環境として活用するための「Spark SQL」、機械学習させるための「MLlib」、データをストリーム処理するための「Spark Streaming」、グラフ処理するための「Spark GraphX」などがある。

 分散処理フレームワーク「MapReduce」を置き換えるものとして「Hadoop YARN(Yet Another Resource Negotiator)」があるが、YARNは分散処理をハンドリングするためのフレームワークとして使用するため、Sparkとは役割が異なる。

Apache Sparkの概要
用途と機能Hadoop向けのデータ処理フレームワーク
特徴Spark SQLやMLlib、Spark Streaming、Spark GraphXなどのコンポーネントでさまざまなワークロードをHDFS上のデータを対象に実行できる
税別価格無償(オープンソース)

CNET_IDを登録して全ての記事を読む
(登録3分、無料)

CNET_IDはTechRepublic Japan/CNET Japan/ZDNet Japanでご利用いただける共通IDです。CNET_IDを登録することで、TechRepublic Japanの会員向け記事を読むことができます。人気の記事にはこのようなものがあります。

「ミドルウェア」で読まれている記事

TechRepublic Japanで人気の記事

編集部オススメ

トレンドまるわかり![PR]

財務・経理
人事・労務
マーケ・営業
購買・調達
生産・製造
データ分析
コミュニケーション
通信・通話
文書・コンテンツ
PC・モバイル
新興技術
ITインフラ
クラウドサービス
OS・ミドルウェア
OS
ミドルウェア
アプリケーションサーバー
開発
データベース
運用
セキュリティ

ホワイトペーパーランキング

  1. 5分でわかる、レポート作成の心得!成果至上主義のせっかちな上司も納得のレポートとは
  2. ノートPCは従来ながらの選び方ではダメ!新しい働き方にも対応する失敗しない選び方を徹底解説
  3. 問題だらけの現場指導を効率化!「人によって教え方が違う」を解消するためのマニュアル整備
  4. 緊急事態宣言解除後の利用率は低下 調査結果に見る「テレワーク」定着を阻む課題とその対応策
  5. たしか、あのデータは、こっちのアプリにあったはず…--業務改善のためのアプリ導入がストレスの原因に?

Follow TechRepublic Japan

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]