BI PaaS 日本オラクル

ビッグデータ活用を成功に導くクラウド利用のすすめ(前編)

ビッグデータという言葉の認知度は上がっているものの、多くの企業にとってコストやスキル面でのハードルはまだ高い。ビッグデータ活用を成功に導くクラウド利用について解説する。

HadoopとRDBMSの組み合わせはビッグデータ活用の成功パターン

 ビッグデータの活用が本格化してきた大きな理由の1つに、大量かつ多様なデータを保管し、活用するために必要なコストの低廉化が挙げられます。それによってデータを持たないことの機会損失を防げるようになったのです。

 その背景には、ディスクストレージの低価格化のほかに、スケールアウトを前提として設計されたHadoopやNoSQLをはじめとするオープンソースソフトウェア(OSS)の進歩があります。従来のデータ保管はRDBMSを前提としていました。そこに価値密度の低いデータでも低コストで管理できる新たな選択肢が加わったのです。

 しかしながら、単に低コストという理由だけでHadoopやNoSQLを選択してはいけません。データの適性や活用方法を見極めた上で、どの技術を利用するかを決めることが重要です。RDBMSはデータ管理の万能選手ですが、HadoopやNoSQLは長所が明確である一方で苦手とする処理もあるからです。

 例えば、Hadoopはシーケンシャルリードに特化した作りになっており大規模な分散処理に適しています。1つのファイルを複数のマシンに分散して処理するため、ディスクI/Oのボトルネックを回避し、CPUリソースを有効活用できます。大量のデータを変換処理するデータウェアハウスの前処理などに効果を発揮します。

 一方で、Hadoopは更新処理が苦手なため、マスタデータやデータの更新が頻繁に起こる在庫データなどの取り扱いは実質的に不可能です。また、ブロック長が数M~数百Mバイトといったようにレイテンシよりもスループットを重視したアーキテクチャであるため、文書ファイルなどの複数マシン間に分散配置できない小さなファイルでは、オーバーヘッドが大きく思うようにパフォーマンスを得られません。

 Hadoopを活用したアプリケーション開発においては、「Hadoop MapReduce」や「Apache Spark」を利用したプログラミングをはじめ、「Apache Hive」や「Apache Pig」「Apache Kafka」などのエコシステムが充実してきています。ただ、本番利用できる品質にはあるものの、スタンダードな技術としてまだ十分に普及していないため、プロジェクトに充てられるエンジニアの確保が重要になります。

 NoSQLも分散処理を得意としており、大量データに低レイテンシでアクセスするために設計されています。RDBMSほど厳密にトランザクションを制御しない代わりに大量なデータやアクセスへの対応が可能になります。スキーマを持たないキーバリューストア(KVS)型のNoSQLデータベースは、例えば数千台あるモバイル端末のIDを「キー」、操作ログを「バリュー」で管理することで、IoT端末から発生するデータの受け皿として利用されます。

 NoSQLはフルスキャンを用いた処理やデータの結合、集計などの処理には向いていません。データを活用するためには、NoSQLに蓄積したデータをHadoopやRDBMSに移動する方がベターです。

 RDBMSは、オンライン分析処理(OLAP)とオンライントランザクション処理(OLTP)の両方に対応する万能選手である一方で、スケールアウトに限界がありインデックスが肥大化してしまうなど、ペタバイト級のビッグデータを処理するためにはスキルとコストが必要です。そこでビッグデータ活用においては、RDBMSが苦手なところをHadoopやNoSQLで補っているわけです。


 繰り返しになりますが、重要なのはそれぞれの技術には一長一短があり、長所の組み合わせによって最適なデータ管理基盤を構築することです。その中でも、HadoopとRDBMSの組み合わせはビッグデータ活用の成功パターンとなっています。では、どのような組み合わせがあるのでしょうか。


あなたにおすすめの記事

関連記事

ホワイトペーパーランキング

  1. NoSQL+SQLを実現! MySQLドキュメントストアはどう凄いのか
  2. AWS東京リージョンの大規模障害に学ぶ、パブリッククラウド上のシステムの迅速な復旧方法
  3. 【ユースケース】ソフトウェア開発にDell EMCインフラ+コンテナを使うメリット
  4. フルスクラッチ開発の苦労がほぼゼロ!アプリでのファンベース構築も目指すNEC
  5. 人事異動前の対策が急務!ファイルサーバのアクセス権管理、よくある5つの課題と解決法

編集部おすすめ

トレンドまるわかり![PR]

サーバ
PC・モバイル
ストレージ
ネットワーク
仮想化
クラウドサービス
クラウドストレージ
IaaS
PaaS
プライベートクラウド
OS・ミドルウェア
開発
データベース
運用
セキュリティ
新興技術
財務・経理
人事・労務
マーケ・営業
購買・調達
生産・製造
データ分析
統計解析
テキストマイニング
ソーシャルメディア分析
BI
コミュニケーション
通信・通話
文書・コンテンツ
サイト構築
PCソフト
学習

ベンダー座談会

Follow TechRepublic Japan

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]