BI PaaS 日本オラクル

ビッグデータ活用を成功に導くクラウド利用のすすめ(前編)

ビッグデータという言葉の認知度は上がっているものの、多くの企業にとってコストやスキル面でのハードルはまだ高い。ビッグデータ活用を成功に導くクラウド利用について解説する。

HadoopとRDBMSの組み合わせはビッグデータ活用の成功パターン

 ビッグデータの活用が本格化してきた大きな理由の1つに、大量かつ多様なデータを保管し、活用するために必要なコストの低廉化が挙げられます。それによってデータを持たないことの機会損失を防げるようになったのです。

 その背景には、ディスクストレージの低価格化のほかに、スケールアウトを前提として設計されたHadoopやNoSQLをはじめとするオープンソースソフトウェア(OSS)の進歩があります。従来のデータ保管はRDBMSを前提としていました。そこに価値密度の低いデータでも低コストで管理できる新たな選択肢が加わったのです。

 しかしながら、単に低コストという理由だけでHadoopやNoSQLを選択してはいけません。データの適性や活用方法を見極めた上で、どの技術を利用するかを決めることが重要です。RDBMSはデータ管理の万能選手ですが、HadoopやNoSQLは長所が明確である一方で苦手とする処理もあるからです。

 例えば、Hadoopはシーケンシャルリードに特化した作りになっており大規模な分散処理に適しています。1つのファイルを複数のマシンに分散して処理するため、ディスクI/Oのボトルネックを回避し、CPUリソースを有効活用できます。大量のデータを変換処理するデータウェアハウスの前処理などに効果を発揮します。

 一方で、Hadoopは更新処理が苦手なため、マスタデータやデータの更新が頻繁に起こる在庫データなどの取り扱いは実質的に不可能です。また、ブロック長が数M~数百Mバイトといったようにレイテンシよりもスループットを重視したアーキテクチャであるため、文書ファイルなどの複数マシン間に分散配置できない小さなファイルでは、オーバーヘッドが大きく思うようにパフォーマンスを得られません。

 Hadoopを活用したアプリケーション開発においては、「Hadoop MapReduce」や「Apache Spark」を利用したプログラミングをはじめ、「Apache Hive」や「Apache Pig」「Apache Kafka」などのエコシステムが充実してきています。ただ、本番利用できる品質にはあるものの、スタンダードな技術としてまだ十分に普及していないため、プロジェクトに充てられるエンジニアの確保が重要になります。

 NoSQLも分散処理を得意としており、大量データに低レイテンシでアクセスするために設計されています。RDBMSほど厳密にトランザクションを制御しない代わりに大量なデータやアクセスへの対応が可能になります。スキーマを持たないキーバリューストア(KVS)型のNoSQLデータベースは、例えば数千台あるモバイル端末のIDを「キー」、操作ログを「バリュー」で管理することで、IoT端末から発生するデータの受け皿として利用されます。

 NoSQLはフルスキャンを用いた処理やデータの結合、集計などの処理には向いていません。データを活用するためには、NoSQLに蓄積したデータをHadoopやRDBMSに移動する方がベターです。

 RDBMSは、オンライン分析処理(OLAP)とオンライントランザクション処理(OLTP)の両方に対応する万能選手である一方で、スケールアウトに限界がありインデックスが肥大化してしまうなど、ペタバイト級のビッグデータを処理するためにはスキルとコストが必要です。そこでビッグデータ活用においては、RDBMSが苦手なところをHadoopやNoSQLで補っているわけです。


 繰り返しになりますが、重要なのはそれぞれの技術には一長一短があり、長所の組み合わせによって最適なデータ管理基盤を構築することです。その中でも、HadoopとRDBMSの組み合わせはビッグデータ活用の成功パターンとなっています。では、どのような組み合わせがあるのでしょうか。


あなたにおすすめの記事

関連記事

ホワイトペーパーランキング

  1. 本質的なコスト削減とアジリティ向上は“サーバーレスアプローチ”無くして実現不可能
  2. Pure Storageだから実現する機能!高性能と手軽さを両立させる“秘訣”教えます
  3. 12社のオールフラッシュアレイを徹底比較! 世界のバイヤーが参考にする「AFA製品評価ガイド」公開
  4. 企業価値は「データリテラシー」で5億ドル分の底上げも--では、御社がそれを獲得する取り組みの方法は?
  5. 問い合わせ対応業務が激変! AI技術で高精度・高速化した最新チャットボットはどうすごいのか

編集部おすすめ

トレンドまるわかり![PR]

サーバ
PC・モバイル
ストレージ
ネットワーク
仮想化
クラウドサービス
クラウドストレージ
IaaS
PaaS
プライベートクラウド
OS・ミドルウェア
開発
データベース
運用
セキュリティ
新興技術
財務・経理
人事・労務
マーケ・営業
購買・調達
生産・製造
データ分析
統計解析
テキストマイニング
ソーシャルメディア分析
BI
コミュニケーション
通信・通話
文書・コンテンツ
サイト構築
PCソフト
学習

ベンダー座談会

Follow TechRepublic Japan

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]