1.データの特徴によって配置を考える
1-1.データ密度
データ密度とは、バイト単価あたりの価値といっても過言ではありません。例えば、口座からの送金データと、ウェブサイト上での閲覧ログデータは同じデータ容量であってもバイトあたりの価値が異なります。センサなどの機器データやウェブのログデータ、ソーシャルネットワーキングサービス(SNS)のような「データ密度の低いデータ」はHadoopに保管し、従来のトランザクションデータやマスタデータなどはRDBMSに保管します。
1-2.フォーマット頻度
IoTに関連した組み合わせ方です。データを読み取る際に格納されたデータフォーマットを動的に解釈する「Schema-on Read」の特性を生かし、センサなどのIoT機器をはじめとしてデータ属性の種類や数が頻繁に変わるデータをHadoopに蓄積し、トランザクションデータやマスタデータをRDBMSに保管するパターンです。
1-3.データの粒度
「バイトあたりの保持コストが低い」というHadoopの特性を生かすパターンです。例えば、POSシステムの全量あるいは明細データをRDBMSで保持するにはコスト面で厳しいという場合、HadoopにPOSデータを保管して分散処理でサマリを作成、そのサマリ結果をRDBMSに配置します。ポイントとなるのは、必要に応じてRDBMSのサマリデータからどれだけ迅速かつ容易にHadoopの明細データへドリルダウンできるかです。
1-4.データの鮮度
時間がたつにつれて参照頻度が低くなるデータをバイト単価の低いHadoopに保持し、必要なときに活用できるようにするパターンです。企業が保有するデータ全体の数%にあたる直近データが、データアクセスの95%を占めるような状況で特に効果的です。また金融業界のように、法令対応などのために過去データを一定期間保管しなければならない場合にも有効な組み合わせです。
2.データ処理によって配置を考える
これはもう少しシンプルな考え方です。データウェアハウスへのETL(データの抽出、変換、ロード)処理をHadoopの分散処理技術で実行するというものです。ETL処理をする前の生データをHadoopで蓄積し、その環境の中でETL処理を実行します。ETL処理後は、RDBMSにデータを移動するか、RDBMSからアクセスできるようにします。データの保管コストが低く、分散処理に優れたHadoopの得意分野を最大限に活用するパターンです。

ビッグデータ活用のためのデータ管理基盤については、上記のような構築パターンが考えられます。それに加えて、ビッグデータを活用し、さらなる価値を創出するためには、“データサイエンティスト”と呼ばれるデータ分析の専門家だけでなく、ビジネスユーザーやアプリケーションがデータを利用できる状態にしておく必要があります。
つまり、使い慣れた技術やツールを利用できるようにしておくことが成功のカギといえるでしょう。データを適材適所に配置し、高速で信頼性が高く安全に活用できるビッグデータ管理基盤が求められているのです。

次は技術的な視点から、HadoopとRDBMSの組み合わせを考えてみましょう。日本オラクルでは、RDBMSとHadoopをそれぞれ中心とした2つのアプローチを提供しています。
- 立山 重幸
- 日本オラクル株式会社
クラウド・テクノロジー事業統括 - Cloud/Big Data/DISプロダクト本部 プリンシパルセールスコンサルタント
ビッグデータに関する基盤エンジニア。HadoopとOracle Databaseの連携技術を生業とする。分かりにくい技術を分かった気にさせる説明をすることがモットー。
- 大橋 雅人
- 日本オラクル株式会社
クラウド・テクノロジー事業統括 - Cloud/Big Data/DISプロダクト本部 担当マネージャ
Hadoopなどのインフラから分析ソリューションまでオラクルのビッグデータソリューション製品の戦略ビジネス開発/推進を担当。ビッグデータからのさまざまな価値創出を少しでも多くのお客さまにお伝えするために日々精進中。