Amazon Redshiftのポイント
- 列指向ストレージとMPPアーキテクチャで容量に依存しない性能
- 標準SQLや既存のBIツールで分析可能
- Amazon S3をデータレイクとしてシームレスにクエリ実行可能
Amazon Redshiftの製品解説
アマゾン ウェブ サービス ジャパンの「Amazon Redshift」は、ペタバイト規模のデータを取り扱えるクラウド型のデータウェアハウス。システムの設定や監視、スケーリングといった運用の手間が不要で、オンプレミスよりも短期間で導入でき、規模の拡張も容易である。
標準的なSQL構文やビジネスインテリジェンス(BI)ツールでデータを分析できる。カスタムのJDBC/ODBCドライバのほか、標準的なPostgreSQL JDBC/ODBCドライバを使用することも可能である。
列指向ストレージ技術と超並列処理(MPP)アーキテクチャを採用することで、データセットの容量に依存しない高性能を実現している。複数のノード間でデータやクエリを分散、並列化して実行する。ノードを追加すると、自動的にデータを再分配して性能を最適化させる。
ノードに書き込んだデータはすべて、同じクラスタ内の別ノードに複製し、オブジェクトストレージサービス「Amazon Simple Storage Service(S3)」に自動的にバックアップされる。スナップショットはユーザーが指定すること1~35日間保存される。
移動中のデータ保護にはSSLを、保管中のデータ保護にはハードウェアアクセラレーション対応のAES(256ビット)を活用して暗号化する。保管中のデータの暗号化を有効にすると、書き込むすべてのデータだけでなく、バックアップデータも暗号化する。
Amazon S3のエクサバイト単位の非構造化データに対してSQLクエリを直接実行できる「Redshift Spectrum」も含まれている。ロードや変換は不要で、テキストやAvroやCSV、Grok、Ion、JSON、ORC、Parquet、RCFile、RegexSerDe、TSVなどのオープンなデータフォーマットをサポートする。
Redshift Spectrumは、取得中のデータに基づいて自動的にクエリの計算処理機能をスケーリングし、Amazon S3に対するクエリがデータセットのサイズに関係なく高速で実行されるようにしてくれる。
構造化され、頻繁にアクセスされるデータをRedshiftのローカルディスクに保存して、膨大な量の非構造化データをAmazon S3のデータレイクに保持、RedshiftとAmazon S3の間でシームレスにクエリをかけるといった使い方も可能。
用途と機能 | クラウド型データウェアハウス |
---|---|
特徴 | システムの設定や監視、スケーリングといった運用の手間が不要。カスタムのJDBC/ODBCドライバのほか、標準的なPostgreSQL JDBC/ODBCドライバにも対応。ノードを追加すると、自動的にデータを再分配して性能を最適化させる |
vCPU | メモリ(GiB) | ストレージ | 1時間あたりドル | |
---|---|---|---|---|
高密度コンピューティング(ストレージはSSD、TB単位) | ||||
dc2.large | 2 | 15 | 0.16 | 0.314 |
dc2.8xlarge | 32 | 244 | 2.56 | 6.095 |
高密度ストレージ(ストレージはHDD、TB単位) | ||||
ds2.xlarge | 4 | 31 | 2.00 | 1.190 |
ds2.8xlarge | 36 | 244 | 16.00 | 9.520 |