Pentahoのポイント
- マウスのドラッグ&ドロップで分析データパイプラインを作成
- 基本的なデータプロファイリングや文字列操作などの品質向上ツールも用意
- インメモリキャッシングを活用、ドリルスルーなども可能
Pentahoの製品解説
「Pentaho」はビジネスインテリジェンス(BI)ツール。基幹系システムなどからデータを抽出、変換してクレジングするETLなどの「Pentaho Data Integration」とデータを分析するための「Pentaho Business Analytics」で構成される。
対応するリレーショナルデータベース(RDBMS)はOracle DatabaseやIBM DB2、Microsoft SQL Server、MySQL。HadoopディストリビューションはClouderaやHortonworks、MapR、Amazon Elastic MapReduce(EMR)。NoSQLではMongoDBやCassandra、HBaseに対応。Apache SparkやApache Kafkaにも対応する。
データウェアハウスはVerticaやGreenplum、Teradata、SAP HANA、Amazon Redshift。SalesforceやGoogle Analyticsなどのアプリケーションからも取り込める。XMLやJSON、Excel、CSV、テキストなどのファイルも取り込める。
マウスのドラッグ&ドロップで分析データパイプラインを作成可能。RDBMSなどのデータソースは、データを抽出、準備、ブレンドするためのライブラリが用意され、ユーザー企業ごとにカスタマイズできる。データ準備プロセスでは任意のポイントでチャートや可視化、レポーティングが可能。
行数カウントや数学関数など基本的なデータプロファイリング機能と文字列操作やマッピング関数、フィルタリング、並べ替えなどのデータ品質に関する機能も提供される。データ品質では、統一されていないデータや重複データの比重複化とクレンジング、住所やメールアドレス、電話番号の検証や標準化などに対応している。
データ分析のユーザーインターフェース(UI)はウェブブラウザベースに対応。レポーティングやダッシュボードといった機能が利用できる。レポーティングではインメモリキャッシング技術を活用して、エンドユーザーの思考に追い付くようにしている。ダッシュボードはマウスでのドリルスルーやフィルタコントロールなどが可能となっている。
用途と機能 | BIツール |
---|---|
特徴 | データソースは、データを抽出、準備、ブレンドするためのライブラリが用意され、ユーザー企業ごとにカスタマイズ。データ品質では、統一されていないデータや重複データの比重複化とクレンジング、住所やメールアドレス、電話番号の検証や標準化などに対応。ダッシュボードはマウスでのドリルスルーやフィルタコントロールなどが可能 |
導入企業 | BT、Caterpillar Marine Asset Intelligence、NASDAQなど |