“シチズンデータサイエンティスト”が注目されている。
人間の言葉や行動履歴なども含めて、さまざまなものがコンピュータで計算、処理できるようになったビッグデータ社会で注目されてきたのが、“21世紀で最もセクシーな職業”として有名なデータサイエンティストだ。データサイエンティストとシチズンデータサイエンティストはどこが違うのだろうか? “シチズン(市民)”は何を意味するのだろうか?
データサイエンティストにはさまざまな定義があるかもしれないが、最終的には統計学の専門家というところは共通している(データサイエンティストという言葉を世に広めた論文により詳細に記述されている)。製品でいえば、「IBM SPSS」や「SAS」、オープンソースソフトウェア(OSS)の「R」などを使いこなせるとともに、並列分散処理プログラミングフレームワーク「Apache Hadoop」やPythonでソフトウェアを書ける、最近で言えば、機械学習も活用できる人材、それがデータサイエンティストと定義することもできるだろう。
しかし、TechRepublicでMary Shacklett氏が書いているように「すべての企業にデータサイエンティストを雇う余裕があるわけではない」。データ活用を重視する動きが増幅していることから引く手あまたの人材であり、どこにでも転がっているという人材ではない。
そこで、この1年で出てきたのがシチズンデータサイエンティストという存在だ。シチズンという言葉の裏には、データサイエンティストという少数の専門家だけではなく、より多くの人間がデータを分析できるようにすべきである、つまりデータ分析を“民主化"すべきであるという意味合いが込められていると取れる。
この論理の延長線には、少数の専門家による分かりづらい専門知識だけに基づくのではなく、専門家に加えて営業やマーケティング、財務や経理、工場といった量産部門などさまざまな部門がデータを分析して議論を経た上で、製品やサービスを開発したり、営業施策を展開したりした方がいいということが見えてくる。すなわち、企業の意思決定は、客観的なデータを起点にすべきだが、その議論にはより多くが参加すべきという考えだ(政治の世界で言う民主化とのアナロジーで考えれば分かりやすいだろう)。
データ分析を民主化
2015年6月にガートナー ジャパンが開催したイベント「ビジネス・インテリジェンス&アナリティクス サミット 2015」の講演「ビッグ・データ・ディスカバリ:次世代のセルフサービスBI」でGartnerのリサーチ部門バイスプレジデントであるCindi Howson氏はシチズンデータサイエンティストの必要性を強調した。
その必要性とは、ビジネスの状況を分析するインフォメーションアナリストとデータサイエンティストが“分断”されているという状況を踏まえ、インフォメーションアナリストとデータサイエンティストの間を補うものとしてシチズンデータサイエンティストがいるというものだ。

Gartner リサーチ部門バイスプレジデント Cindi Howson氏
インフォメーションアナリストとデータサイエンティストの間の分断は、それぞれが活用するビジネスインテリジェンス(BI)ツールから見えてくる。データサイエンティストが活用するのは、先に挙げた通りSPSSやSASなどだが、インフォメーションアナリストが活用するのがQlik TechnologiesやTableau、Microsoftの「Power BI」、TIBCO Softwareの「Spotfire」などのデータディスカバリだ。
“セルフサービスBI”とも呼ばれるデータディスカバリは、ユーザー部門のエンドユーザーがクライアントPCにあるデータやデータウェアハウス(DWH)に格納されている全社的なデータ、あるいは社外にあるデータ、オープンデータなどを分析するが、セルフサービスという言葉が示す通り、IT部門が介入することなく使えるのが売りのひとつだ。
データディスカバリについてHowson氏は「使いやすく、迅速性があるが、探索の深みがない、複雑な分析には適していない」と指摘する。データディスカバリは、グラフィカルに表示されるデータをクリックしてドリルダウンして詳細を見ることができる。データ分析のハードルを下げることが目的と言えるデータディスカバリは使いやすさを優先しており、複雑な分析への対応は考慮していない。
つまりは、何が起きたのかを知る「記述的(Descriptive)」、なぜ起こったかを知る「診断的(Diagnostic)」に対応できる。だが、今後何が起きるのかを知る「予測的(Predictive)」、その時に何をすべきかを知る「処方的(Prescriptive)」には対応しない。