データサイエンスは、データから知識を抽出することに取り組む分野だ。分かりやすく言うと、大量のデータセットに科学的な概念を適用して、詳細な情報を取り出し、高レベルの意思決定に使えるようにする。現在も続くCOVID-19の世界的な感染拡大を例に考えてみよう。政府関係者は、接触追跡、感染率、死亡率、位置情報データなど、さまざまなソースから取得したデータセットを分析することで、影響を受けている地域や、現行のサポートモデルの最善の調整方法を特定し、支援が最も必要とされる場所に対応しつつ、感染率の抑制に取り組んでいる。
複数のデジタルソースから収集される大規模データセットの集合体は、ビッグデータと呼ばれることが多い。これらのデータセットは、サイズが非常に大きく、多様性(データの種類)に富み、高速(データ収集のスピード)になる傾向がある。その原因は、全世界で情報の増加とデジタル化が猛烈な勢いで進行し、この大規模なデータプールを保存、処理、分析する能力が向上していることだ。
データサイエンスは、チューリング賞を獲得したコンピューターサイエンティストのJim Gray氏が提唱したように、経験科学、理論科学、計算科学に続く「第4のパラダイム」、すなわちデータ駆動型科学であると考えられている。以下で紹介するプログラミング言語は、この点を踏まえたものだ。大規模なデータセットを効率的に処理して、複数のデータソースを強力に結合できるように設計されており、データマイニングや機械学習などのデータストリーム内に存在する現象の把握と理解に必要な情報を、効果的に抽出することができる。
「Python」
ソフトウェア開発者とデータサイエンティストがともに高く評価するPythonは、その使いやすさと動的な性質から、頼りになるプログラミング言語であることを実証してきた。安定性の高い成熟した言語であり、もちろん高性能アルゴリズムと互換性があるため、広範なエコシステムでサポートされる豊富なライブラリーを通じて、機械学習、予測分析、人工知能(AI)といった高度な技術とのインターフェースが可能だ。ディープラーニング言語としての強みがあるほか、サポートされるOSの多様さも並ぶものがないほどで、ほぼどんなソースからのデータもネイティブに処理することができる。
残り本文:約1550文字 ログインして続きを読んでください。