データ分析

 データ分析とは、ビジネスにおける課題解決や意思決定の支援を目的として、音声や画像、テキストといった様々なデータを集計・加工・可視化する一連のプロセスのことを指します。データ分析のプロセスは主に、「① 分析目的の明確化、② 課題・仮説の設定、③ データの収集、④ データの加工・分析、⑤ 分析結果の活用」の5つで構成されます。

 「④データの加工・分析」で使用するデータ分析手法の主なカテゴリとして、以下の3つが挙げられます。

要約

 平均値や合計値といった要約統計量の算出や、主成分分析のように多数の量的変数を合成変数に集約することによって、わかりやすく変数(要因)を纏める手法のこと。

分類

 データの中から似たような特徴や値を持つものを集めてグループ化する手法のこと。グループ化したデータの出力結果の違いを元に、主に階層的手法と非階層的手法に分類されます。

予測

 過去のデータの傾向から、統計学的手法や機械学習によるモデリングによって将来における目的変数(何等かの原因によって影響を受けた結果を表す変数)の値を予測する手法のこと。

 上記の他にも、例えば定性的にデータを見て相関関係があるかを確認したり、外れ値から新しい知見を得る、といった手法もあります。設定した意思決定の内容や集計したデータの種類に応じて、データ分析のフェーズで使用する手法を適切に選択することが必要となります。

 また、様々なデータから迅速に意思決定を行いたいという需要から、上記の手法を用いてデータ分析プロセスの一部を自動で行うことができるサービスも数多く開発されています。近年では、難易度の高い機械学習モデルの実装の簡易化やデータカタログと呼ばれる膨大なデータの管理を可能としたツールも多く登場しています。