データ分析プロセス
最終更新
最終更新
この記事では、一般的に知られているデータ分析プロセスを簡単に紹介します。
データ分析において、一般的に知られている標準プロセスには以下が存在します。
CRISP-DM(*1)
KDD(*2)
以下、それぞれについて概要を紹介します。
*1 Shearer C., The CRISP-DM model: the new blueprint for data mining, J Data Warehousing (2000); 5:13—22.
*2 Fayyad, Usama; Piatetsky-Shapiro, Gregory und Smyth Padhraic (1996), From Data Mining to Knowledge Discovery in Databases, AI Magazine, American Association for Artificial Intelligence, California, USA, Seite 37–54.
Shearerらが提唱しているCRISP-DM(CRoss Industry Standard Process for Data Mining)では、次の図のようなプロセスにしたがって、データ分析を行います。
1
ビジネス理解
ビジネスにおける課題を明確にし、データ分析プロジェクトの計画を立てます。
2
データ理解
データを取得し、そのデータが分析に使える状態であるか確かめるなどの探索的データ分析を実施して、データの理解を深めます。
3
データ準備
後続のモデリングで要求される形式にデータを整形するなどの、前処理を実施します。
4
モデリング
分析モデル(予測をするためのアルゴリズム)を決め、 前のプロセスで準備したデータをモデルに学習させます。
5
評価
次は、前のプロセスで作成したモデルを使って、実際に分析を行い、このモデルよる予測がビジネスに利用可能であるかを評価します。
6
適用
評価した結果、問題がなければ、そのモデルによる予測をビジネスに適用して、使います。
図にも表現されているように、CRISP-DMでは、必要に応じて前後のプロセスを行き来しながら分析を進めます。
CRISP-DMがビジネスにおけるデータ分析プロジェクト全体を考慮しているのに対し、Fayyadらが提唱しているKDD(Knowledge Discovery in Databases *3)は、よりデータ分析部分にフォーカスしています。
KDDのプロセスは次の図のようになります。
1
データ取得
対象ドメインを理解し、顧客視点から分析の目標を定めた後、必要なデータを取得します。
2
データ選択
取得したデータから、データマイニングに必要なものを選択します。
3
データクレンジング
目的データに対して、外れ値の除去や欠損値への対応などのクレンジングを行います。
4
データ変換
クレンジング済データを、データマイニングに必要な形式に変換します。
5
データマイニング
変換済データに対し、回帰や分類、その他手法などを使ってパターンを抽出する。
6
解釈・評価
データマイニングを行った結果から得られたパターンを解釈し、評価します。
図を見るとわかりますが、KDDにおいても、必要に応じて、前段のプロセスへ戻る可能性があることが明確にプロセスに組み込まれています。
*3 Fayyad, Usama; Piatetsky-Shapiro, Gregory und Smyth Padhraic (1996), From Data Mining to Knowledge Discovery in Databases, AI Magazine, American Association for Artificial Intelligence, California, USA, Seite 37–54.
実際の実務においては、ビジネス理解が必須になるため、どちらかというとCRISP-DMのプロセスが実態に近いですが、データ分析部分のプロセスとして、KDDの考え方も参考にはなるでしょう。
本サイトの更新情報は、Twitterの株式会社プレセナ・ストラテジック・パートナーズエンジニア公式で発信しています。ご確認ください。