データ分析プロセス
この記事では、一般的に知られているデータ分析プロセスを簡単に紹介します。
データ分析における標準プロセス
データ分析において、一般的に知られている標準プロセスには以下が存在します。
CRISP-DM(*1)
KDD(*2)
以下、それぞれについて概要を紹介します。
*1 Shearer C., The CRISP-DM model: the new blueprint for data mining, J Data Warehousing (2000); 5:13—22.
*2 Fayyad, Usama; Piatetsky-Shapiro, Gregory und Smyth Padhraic (1996), From Data Mining to Knowledge Discovery in Databases, AI Magazine, American Association for Artificial Intelligence, California, USA, Seite 37–54.
CRISP-DM
Shearerらが提唱しているCRISP-DM(CRoss Industry Standard Process for Data Mining)では、次の図のようなプロセスにしたがって、データ分析を行います。
図にも表現されているように、CRISP-DMでは、必要に応じて前後のプロセスを行き来しながら分析を進めます。
KDD
CRISP-DMがビジネスにおけるデータ分析プロジェクト全体を考慮しているのに対し、Fayyadらが提唱しているKDD(Knowledge Discovery in Databases *3)は、よりデータ分析部分にフォーカスしています。
KDDのプロセスは次の図のようになります。
図を見るとわかりますが、KDDにおいても、必要に応じて、前段のプロセスへ戻る可能性があることが明確にプロセスに組み込まれています。
*3 Fayyad, Usama; Piatetsky-Shapiro, Gregory und Smyth Padhraic (1996), From Data Mining to Knowledge Discovery in Databases, AI Magazine, American Association for Artificial Intelligence, California, USA, Seite 37–54.
まとめ
実際の実務においては、ビジネス理解が必須になるため、どちらかというとCRISP-DMのプロセスが実態に近いですが、データ分析部分のプロセスとして、KDDの考え方も参考にはなるでしょう。
本サイトの更新情報は、Twitterの株式会社プレセナ・ストラテジック・パートナーズエンジニア公式で発信しています。ご確認ください。
最終更新