Precena Tech Book
コーポレートサイト採用サイト
  • はじめに
  • ソフトウェア開発
    • 開発環境構築
      • Homebrew
        • Homebrew用語の意味
      • ngrok
        • ngrokの導入
        • ngrokのアップグレード(v2 to v3)
      • Slack
        • Slackの/remind コマンドの形式
        • 対面での相談を気軽にするためのSlack設定
      • AWS CLI
      • Ruby
      • Scala
      • Prettier
      • zsh
        • zsh-completion
      • Mac
        • M1 Macでの開発環境構築(rosetta 無し)
    • バックエンド
      • OpenAPI
        • OpenAPI 定義ファイル分割のすゝめ
      • Ruby on Rails
        • ActiveRecordのfind_or_initialize_byメソッドにブロックを渡したときの挙動
        • Railsのアプリケーションサーバーのプロセス数とスレッド数の設定方法
        • Railsを6.1系から7.0系へアップグレードした時に調査したこと
        • schema.rbで差分が発生する事例とその復旧について
        • tmux + overmind を利用して、複数システムを1コマンドで起動できるよう設定する
        • Rails Migrationチートシート
        • GithubのプライベートリポジトリをGemfileで参照する方法
        • ActiveSupportのto_jsonメソッドの注意点
        • 危険なJSON出力を禁止するRuboCopカスタムルールの作成方法
      • Scala
        • Validated を直列に処理したい
      • DB
        • PostgreSQLにおける、削除行に対するロック獲得時の挙動
    • フロントエンド
      • React
        • Storybookを利用したビジュアルリグレッションテスト
  • インフラ開発
    • AWS
      • IAM
        • スイッチロールの設定手順
        • AWS CLIでのスイッチロールの設定手順
        • AWS Vaultを使ったスイッチロール設定手順
        • Github ActionsでIAMロールを利用してAWSリソースを操作する
      • ECS
      • SES
        • AWS SESメールボックスシミュレーターにて、カスタムヘッダや添付ファイル付きのテストEメールを送信する
      • CloudWatch
        • Amazon SNS + Slack Workflowを使って、CloudWatch Alarmの通知をSlackチャンネルへ投稿する
      • Lambda
        • lambrollでAWS Lambda関数をデプロイしたときのTips
    • Heroku
      • HerokuのStackの設定
      • Heroku Postgresの運用でよく使うコマンド集
  • セキュリティ
    • Web
      • Same Origin PolicyとCORS
      • 脆弱性診断 2社同時依頼実施記録
  • Mail
    • SPF、DKIM、DMARCを使用した迷惑メール対策
  • データ分析
    • データ分析プロセス
  • SaaS
    • Zendesk
      • 問い合わせフォームの項目をサービスごとに出し分け、各サービス担当者に自動で振り分けてメールで通知する
  • イベント
    • RubyKaigi
      • RubyKaigi 2023 に現地参加しました
    • EMConf
      • EMConfJP2025_参加レポート
  • やってみた
    • IoT
      • Raspberry Pi + PaSoRi + Python で、勤怠打刻マシンを作ってみた
  • Precena Tech Book 管理
    • コンテンツ執筆時のルール
  • 関連リンク
    • プレセナエンジニア公式Twitter
GitBook提供
このページ内
  • データ分析における標準プロセス
  • CRISP-DM
  • KDD
  • まとめ

役に立ちましたか?

PDFとしてエクスポート
  1. データ分析

データ分析プロセス

前へSPF、DKIM、DMARCを使用した迷惑メール対策次へZendesk

最終更新 2 年前

役に立ちましたか?

この記事では、一般的に知られているデータ分析プロセスを簡単に紹介します。

データ分析における標準プロセス

データ分析において、一般的に知られている標準プロセスには以下が存在します。

  • CRISP-DM(*1)

  • KDD(*2)

以下、それぞれについて概要を紹介します。

*1 Shearer C., The CRISP-DM model: the new blueprint for data mining, J Data Warehousing (2000); 5:13—22.

*2 Fayyad, Usama; Piatetsky-Shapiro, Gregory und Smyth Padhraic (1996), From Data Mining to Knowledge Discovery in Databases, AI Magazine, American Association for Artificial Intelligence, California, USA, Seite 37–54.

CRISP-DM

Shearerらが提唱しているCRISP-DM(CRoss Industry Standard Process for Data Mining)では、次の図のようなプロセスにしたがって、データ分析を行います。

No
プロセスの要素
詳細

1

ビジネス理解

ビジネスにおける課題を明確にし、データ分析プロジェクトの計画を立てます。

2

データ理解

データを取得し、そのデータが分析に使える状態であるか確かめるなどの探索的データ分析を実施して、データの理解を深めます。

3

データ準備

後続のモデリングで要求される形式にデータを整形するなどの、前処理を実施します。

4

モデリング

分析モデル(予測をするためのアルゴリズム)を決め、 前のプロセスで準備したデータをモデルに学習させます。

5

評価

次は、前のプロセスで作成したモデルを使って、実際に分析を行い、このモデルよる予測がビジネスに利用可能であるかを評価します。

6

適用

評価した結果、問題がなければ、そのモデルによる予測をビジネスに適用して、使います。

図にも表現されているように、CRISP-DMでは、必要に応じて前後のプロセスを行き来しながら分析を進めます。

KDD

CRISP-DMがビジネスにおけるデータ分析プロジェクト全体を考慮しているのに対し、Fayyadらが提唱しているKDD(Knowledge Discovery in Databases *3)は、よりデータ分析部分にフォーカスしています。

KDDのプロセスは次の図のようになります。

No.
プロセスの要素
詳細

1

データ取得

対象ドメインを理解し、顧客視点から分析の目標を定めた後、必要なデータを取得します。

2

データ選択

取得したデータから、データマイニングに必要なものを選択します。

3

データクレンジング

目的データに対して、外れ値の除去や欠損値への対応などのクレンジングを行います。

4

データ変換

クレンジング済データを、データマイニングに必要な形式に変換します。

5

データマイニング

変換済データに対し、回帰や分類、その他手法などを使ってパターンを抽出する。

6

解釈・評価

データマイニングを行った結果から得られたパターンを解釈し、評価します。

図を見るとわかりますが、KDDにおいても、必要に応じて、前段のプロセスへ戻る可能性があることが明確にプロセスに組み込まれています。

*3 Fayyad, Usama; Piatetsky-Shapiro, Gregory und Smyth Padhraic (1996), From Data Mining to Knowledge Discovery in Databases, AI Magazine, American Association for Artificial Intelligence, California, USA, Seite 37–54.

まとめ

実際の実務においては、ビジネス理解が必須になるため、どちらかというとCRISP-DMのプロセスが実態に近いですが、データ分析部分のプロセスとして、KDDの考え方も参考にはなるでしょう。

本サイトの更新情報は、Twitterので発信しています。ご確認ください。

株式会社プレセナ・ストラテジック・パートナーズエンジニア公式
CRISP-DMにおけるデータ分析プロセス
KDDにおけるデータ分析プロセス