본문 바로가기
ADSP

[ADSP] #3. 데이터 분석 기획

by yyezzi 2025. 11. 2.
반응형

🚨 과락 조심! - 이해/암기 필수!

 

* 분석 기획 정의: 분석 수행 전 계획하는 작업

* 분석 기획 특징: 수학/통계학적 지식, 데이터/프로그래밍 기술, 비즈니스 이해/전문성 등 요구됨

⭐️ 분석 대상과 방법에 따른 4가지 분석 주제

- 해결해야 할 문제, 분석 대상이 무엇인지 알고, 분석 방법도 알고 있다면 → '최적화'

- 분석 대상이 무엇인지 알지만 분석 방법을 모른다면 → '솔루션'

- 분석 대상이 무엇인지 모르고, 분석 방법도 모른다면 → '발견'

- 분석 대상이 무엇인지 모르지만 분석 방법을 알고 있다면 → '통찰력'

 

⭐️ 목표 시점별 분석 기획

     - 과제 중심적인 접근 방식: 과제를 빠르게 해결해야하는 경우

     - 장기적인 마스터플랜 방식: 지속적인 분석 내재화를 위한 경우 

 

⭐️ 분석 기획 시 고려사항

     1) 가용 데이터 고려(Available Data): 데이터 확보 가능한지 고려하고, 데이터 유형 분석이 선행적으로 이루어져야 한다.

    2) 적절한 활용방안과 유스케이스의 탐색(Proper Business Use Case): 유사 분석 시나리오, 솔루션을 최대한 활용하자.

    3) 장애요소에 대한 사전 계획 수립(Low Barrier Of Execution): 지속적 교육/활용방안 등 변화 관리 가 고려되어야 한다.

 

✨ 분석 방법론 구성 

   - 상세한 절차

   - 방법

   - 도구와 기법

   - 템플릿과 산출물

 

⭐️ 기업의 합리적인 의사결정을 가로막는 방해요소

     - 고정관념

     - 편향된 생각

     - 프레이밍 효과: 동일한 사건/상황에서 개인의 판단/선택이 달라질 수 있다.

 

⭐️ 분석 방법론의 생성 과정

 

* 분석 방법론이 적용되는 업무 특성에 따른 모델

   1) 폭포수 모델

       - 단계를 거쳐 순차적으로 진행되는 방법

       - 이전 단계가 완료되어야 다음 단계로 진행 가능한 하향식 방향

       - 문제/개선사항 발견 시 바로 이전 단계로 돌아가 피드백 과정을 진행

   2) 프로토타입 모델

       - 폭포수 모델 단점 보완을 위해 점진적으로 시스템을 개발해나가는 방식

       - 고객의 요구를 완전히 이해하지 못하는 경우 적용

       - 일부분 먼저 개발 후 사용자에게 제공 → 사용자의 요구 분석, 정당성 점검, 성능 평가 결과로 개선 작업 시행

   3) 나선형 모델

        - 반복을 통해 점진적으로 개발하는 방법

        - 프로토타입 모델과 유사, but 사용자의 요구보다 위험요소를 사전에 제거하는 것에 초점

        - 처음 시도하는 프로젝트에 적용 용이, 관리 체계를 효과적으로 갖추지 못하면 복잡도 상승

   4) 계층적 프로세스 모델

        - 일반적으로 분석 방법론의 구성

        - 최상의 몇 개 단계로 구성 → 하나의 단계 = 여러 개의 태스크 → 하나의 태스크 = 여러 개의 스텝 (보통 5단계 사용)

        - 스텝은 WBS(Work Breakdown Structure)의 워크패키지에 해당, [입력 자료, 처리 및 도구, 출력]으로 구성된 단위 프로세스

단계(Phase) 프로세스 그룹을 통해 완성된 단계별 산출물 생성, 버전 관리 등을 통한 통제 필요
태스크(Task) 단계를 구성하는 단위 활동, 물리적/논리적 단위로 품질 검토의 항목이 될 수 있음
스텝(Step) WBS의 워크패키지에 해당, [입력 자료, 처리 및 도구, 출력 자료]로 구성된 단위 프로세스

 

⭐️ KDD 분석 방법론

     - 데이터로부터 통계적 패턴이나 지식을 찾기위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스

⭐️⭐️⭐️ KDD 분석 방법론 프로세스: 데이터셋 선택 → 데이터 전처리 → 데이터 변환 → 데이터 마이닝 → 결과(해석) 평가

1) 데이터셋 선택

    - 데이터셋 선택에 앞서 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정 필수

    - 데이터베이스에서 분석에 필요한 데이터를 선택하는 단계 (타깃 데이터 생성)

2) 데이터 전처리

     - 잡음, 이상치, 결측치를 파악하여 제거하거나 의미 있는 데이터로 재가공

     - 추가로 요구되는 데이터셋이 있을 경우 데이터 선택 프로세스 재실행

3) 데이터 변환

     - 정제된 데이터에 분석 목적에 맞는 변수 생성/선택하고, 데이터 자원을 축소

     - 데이터마이닝 프로세스 진행을 위해 데이터셋 변경

4) 데이터 마이닝

     - 학습용 데이터를 이용하여 분석 목적에 맞는 데이터 마이닝 기법 선택

     - 적절한 알고리즘을 적용하여 데이터마이닝 작업 실행

     - 필요에 따라 데이터 전처리와 프로세스 추가 실행

5) 해석과 평가

     - 데이터마이닝 결과에 대한 해석, 평가, 분석 목적과의 일치성 확인

     - 발견한 지식을 업무에 활용하기 위한 방안 마련

     - 필요에 따라 데이터 선택 프로세스, 데이터마이닝 프로세스 반복 수행

 

* CRISP-DM 분석 방법론

   - KDD보다 세분화되어 있다.

   - 단계간 피드백을 통해 단계별 완성도를 높인다.

 

* KDD 분석 방법론과 차이점

   - 프로세스에 '이해' 단계가 있다!

 

* CRISP-DM 분석 방법론 프로세스

   1) 업무 이해: 데이터 마이닝 목표 설정, 프로젝트 계획 수립

   2) 데이터 이해: 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인

   3) 데이터 준비: 분석용 데이터셋 선택, 데이터 정제, 데이터 통합, 데이터 포맷팅

   4) 모델링: 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가

   5) 평가: 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가

   6) 전개: 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 리뷰

   

빅데이터 분석 방법론 - 계층적 프로세스 모델 (단계 - 태스크 - 스텝) 

 

⭐️ 빅데이터 분석 방법론 5단계 플로우

     1) 분석 기획

         - 비즈니스 이해 및 범위 설정: SOW(프로젝트 범위 정의서)

         - 프로젝트 정의 및 계획 수립: WBS

         - 프로젝트 위험계획 수립

            # 데이터 분석 위험 식별: 위험의 우선순의 설정

            # ⭐️위험 대응 계획 수립: 회피, 전이, 완화, 수용으로 구분하여 위험관리 계획서 작성

 

     2) 데이터 준비

          - 필요 데이터 정의: 데이터 정의, 데이터 획득방안 수립

          - 데이터 스토어 설계: 정형/비정형 데이터 스토어 설계

          - 데이터 수집 및 정합성 점검

 

     3) 데이터 분석

          - 분석용 데이터 준비: 비즈니스 룰 확인, 분석용 데이터셋 준비

          - 텍스트 분석

          - 탐색적 분석: EDA(탐색적 데이터 분석), 데이터 시각화

          - ⭐️모델링

              # 데이터 분할: 훈련용/테스트용 데이터

              # 데이터 모델링: 기계학습, 모델링 결과 보고서

              # 모델 적용 및 운영 방안: 모니터링 방안 수립, 알고리즘 설명서 작성, 의사코드

          - 모델 평가 및 검증

 

     4) 시스템 구현 (필요시 진행!)

          - 설계 및 구현

          - 시스템 테스트 및 운영

 

     5) 평가 및 전개

          - 모델 발전 계획 수립 (데이터 분석에 해당되지 않음 주의!)

          - 프로젝트 평가 및 보고

 

* 분석 과제 발굴

  1. 하향식 접근법: 문제탐색 → 문제정의 → 해결방안 탐색 → 타당성 평가

     1) 문제 탐색 단계

         - 비즈니스 모델 기반 문제 탐색

            • 업무: 생산 공정 최적화, 재고량 최소화

            • 제품: 제품의 주요 기능 개선, 서비스 모니터링 지표 도출

            • 고객: 고객 콜 대기 시간 최소화, 영업점 위치 최적화

            • 규제와 감사: 제공 서비스 품질의 이상 징후 관리, 새로운 환경 규제 시 예상되는 제품 추출

            • 지원 인프라: BDW 최적화, 적정 운영 인력 도출

 

         - 분석 기회 발굴의 범위 확장

             # ⭐️ 거시적 관점의 메가 트랜드

                    • Social(사회)

                    • Technological(기술)

                    • Economic(경제)

                    • Environmental(환경)

                    • Political(정치)
             # 경쟁자 확대 관점: 위협이 될 수 있는 상황에 대한 분석 기회 발굴 - 대체재, 경쟁자, 신규 진입자

             # 시장의 니즈 탐색 관점: 고객, 채널, 영향자

             # 역량의 재해석 관점: 내부 역량, 파트너와 네트워크

 

         - 외부 참조 모델 기반 문제 탐색 및 분석 유케이스 정의

 

     2) 문제 정의 단계: 비즈니스 문제를 데이터의 문제로 변환

     3) 해결 방안 탐색 단계 

     4) 타당성 검토 단계  

         - 경제적 타당성

         - 데이터 및 기술적 타당성

 

2. 상향식 접근법

    - 디자인 사고: 첫 단계 감정 이입(Empathize) 강조

    1) 지도학습

        - 정답이 있는 데이터를 활용해 분석 모델을 학습시키는 것

        - 사용자의 주도 하에 분석을 실시하고 지식을 도출하는 것이 목적

        - ex: 머신러닝, 의사결정 트리, 인공신경망 모형, 분류 분석

 

    2) 비지도학습

         - 정답을 알려주지 않고 학습하는 것

         - 비슷한 특징의 데이터끼리 군집화하여 새로운 데이터에 대한 결과를 예측

         - 일반적으로 상향식 접근방식의 데이터분석은 비지도학습에 의해 수행

         - ex: 장바구니 분석, 기술통계, 프로파일링, 군집 분석

 

     3) 프로토타이핑 접근법(시행착오를 통한 문제 해결)

          - 결과를 확인하면서 반복적으로 개선

          - 프로세스: 가설의 생성 → 디자인에 대한 실험 → 실제 환경에서의 테스트 → 테스트 결과로부터 인사이트 도출 및 가설 확인

          - 문제 인식 수준이 낮거나 불명확한 경우 활용

          - 필요 데이터 존재 여부가 불확실한 경우 활용

          - 데이터 사용 목적이 고정되지 않고 변화할 경우 활용

 

* 분석 프로젝트 관리

   - 분석 과제의 5가지 주요 속성

      • 데이터의 양

      • 데이터 복잡도 

      • 분석의 속도

      • 분석 복잡도

      • 정확도 & 정밀도

         # 정확도: 모델과 실제값 간 차이가 적다 → 분석 활용 측면

         # 정밀도: 반복적으로 모델을 사용했을 때 모델 값들의 편차 수준 → 안정성 측면

 

* 분석 과제 관리 방안

   - 통합

   - 이해관계자

   - 자원

   - 시간: Time Boxing 기법(분석 결과에 대한 품질이 보장된다는 전제, but 철저한 통제X)

   - 원가

   - 리스크

   - 품질

   - 조달

   - 의사소통

✏️ Time Boxing 기법이란?
     : 현재 할당된 작업이 주어진 시간 동안 완수되지 못했더라도 다음 작업으로 넘어가는 방법
반응형

'ADSP' 카테고리의 다른 글

[ADSP] #4. 분석 마스터플랜, R  (0) 2025.11.06
[ADSP] #2. 데이터의 가치와 미래  (0) 2025.10.31
[ADSP] #1. 데이터와 정보  (1) 2025.10.30