32회 데이터분석 준전문가 (ADsP)
Study log (D - 21)
Last update : 2022.02.05.토
2022. © Jalynne.log
# 나를 위한 공부 로그
# 테이블이 많으니 컴퓨터로 보기
# 구조화 해서 기억하기
3과목 - 데이터 분석 기획 (객관식 8문항, 단답형 2문항)
1장. 데이터 분석 기획의 이해
- 분석 기획 방향성 도출
- 분석 방법론
- 분석 과제 발굴
- 분석 프로젝트 관리 방안
< 분석 기획 방향성 도출 >
① 분석 기획이란?
- 실제 분석을 수행하기에 앞서, 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업
- 어떤 목표 (what)를 달성하기 위해 (why) 어떤 데이터를 가지고 어떤 방식 (how)으로 수행할 지에 대한 일련의 계획을 수립하는 작업
- 성공적인 분석 결과 도출을 위한 중요 사전작업
- 해당 문제 영역에 대한 전문성 역량 (Domain knowledge)및 통계학적 지식을 활용한 분석 역량 (Math & Statistics)과, 분석 도구인 데이터 및 프로그래밍 기술 역량 (Information technology)에 대한 균형잡힌 시각을 가지고 방향성 및 계획을 수립해야 함.
② 분석 주제 유형 4가지
: 분석의 대상 (what), 분석의 방법 (how)에 따라 4가지로 구분
분석 주제 유형 분류 | 대상 (What) | ||
Known | Un-known | ||
방법 (How) | Known | 최적화 (Optimization) *분석 대상 및 분석 방법을 이해하고, 현 문제를 최적화의 형태로 수행 |
통찰 (Insight) *분석 대상이 불분명하고, 분석 방법을 알고 있는 경우 인사이트 도출 |
Un-known | 솔루션 (Solution) *분석 과제는 수행되고, 분석 방법을 알지 못하는 경우, 솔루션을 찾는 방식으로 분석 과제를 수행 |
발견 (Discovery) *분석 대상, 방법을 모른다면 발견을 통해 분석 대상 자체를 새롭게 도출 |
* 분석대상 알면 OS // 모르면 ID
* 특정한 주제에 대한 분석이라도, 위의 네 가지 유형을 넘나들며 분석을 수행함.
③ 목표 시점 별 분석 기획 방안
: 과제 중심적인 접근 방식의 단기방안, 마스터플랜 단위의 중장기 방안으로 구분
분류 | 과제 단위 - 당면한 분석 주제의 해결 |
마스터플랜 단위 - 지속적 분석 문화 내재화 |
1차목표 | Speed & Test | Accuracy & Deploy |
과제의 유형 | Quick - Win (단기적) |
Long Term view (중장기적) |
접근 방식 | Problem solving (문제 해결) | Problem definition (과제 정의) |
*Quick Win : 즉각적인 실행을 통한 성과 도출 (프로세스 진행 과정에서 일반적인 상식과 경험으로 원인이 명백한 경우 바로 개선함으로써 과제를 단기로 달성하고 , 추진하는 과정)
→ 두 가지를 융합적으로 적용하는 것이 바람직함.
→ 프로젝트 관리 역량과 리더십 역량이 필요함.
< 출제 유형 >
1. 목표 시점별로 당면한 과제를 빠르게 해결하는 과제 중심적인 접근 방식의 특징이 아닌 것은?
④ 분석 기획시 고려 사항
가용한 데이터 (Available data) |
- 분석을 위한 데이터 확보 - 데이터 유형에 따라 적용 가능한 solution 및 분석 방법이 다름 - 데이터의 *유형 분석이 선행적으로 이루어져야 함 (정형, 비정형, 반정형) |
적절한 유스케이스 탐색 (Proper use-case) |
- 유사 분석 시나리오 및 솔루션이 있다면 최대한 활용 - 바퀴를 재 발명 하지 마라.!! |
장애 요소들에 대한 사전 계획 수립 (Low barrier of execution) |
- 장애 요소들에 대한 사전 계획 수립 필요 - 일회성 분석으로 그치지 않고 조직 역량을 내재화 하기 위해서는 충분하고 계속적인 교육 및 활용방안 등의 변화 관리가 고려되어야 함. |
< 출제 유형 >
1. 분석 기획 고려 사항에 대한 부적절한 설명은?
2. 분석 과제 기획 시 고려요소가 아닌 것은?
⑤ 데이터의 유형 및 저장 방식
데이터의 유형 | 특징 | 예시 |
정형 데이터 | 형태( 고정된 필드)가 있으며 연산이 가능. 주로 관계형 DB (RDBMS)에 저장 됨. 데이터 수집 난이도가 낮음. 내부 시스템인 경우가 대부분. 파일 형태라도 내부에 형식을 가지고 있음. |
관계형 데이터베이스, 스프레드시트, CSV 등 저장 방식 : ERP , CRM Transaction data, Demand Forecast |
반정형 데이터 | 형태( 스키마, 메타데이터)가 있으며 연산이 불가능. 주로 파일에 저장됨. 데이터 수집 난이도가 중간. 보통 API 형태로 제공되기 때문에 데이터 처리 기술 (파싱)이 요구됨. |
XML, HTML, JSON, 로그형태 (웹로그, 센서데이터) 저장 방식 : Competitor Pricing , Sensor, machine data *XML : Extensible Markup Language, 다목적 마크업 언어 (태그를 이용한 언어). 인터넷에 연결된 시스템끼리 데이터를 쉽게 주고 받을 수 있게 하여 HTML의 한계 극복. |
비정형 데이터 | 형태가 없으며 연산이 불가능. 주로 NoSQL에 저장 됨. 데이터 수집 난이도가 높음. 텍스트 마이닝 혹은 파일일 경우 파일을 데이터 형태로 파싱해야 하기 때문에 수집 데이터 처리가 어려움. |
영상, 이미지, 음성, 텍스트 등. 저장 방식 : email , SNS, voice, IoT, 보고서 , news |
데이터의 저장방식 | 설명 |
RDB | - 관계형 데이터를 저장, 수정, 관리할 수 있게 해주는 데이터베이스 - Oracle, MSSQL, MySQL 등 |
NoSQL | - 비관계형 데이터 저장소 - MongoDB, Cassandra, Hbase , Redis |
분산 파일 시스템 | - 분산된 서버의 디스크에 파일 저장. - HDFS |
< 출제 유형 >
1. 다음 중 데이터 유형이 다른 것은?
2. 정형-반정형-비정형 데이터 순서로 옳은 것은?
< 분석 방법론 >
① 분석 방법론 개요
필요성 | 데이터 분석을 효과적으로 기업에 정착하기 위해 데이터 분석을 체계화하는 절차와 방법이 정리된 데이터 분석 방법론 수립이 필요 |
구성요소 | 상세한 절차와 방법 (Procedures, Method) 도구와 기법 (Tools & Techniques) 템플릿과 산출물 (Template & Output) |
② 기업의 합리적 의사결정 장애 요소
- 고정관념
- 편향된 생각
- 프레이밍 효과 (Framing effect) : 동일한 사건이나 상황임에도 불구하고 제시되는 방법에 따라 사람들의 선택이나 판단이 달라지는 왜곡 현상으로, 특정 사안을 어떤 시각으로 바라보느냐에 따라 해석이 달라진다는 이론
③ 분석 방법론의 모델 세 가지
폭포수 모델 Waterfall model |
- 단계를 순차적으로 진행하는 방법 - 이전 단계가 완료되어야 다음 단계로 순차 진행하는 하향식 진행 - 문제점이 발견되면 전단계로 돌아가는 피드백 수행 |
나선형 모델 Spiral model |
- 반복을 통해 점증적으로 개발 - 반복에 대한 관리 체계가 효과적으로 갖춰지지 못한 경우 복잡도가 상승하여 프로젝트 진행이 어려울 수 있음 |
프로토타입 모델 Prototype model |
- 일단 분석을 시도해보고 그 결과를 확인해가면서 반복적으로 개선해 나가는 방법 - 신속하게 해결책 모형 제시, 상향식 접근방법 - 사용자 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확히 파악하기 어려운 상황에서 사용 - 사용자들이 이렇게 만들면 편하게 사용할거야 라는 가설을 생성하게 됨 - 프로토타입을 보고 완성시킨 결과물을 통해 가설을 확인 할 수 있음 - 특정 가설을 갖고 서비스를 설계하고 디자인에 대한 실험도 실행함 - 시제품이 나오기 전의 제품의 원형으로 개발 검증과 양산 검증을 거쳐야 시제품이 될 수 있음 - 정보시스템의 미완성 버전 또는 중요한 기능들이 포함되어 있는 시스템의 초기모델 |
④ KDD (Knowledge Discovery in Database ) 분석 방법론
: 데이터베이스에서 의미있는 지식을 탐색하는 데이터마이닝 프로세스
[ 데이터에서 패턴을 찾는 과정 ]
1) 분석 대상 비즈니스 도메인 이해
2) 분석 대상 데이터 셋 선택과 생성
3) 데이터에 포함되어 있는 노이즈 (Noise)와 이상값 (Outlier) 등을 제거하는 정제작업이나 전처리 작업 실시
4) 분석 목적에 맞는 변수를 찾고, 필요시 데이터의 차원을 축소하는 데이터를 변경
5) 분석 목적에 맞는 데이터마이닝 기법을 선택
6) 분석 목적에 맞는 데이터마이닝 알고리즘을 선택
7) 데이터마이닝 실행
8) 데이터마이닝 결과에 대한 해석
9) 데이터마이닝에서 발견된 지식 활용
* 데이터마이닝 : 많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하여, 미래에 실행 가능한 정보를 추출해 내고 의사 결정에 이용하는 과정.
[ KDD의 분석 절차]
데이터셋 선택 Selection |
- 선택에 앞서 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정 필수. - DB 또는 raw data 에서 분석에 필요한 데이터 선택 - 데이터 마이닝에 필요한 타겟 데이터 구성. |
데이터 전처리 Preprocessing |
- 추출된 분석 대상 데이터 셋에 포함되어 있는 잡음 (Noise), 이상값 (Outlier), 결측치 (Missing value)를 식별하고 필요시 제거 or 의미있는 데이터로 재 처리하여 데이터 셋을 정제 |
데이터 변환 Transformation |
- 정제를 마친 데이터를 전처리 과정을 통해 분석 목적에 맞는 변수를 생성, 선택함. - 데이터의 차원을 축소하여 효율적으로 데이터마이닝을 적용할 수 있도록 데이터셋의 변경 작업을 거침 - 데이터 마이닝 프로세스의 진행을 위해 학습용 데이터와 검증용 데이터로 데이터 분리. |
데이터 마이닝 Data mining |
- 학습용 데이터를 이용해서 분석 목적에 맞는 데이터마이닝 기법을 선택하고 적절한 데이터 마이닝 기법 및 알고리즘 선택 - 데이터의 패턴을 찾거나 분류 또는 예측 등의 마이닝 작업 시행 |
데이터 마이닝 결과 평가 Interpretation / Evaluation |
- 데이터 마이닝 결과에 대한 해석과 평가, 그리고 분석 목적과의 일치성 확인 - 발견한 지식을 업무에 활용하기 위한 방안 모색. - 필요에 따라 전 프로세스를 반복 수행. |
⑤ CRISP-DM (Cross-Industry Standard Process for Data Mining) 분석 방법론
- 일방향으로 구성되어 있지 않고, 단계간 피드백을 통해 단계별 완성도를 높이도록 구성.
[ CRISP-DM 프로세스의 4 계층 ] : Hierarchical process model
CRISP process model |
Phases (단계) |
최 상위 레벨, 여러 개의 단계로 구성되어 있음. |
Generic Tasks (일반화 태스크) |
데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위 | |
CRISP process | Specialized Tasks (세분화 태스크) |
일반화 태스크를 구체적으로 수행함 |
Process Instances (프로세스 실행) |
데이터 마이닝을 통한 구체적인 실행을 포함 |
[ CRISP-DM 프로세스의 6 단계 ]
단계 (일방향이 아닌 피드백 가능) |
특징 | 수행 내용 |
업무 이해 Business Understanding |
- 비즈니스 관점 프로젝트의 목적과 요구사항을 이해하기 위한 단계 - 도메인 지식을 데이터 분석을 위한 문제 정의로 변경하고 초기 프로젝트 계획을 수립하는 단계 |
업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립 |
데이터 이해 Data Understanding |
- 분석을 위한 데이터 수집 , 데이터 속성 이해를 위한 과정 - 데이터 품질에 대한 문제점 식별 및 숨겨져 있는 인사이트를 발견하는 단계 * KDD 의 데이터 셋 준비, 데이터 전처리에 해당하는 단계 |
초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인 |
데이터 준비 Data Preparation |
- 분석을 위해 수집된 데이터에서 분석 기법에 적합한 데이터셋을 편성하는 단계 - 많은 시간이 소요될 수 있음 * KDD 의 Transformation 과 관련 |
분석용 데이터셋 선택 , 데이터 정제 , 데이터 통합 , 데이터 포맷팅 |
모델링 Modeling |
- 다양한 모델링 기법과 알고리즘을 선택 - 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계 - 모델링 단계를 통해 찾아낸 모델은 테스트용 데이터셋으로 평가하여, 모델 과적합 (Overfitting) 등의 문제를 발견하고 대응 방안 마련 |
모델링 기법 선택, 모델 테스트 계획 설계, 모델링 작성, 모델 평가 |
평가 Evaluation |
- 모델링 단계에서 얻은 모델이 프로젝트의 목적에 부합하는지 평가 - 데이터 마이닝 결과를 수용할 것인지 최종적으로 판단하는 과정 |
분석 결과 평가 , 모델링 과정 평가 , 모델 적용성 평가 |
전개 Deployment |
- 완성된 모델을 실 업무에 적용하기 위한 계획 수립 - 모니터링과 모델의 유지보수 계획 마련 - 프로젝트 종료 관련 프로세스를 수행하여 프로젝트를 마무리 함. |
전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료보고서 작성, 프로젝트 리뷰 |
⑥ 빅데이터 분석 방법론
[ 분석 방법론의 구성 ] : 일반적으로 방법론은 계층적 프로세스 모델 (Stepwised process model)의 형태로 구성되어 있음.
단계 (Phase) |
- 최상위 계층으로서, 프로세스 그룹 (Process group)을 통하여 완성된 단계별 산출물이 생성됨. - 각 단계는 기준선 (Baseline)으로 설정되어 관리 되어야 하고, 버전관리 (Configuration management) 등을 통하여 통제가 이루어 져야 한다. → 단계별 완료 보고서 |
태스크 (Task) |
- 각 단계는 여러 개의 태스크로 구성 됨 - 즉, 각 태스크는 단계를 구성하는 단위활동으로, 물리적 또는 논리적 단위로 품질 검토의 항목이 됨. → 보고서 |
스탭 (Step) |
- WBS (Work breakdown structure)의 워크 패키지에 해당됨. - 입력 자료 (Input), 처리 및 도구 (Process & tool ), 출력자료 (Output)으로 구성된 단위 프로세스 (Unit process) → 보고서 구성 요소 |
[ 빅데이터 분석 방법론의 5 단계]
▶ 1단계 : 분석 기획 (Planning)
주요 업무 | Tasks | Steps |
비즈니스 이해 및 범위 설정 |
비즈니스 이해 | 분석 대상인 업무 도메인을 이해하기 위해 내부 업무 매뉴얼과 관련 자료, 외부의 관련 비즈니스 자료 조사 및 프로젝트 진행을 위한 방향 설정 - 입력 자료 : 업무 매뉴얼, 업무 전문가 지식, 빅데이터 분석 대상 도메인에 대한 관련 자료 - 프로세스 및 도구 : 자료 수집 및 비즈니스 이해 - 출력 자료 : 비즈니스 이해 및 도메인 문제점 |
프로젝트 범위 설정 | 프로젝트 목적에 부합하는 범위를 명확히 설정함 프로젝트에 참여하는 관계자들의 이해를 일치시키기 위하여 구조화된 프로젝트 범위 정의서 SOW(Statement of Work) 를 작성 - 입력 자료 : 중장기 계획서, 빅데이터 분석 프로젝트 지시서, 비즈니스 이해 및 도메인 문제점 - 프로세스 및 도구 : 자료 수집 및 비즈니스 이해, 프로젝트 범위 정의서 작성 절차 - 출력 자료 : 프로젝트 범위 정의서 |
|
프로젝트 정의 및 계획수립 |
데이터 분석 프로젝트 정의 | 프로젝트의 목표 및 KPI, 목표 수준 등을 구체화 하여 상세 프로젝트 정의서 작성 , 프로젝트의 목표를 명확화 하기 위해 모델 운영 이미지 및 평가 기준 설정 - 입력 자료 : 프로젝트 범위 정의서, 빅데이터 분석 프로젝트 지시서 - 프로세스 및 도구 : 프로젝트 목표 구체화, 모델 운영 이미지 설계 - 출력 자료 : 프로젝트 정의서, 모델 운영 이미지 설계서, 모델 평가 기준 |
프로젝트 수행 계획 수립 | 프로젝트 수행 계획서 작성 , 프로젝트의 목적 , 배경 , 기대효과, 수행방법 일정 및 추진 조직 WBS 작성 * WBS : Work Breakdown structure, 작업 분할 구조도, 전체 업무를 분류하여 구성 요소로 만든 후 각 요소를 평가하고 일정별로 계획하며 그것을 완수할 수 있는 사람에게 할당해주는 역할 |
|
프로젝트 위험 계획 수립 |
데이터 분석 위험 식별 | 앞서 진행된 프로젝트 산출물과 정리 자료 (Lession learned)를 참조하고 전문가의 판단을 활용하여, 빅데이터 분석 프로젝트를 진행하면서 발생 가능한 모든 위험을 식별함. 식별된 위험은 위험의 영향도, 빈도, 발생가능성에 따라 위험의 우선순위를 설정. - 입력 자료 : 프로젝트 범위 정의서, 프로젝트 수행 계획서, 선행 프로젝트 산출물 및 정리자료 - 프로세스 및 도구 : 위험 식별 절차, 위험 영향도 및 발생 가능성 분석, 위험 우선순위 판단 - 출력 자료 : 식별된 위험 목록 |
위험 대응 계획 수립 | 식별된 위험에 대하여 상세한 정량적, 정성적 분석을통해 위험 대응 방안을 수립. 예상되는 위험에 대한 대응은 회피 (Avoid), 전이 (Transfer), 완화 (Mitigate), 수용 (Accept)으로 구분하여 위험관리 계획서를 작성. - 입력 자료 : 식별된 위험 목록, 프로젝트 범위 정의서, 프로젝트 수행 계획서 - 프로세스 및 도구 : 위험 정량적 분석, 위험 정성적 분석 - 출력 자료 : 위험관리 계획서 |
▶ 2단계 : 데이터 준비 (Preparing)
주요 업무 | Tasks | Steps |
필요 데이터 정의 | 데이터 정의 | 분석에 필요한 데이터를 정의. 정형 , 비정형 , 반정형 등의 모든 내 외부 데이터를 포함하고 데이터의 속성, 데이터 오너 , 데이터 관련 시스템 담당자 등을 포함하는 데이터 정의서 작성 - 입력 자료 : 프로젝트 수행 계획서, 시스템 설계서, ERD(Entity Relationship Diagram), 메타데이터 정의서, 문서 자료 - 프로세스 및 도구 : 내,외부 데이터 정의, 정형 비정형 반정형 데이터 정의 - 출력 자료 : 데이터 정의서 |
데이터 획득 방안 수립 | 구체적인 데이터 수집 방안을 수립. 내부 데이터 : 부서 간 업무 협조, 개인정보보호 및 정보 보안과 관련한 문제점을 사전에 점검 외부 데이터 : 시스템 간 다양한 인터페이스 및 법적인 문제점을 고려하여 상세한 계획 수립 - 입력 자료 : 데이터 정의서, 시스템 설계서, ERD, 메타데이터 정의서, 문서자료, 데이터 구입 - 프로세스 및 도구 : 데이터 획득 방안 수립 - 출력 자료 : 데이터 획득 계획서 |
|
데이터 스토어 설계 | 정형 데이터 스토어 설계 | 관계형 데이터베이스 (RDBMS)를 사용하고 , 데이터의 효율적 저장과 활용을 위해 데이터 스토어의 논리적, 물리적 설계를 구분하여 설계함 - 입력 자료 : 데이터 정의서, 데이터 획득 계획서 - 프로세스 및 도구 : 데이터베이스 논리설계 및 물리설계, 데이터 매핑 - 출력 자료 : 정형 데이터 스토어 설계서, 데이터 매핑 정의서 |
비정형 데이터 스토어 설계 | 하둡, NoSQL 등을 이용하여 비정형 또는 반정형 데이터를 저장하기 위한 논리, 물리적 데이터 스토어 설계 - 입력 자료 : 데이터 정의서, 데이터 획득 계획서 - 프로세스 및 도구 : 비정형, 반정형 데이터 논리 설계 및 물리설계 - 출력 자료 : 비정형 데이터 스토어 설계서, 데이터 매핑 정의서 |
|
데이터 수집 및 정합성 점검 | 데이터 수집 및 저장 | 크롤링 등의 데이터 수집을 위한 ETL 등의 다양한 도구와 API, 스크립트 프로그램 등으로 데이터를 수집 수집된 데이터를 설계된 데이터 스토어에 저장함 * ETL(Extract Transformation Loading) : 다양한 데이터를 취합해 데이터를 추출하고 하나의 공통된 포맷으로 변환해 데이터 웨어 하우스나 데이터 마트 등에 적재하는 과정을 지원하는 도구 * API(Application Programming Interface) : 라이브러리에 접근하기 위한 규칙들을 정의한 것 - 입력 자료 : 데이터 정의서, 데이터 획득 계획서, 데이터 스토어 설계서 - 프로세스 및 도구 : 데이터 크롤링 도구, ETL 도구, 데이터 수집 스크립트 - 출력 자료 : 수집된 분석용 데이터 |
데이터 정합성 (무결성) 점검 | 데이터 스토어의 품질 점검을 통해 데이터의 정합성 확보 데이터 품질개선이 필요한 부분에 대해 보완 작업 진행 - 입력 자료 : 수집된 분석용 데이터 - 프로세스 및 도구 : 데이터 품질 확인, 데이터 정합성 점검 리스트 - 출력 자료 : 데이터 정합성 점검 보고서 |
▶ 3단계 : 데이터 분석 (Analyzing)
주요 업무 | Tasks | Steps |
분석용 데이터 준비 |
비즈니스 룰 확인 | 비즈니스 이해, 도메인 문제점 인식, 프로젝트 정의 등을 이용하여 프로젝트의 목표를 정확하게 인식. 이러한 이해를 바탕으로 세부적인 비즈니스 룰을 파악하고 분석에 필요한 데이터의 범위를 확인 - 입력 자료 : 프로젝트 정의서, 프로젝트 수행 계획서, 데이터 정의서, 데이터 스토어 - 프로세스 및 도구 : 프로젝트 목표 확인, 비즈니스 룰 확인 - 출력 자료 : 비즈니스 룰, 분석에 필요한 데이터 범위 |
분석용 데이터 셋 준비 | 데이터 스토어로부터 분석에 필요한 정형,비정형 데이터를 추출. 필요시 적절한 가공을 통해 분석도구 입력 자료로 사용될 수 있도록 편성. 추출된 데이터를 데이터베이스나 구조화된 형태로 구성하고, 필요시 분석을 위한 작업공간과 전사차원의 데이터 스토어로 분리. - 입력 자료 : 데이터 정의서, 데이터 스토어 - 프로세스 및 도구 : 데이터 선정, 데이터 변환, ETL 도구 - 출력 자료 : 분석용 데이터셋 |
|
텍스트 분석 | 텍스트 데이터 확인 및 추출 | 텍스트 분석에 필요한 비정형 데이터를 전사차원의 데이터 스토어에서 확인하고 필요한 데이터를 추출 - 입력 자료 : 비정형 데이터 스토어 - 프로세스 및 도구 : 분석용 텍스트 데이터 확인, 텍스트 데이터 추출 - 출력 자료 : 분석용 텍스트 데이터 |
텍스트 데이터 분석 | 추출된 텍스트 데이터를 분석 도구로 적재하여 다양한 기법을 분석하고 모델을 구축 텍스트 분석을 위해서는 용어사전을 사전에 확보하거나, 업무 도메인에 맞도록 작성해야 함. 구축된 모델은 텍스트 시각화 도구를 이용하여 모델의 의미전달을 명확하게 함. - 입력 자료 : 분석용 텍스트 데이터, 용어사전 (용어 유의어 사전, 불용어 사전 등) - 프로세스 및 도구 : 분류체계 설계, 형태소 분석, 키워드 도출, 토픽 분석, 감성 분석, 의견분석, 네트워크 분석 - 출력 자료 : 텍스트 분석 보고서 |
|
탐색적 분석 (Exploratory Data Analysis, EDA) |
탐색적 데이터 분석 | 다양한 관점 별로 기초 통계량 등을 산출하고, 데이터의 분포와 변수간의 관계 등 데이터 자체의 특성 및 데이터의 통계적 특성을 이해하고, 모델링을 위한 기초 자료로 활용. - 입력 자료 : 분석용 데이터셋 - 프로세스 및 도구 : EDA 도구, 통계분석, 변수 간 연관성 분석, 데이터 분포 확인 - 출력 자료 : 데이터 탐색 보고서 |
데이터 시각화 | 탐색적 분석을 위한 도구로 활용. 이 단계에서 수행된 데이터 시각화는 모델링 또는 향후 시스템 구현을 위한 사용자 인터페이스 또는 프로토타입으로 활용될 수도 있다. - 입력 자료 : 분석용 데이터셋 - 프로세스 및 도구 : 시각화 도구 및 패키지, 인포그래픽, 시각화 방법론 - 출력 자료 : 데이터 시각화 보고서 |
|
모델링 |
데이터 분할 | 모델의 과적합과 일반화를 위하여 분석용 데이터 셋을 모델 개발을 위한 훈련용 데이터와 모델의 검증력을 테스트 하기 위한 테스트용 데이터로 분할. 모델에 적용하는 기법에 따라 교차검증을 수행하거나, 앙상블 기법을 적용할 경우 데이터 분할 또는 검증횟수, 생성 모델 개수 등을 설정. - 입력 자료 : 분석용 데이터셋 - 프로세스 및 도구 : 데이터 분할 패키지 - 출력 자료 : 훈련용 데이터, 테스트용 데이터 |
데이터 모델링 | 분석용 데이터를 이용한 가설 설정을 통하여 통계 모델을 만들거나, 기계학습을 이용한 데이터의 분류, 예측, 군집 등의 기능을 수행하는 모델 제작 기계학습은 지도학습과 비지도학습 등으로 나뉘어 다양한 알고리즘 적용. 필요시 비정형 데이터 분석 결과를 통합적으로 활용하여 프로젝트 목적에 맞는 통합 모델을 수행. - 입력 자료 : 분석용 데이터셋 - 프로세스 및 도구 : 통계 모델링 기법, 기계학습, 모델 테스트 - 출력 자료 : 모델링 결과 보고서 |
|
모델 적용 및 운영방안 | 모델을 가동 중인 운영 시스템에 적용하기 위해서는 모델에 대한 상세 알고리즘 설명서 작성이 필요. 알고리즘 설명서는 시스템 구현 단계에서 중요한 입력 자료로 활용됨 모델의 안정적 운영을 모니터링 하는 방안도 수립함. - 입력 자료 : 모델링 결과보고서 - 프로세스 및 도구 : 모니터링 방안 수립, 알고리즘 설명서 작성 - 출력 자료 : 알고리즘 설명서, 모니터링 방안 |
|
모델평가 및 검증 |
모델 평가 | 프로젝트 정의서의 모델 평가 기준에 따라 모델을 객관적으로 평가 품질관리 차원에서 모델 평가 프로세스를 진행. 모델 평가를 위해 모델 결과 보고서 내의 알고리즘을 파악하고 테스트용 데이터나, 필요시 모델 검증을 위한 별도의 데이터를 활용. - 입력 자료 : 모델링 결과 보고서, 평가용 데이터 - 프로세스 및 도구 : 모델 평가, 모델 품질관리, 모델 개선작업 - 출력 자료 : 모델 평가 보고서 |
모델 검증 | 모델의 실적용성을 검증하기 위해 검증용 데이터를 이용하여 모델 검증 작업을 실시 모델 검증보고서를 작성함 검즈용 데이터는 모델 개발 및 평가에 활용된 훈련용이나 테스트용 데이터가 아닌 실 운영용 데이터를 확보하여, 모델의 품질을 최종 검증. - 입력 자료 : 모델링 결과 보고서, 모델평가 보고서, 검증용 데이터 - 프로세스 및 도구 : 모델 검증 - 출력 자료 : 모델 검증 보고서 |
▶ 4단계 : 시스템 구현 (Developing)
주요 업무 | Tasks | Steps |
설계 및 구현 |
시스템 분석 및 설계 | 가동중인 시스템을 분석하고 알고리즘 설명서에 근거하여, 응용시스템 구축 설계 프로세스 진행. 시스템 분석과 설계는 사용 중인 정보 시스템 개발 방법론을 커스터마이징 하여 적용할 수 있다. - 입력 자료 : 알고리즘 설명서, 운영중인 시스템 설계서 - 프로세스 및 도구 : 정보시스템 개발방법론 - 출력 자료 : 시스템 분석 및 설계서 |
시스템 구현 | 시스템 분석 및 설계서에 따라 BI 패키지를 활용하거나, 새롭게 시스템을 구축하거나 가동중인 운영시스템의 커스터마이징 등을 통해 설계된 모델 구현. - 입력 자료 : 시스템 분석 및 설계서, 알고리즘 설명서 - 프로세스 및 도구 : 시스템 통합 개발 도구 (IDE), 프로그램 언어, 패키지 - 출력 자료 : 구현 시스템 |
|
시스템 테스트 및 운영 |
시스템 테스트 | 구축된 시스템의 검증을 위하여 단위 테스트, 통합 테스트, 시스템 테스트 등을 실시 시스템 테스트는 품질 관리 차원에서 진행하여, 적용된 시스템의 객관성과 완전성을 확보 - 입력 자료 : 구현 시스템, 시스템 테스트 계획서 - 프로세스 및 도구 : 품질관리 활동 - 출력 자료 : 시스템 테스트 결과보고서 |
시스템 운영 계획 | 구현된 시스템을 지속적으로 활용하기 위하여 시스템 운영자, 사용자를 대상으로 필요한 교육을 실시하고 시스템 운영계획을 수립 - 입력 자료 : 시스템 분석 및 설계서, 구현 시스템 - 프로세스 및 도구 : 운영계획 수립, 운영자 및 사용자 교육 - 출력 자료 : 운영자 매뉴얼, 사용자 매뉴얼, 시스템 운영 계획서 |
▶ 5단계 : 평가 및 전개 (Deploying)
주요 업무 | Tasks | Steps |
모델 발전 계획 수립 | 모델 발전 계획 | 개발된 모델의 지속적인 운영과 기능 향상을 위한 발전계획을 상세하게 수립 모델의 계속성을 확보함. - 입력 자료 : 구현 시스템, 프로젝트 산출물 - 프로세스 및 도구 : 모델 발전 계획 수립 - 출력 자료 : 모델 발전 계획서 |
프로젝트 평가 및 보고 |
프로젝트 성과 평가 | 프로젝트의 정량적 성과와 정성적 성과로 나누어 성과 평가서를 작성 - 입력 자료 : 프로젝트 산출물, 품질관리 산출물, 프로젝트 정의서, 프로젝트 수행 계획서 - 프로세스 및 도구 : 프로젝트 평가 기준, 프로젝트 정량적 평가, 프로젝트 정성적 평가 - 출력 자료 : 프로젝트 성과 평가서 |
프로젝트 종료 | 프로젝트 진행 과정의 모든 산출물 및 프로세스를 지식자산화 하고, 최종 보고서를 작성하여 의사소통 절차에 따라 보고하고 종료. - 입력 자료 : 프로젝트 산출물, 품질관리 산출물, 프로젝트 정의서, 프로젝트 수행 계획서, 프로젝트 성과 평가서 - 프로세스 및 도구 : 프로젝트 지식자산화 작업, 프로젝트 종료 - 출력 자료 : 프로젝트 최종 보고서 |
< 분석 과제 발굴 >
① 분석 과제 도출 방법
: 분석 과제는 풀어야 할 다양한 문제를, 데이터 분석 문제로 변환한 후, 프로젝트로 수행할 수 있는 과제 정의서 형태로 도출된다. 과제를 도출하기 위한 방식은 크게 두가지. (하향식 vs 상향식)
하향식 접근 방법 Top-down |
- 문제가 확실할 때 사용함 - 문제가 주어져있는 상태에서 해법을 찾기 위한 방법 (전통적으로 수행되었던 분석 과제 발굴방식) - Make choices - Optimization → Solution - 전통적인 분석과제 발굴 방식Why를 강조하는 관점 |
상향식 접근 방법 Bottom-up |
- 문제의 정의 자체가 어려운 경우 사용함 (점점 어려워 지고 있어, 상향식 접근 방식의 유용성이 증가하고 있음.) - 데이터를 기반으로 문제의 쟁점 및 해결 방안을 탐색하고 이를 지속적으로 개선 - Create choices - Discovery → Insight |
디자인 싱킹 Design Thinking |
- 중요한 의사결정시 상향식과 하향식을 반복적으로 사용하는 동적인 방법. - 기존의 논리적인 단계별 접근법에 기반한 문제해결 방식은 최근 복잡하고 다양한 환경에서 발생하는 문제에 적합하지 않을 수 있기 때문에, '디자인 사고' 접근법을 통해 전통적인 분석적 사고를 극복하려 함 - 상향식 방식의 발산(Diverge) 단계와 도출된 옵션을 분석하고 검증하는 하향식 접근 방식의 수렴(Converse) 단계를 반복하여 과제를 발굴함 |
< 분석 기획 방향성 도출 > ② 분석 주제 유형 4가지
분석의 대상 (What) |
|||
Known | Un-Known | ||
분석의 방법 (How) |
Known | Optimization | Insight |
Un-Known | Solution | Discovery |
② 하향식 접근 방식
: 문제 탐색 → 문제 정의 → 해결방안탐색 → 타당성 평가 → 과제 선정
Top down Approach | ||
문제 탐색 Problem discovery |
비즈니스 모델 기반 문제 탐색 | - 비즈니스 모델 캔버스를 활용하여 가치가 창출될 문제를 누락없이 도출 할 수 있음 - 해당 기업의 사업 모델을 도식화한 비즈니스 모델 캔버스의 9가지 블록 (key activities, Key partners, Key Resources, Costs, Value proposition, Customer Relationships, Customers, Channels, Reveneu) 을 과제 발굴을 위한 5가지 영역으로 단순화. - 업무 (Operation) , 제품 (Product), 고객 (Customer) 단위로 문제를 발굴하고 이를 관리하는 지원 인프라 (IT & Human resource), 규제와 감사 (Audit & Regulation) 영역에 대한 기회를 추가로 도출하는 작업 수행 - 업무 : 운영하는 내부 프로세스 및 주요 자원 관련 주제 도출 ex) 생산 공정 최적화, 재고량 최소화 등 - 제품 : 생산, 제공하는 제품, 서비스를 개선하기 위한 관련 주제 도출 ex) 제품의 주요 기능 개선, 서비스 모니터링 지표 도출 등 - 고객 : 제품, 서비스를 제공받는 사용자 및 고개, 이를 제공하는 채널의 관점에서 관련 주제 도출 ex) 고객 call 대기 시간 최소화, 영업점 위치 최적화 등. - 지원 인프라 : 분석을 수행하는 시스템 영역 및 이를 운영, 관리하는 인력의 관점에서 주제 도출 ex) EDW 최적화, 적정 운영 인력 도출 등. - 규제와 감사 : 제품 생산 및 전달 과정 프로세스 중에서 발생하는 규제 및 보안의 관점에서 주제 도출 ex) 제공 서비스 품질의 이상징후 관리, 새로운 환경 규제 시 예상되는 제품 추출 등. 분석 기회 발굴의 범위 확장* - 현재 사업 방식 및 비즈니스에 대한 문제 해결은 최적화 및 단기 과제 형식으로 도출될 가능성이 높기 때문에, 새로운 관점의 접근을 통해 새로운 유형의 분석 기회 및 주제 발굴을 수행 * 거시적 관심의 요인 (STEEP) : 사회 , 기술 , 경제 , 환경 , 정치 영역 * 경쟁자 확대 관점 : 대체재 영역 , 경쟁자 영역 , 신규진입자 영역 * 시장의 니즈 탐색 : 고객 소비자 영역 , 채널 영역 , 영향자들 영역 * 역량의 재해석 관점 : 내부역량 영역 , 파트너 네트워크 영역 |
외부 참조 모델 기반 문제 탐색 | - 유사 동종 사례 벤치마킹을 통한 분석 기회 발굴 - 제공되는 산업별 , 업무 서비스별 분석 테마 후보 그룹 (pool) 을 통해 Quick & Easy 방식으로 필요한 분석기회가 무엇인지에 대한 아이디어를 얻고 기업에 적용할 분석 테마 후보 목록을 빠르게 도출 - 지속적인 조사와 데이터 분석을 통한 가치 발굴 사례를 풀로 미리 만들어 둔다면, 과제 발굴 및 탐색 시 빠르고 의미있는 분석 기회 도출이 가능. - 유사 동종 업계 뿐만 아니라 타 업종 및 분야의 데이터 분석 활용 사례 도한 정리해 두면 새로운 주제 탐색에 도움이 된다. |
|
분석 유즈케이스** 정리 | - 현재의 비즈니스 모델 및 유사 동종 사례 탐색을 통해 도출한 분석 기회들을 분석 유즈케이스로 표기하는 것이 필요. - 풀어야 할 문제에 대한 상세 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시 - 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용 |
|
문제 정의 Problem definition |
데이터 분석 문제 변환*** | - 식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계 - 문제 탐색 단계가 무엇 (what)을 어떤 목적으로(Why) 수행해야 하는지의 관점인 반면, 문제 정의 단계는, 달성을 위해 필요한 데이터 및 기법(How)을 정의하기 위한 데이터 분석 문제로 변환을 수행 - 요구사항 : 분석을 수행하는 당사자 뿐만이 아니라, 해당 문제가 해결 되었을 때 효용을 얻을 수 있는 최종 사용자 (End user) 관점에서 이루어 져야 함 - 데이터 분석 문제가 잘 정의 되었을 때, 필요한 데이터의 정의 및 기법 발굴이 용이 |
해결 방안 탐색 Solution search |
수행 옵션 도출 | - 어떤 데이터 또는 분석 시스템을 사용할 것인지 검토하는 단계 - 분석역량을 기존에 가지고 있는지 파악하고, 보유하고 있지 않은 경우에는 교육이나 전문 인력을 채용하여 역량을 확보하거나, 분석 전문 업체를 활용하여 과제 해결 방안에 대해 사전 검토 수행. - 데이터 및 분석 시스템에 따라 소요되는 예산 및 활용 가능 도구가 다름**** |
타당성 검토 Feasibility study |
타당성 평가 | - 도출된 분석 문제나 가설에 대한 대안을 과제화 하기 위해서는 다각적인 타당성 분석이 수행 되어야 함. - 경제적 타당도 : 비용 대비 편익 분석 관점의 접근 비용: 데이터, 시스템, 인력, 유지보수 등과 같은 분석 비용 편익: 실질적 비용 절감, 추가적 매출과 수익 등과 같은 경제적 가치 - 데이터 및 기술적 타당도 : 데이터 존재 여부, 분석 시스템 환경, 분석 역량 |
과제 선정 | - 도출된 여러 대안 중에서, 평가 과정을 거쳐 가장우월한 대안 선택 - 도출한 데이터 분석 문제 및 선정된 솔루션 방안을 포함 - 분석과제 정의서의 형태로 명시하는 후속 작업 시행 - 프로젝트 계획의 입력물로 활용 |
* 분석 기회 발굴의 범위 확장
관점 | 영역 | 기회 도출 |
거시적 | 사회 (Social) | 비즈니스 모델의 고객 영역에 존재하는 현재 고객을 확장 전체 시장을 대상으로 사회적, 문화적, 구조적 트랜드 변화에 기반한 분석 기회 도출 |
기술 (Technological) | 과학, 기술, 의학 등 최신 기술의 등장 및 변화에 따른 역량 내재화와 제품, 서비스 개발에 대한분석 기회를 도출 | |
경제 (Economical) | 산업과 금융 전반의 변동성 및 경제 구조 변화 동향에 따른 시장의 흐름 파악 이에 대한 분석 기회 도출 |
|
환경 (Environmental) | 환경과 관련된 정부, 사회단체, 시민사회의 관심과 규제 동향을 파악하고 기회 도출 | |
정치 (Political) | 주요 정책 방향, 정세, 지정학적 동향 등 거시적인 흐름을 토대로 한 분서 기회 도출 | |
경쟁자 확대 | 대체재 (Substitute) | 융합적인 경쟁 환경에서 현재 생산을 수행하고 있는 제품, 서비스를 온라인으로 제공하는 것에 대한 탐색 잠재적 위험을 파악 |
경쟁자 (Competitor) | 현재 생산하고 있는 제품, 서비스의 주요 경쟁자에 대한 동향을 파악하여 이를 고려한 분석 기회 도출 | |
신규 진입자 (New Entrant) | 향후 시장에 대해서 파괴적인 역할을 수행할 수 있는 신규 진입자에 대한 동향을 파악하여 분석기회 도출 | |
시장의 니즈 탐색 | 고객 (Customer) | 고객의 구매 동향 및 고객의 컨텍스트를 더욱 깊게 이해하여 제품, 서비스의 개선에 필요한 분석 기회를 도출 |
채널 (Channel) | 영업사원, 직판 대리점, 홈페이지 등 자체적으로 운영하는 채널 뿐만아니라, 최종고객에게 상품 및 서비스를 전달하는 것에 가능한 경로를 파악하여 해당 경로에 존재하는 채널별 분석 기회를 확대하여 탐색 | |
영향자들 (Influencer) | 기업 의사 결정에 영향을 미치는 주주, 투자자, 협회 및 기타 이해관계자의 주요 관심사항에 대해서 파악하고 분석 기회를 탐색 | |
역량의 재해석 | 내부 역량 (Competency) | 지적 재산권, 기술력 등 기본적인 것 뿐만아니라 중요하면서도 간과하기 쉬운 지식, 기술, 스킬 등의 노하우와 인프라적인 유형 자산에 대하여 재해석하고 해당 영역의 기회를 탐색. |
파트너와 네트워크 (Partners & Networks) | 자사가 직접 보유하고 있지는 않지만, 밀접한 관계를 유지하고 있는 관계사와 공급사 등의역량을 활용해 수행할 수 있는 기능을 파악해보고, 이에 대한 분석 기회를 추가적으로 도출. |
** 분석 유즈 케이스의 예시
업무 | 분석 유즈 케이스 | 설명 | 효과 |
재무 | 자금 시재 예측 | 일별로 예정된 자금지출과 입금 추정 | 자금 과부족 현상 예방 자금 운용 효율화 |
구매 최적화 | 구매 유형과 구매자별로 과거 실적과 구매 조건을 비교/분석하여 구매방안 도출 | 구매 비용 절감 | |
고객 | 서비스 수준 유지 | 서비스별로 달성 수준을 측정하고 평가한 뒤 목표 수준을 벗어나면 경보 발행 | 품질 수준 제고 고객 만족 제고 |
판매 | 영업성과 분석 | 영업 직원별 사용 원가(급여 포함)와 실적을 분석하고 부진한 영업 직원 세그멘트를 식별하여 영업 정책에 반영 | 영업 수율 향상 영업 직원 생산성 제고 |
*** 데이터 분석 문제 변환 예시
비즈니스 문제 (why) | 분석 문제 (what) |
고객 이탈 증대 | 고객의 이탈에 영향을 미치는 요인을 식별하고, 이탈 가능성을 예측 |
예상치 않은 설비 장애로 인한 판매량 감소 | 설비의 장애를 이끄는 신호를 감지하여 설비 장애 요인으로 식별하고 장애 발생 시점 및 가능성을 예측 |
기존 판매 정보 기반 영업사원의 판단 시, 재고 관리 및 적정 가격 판매 어려움. | 내부 판매 정보 외의 수요예측을 수행할 수 있는 인재의 추출 및 모델링을 통한 수요 예측. |
**** 시스템에 따른 활용 가능 도구
분석 역량 (Who) |
|||
확보 | 미확보 | ||
분석 기법 및 시스템 (How) |
기존 시스템 | 기존 시스템 개선 활용 | 교육 및 채용을 통한 역량 확보 |
신규 도입 | 시스템 고도화 | 전문업체 (Sourcing) |
③ 상향식 접근 방식
- 문제의 정의 자체가 어려운 경우 상향식 접근 방식 사용
- 다량의 원천 데이터를 대상으로 분석을 수행하여, 역으로 추적하면서 가치있는 모든 문제를 도출 또는 재정의하는 일련의 과정.
- 데이터를 기반으로 문제의 재정의 및 해결방안을 탐색하고 이를 지속적으로 개선하는 방식
- 인과 관계 (Know-why)로부터 상관관계(Know-affinity) 분석으로의 이동이 주요 변화.
- 상향식 접근 방식의 데이터 분석은 비지도학습 (Unsupervised Learning) 방법에 의해 수행됨
- 디자인 사고 (Design thinking)*의 발산(Diverce) 단계에 해당함
- 인사이트 도출 후 반복적인 시행착오를 통해 수정하며 문제를 도출하는 일련의 과정 (프로토타이핑 접근법**)
*디자인 사고 접근법을 통한 전통적인 분석적 사고 극복
- 객관적으로 존재하는 데이터 그 자체를 관찰하고 실제적으로 행동에 옮김으로서, 대상을 조금 더 잘 이해하는 방식으로의 접근 수행
- 답을 미리 내는 것이 아니라, 사물을 있는 그대로 인식하는 What의 관점에서 보아야 한다.
- Empathize(감정이입) → Define → Ideate → Proto type → Test
**프로토타이핑(prototyping) 접근법
- 사용자가 요구사항이나 데이터를 정확히 규정하기 어렵고, 데이터 소스도 명확히 파악하기 어려운 상황에서 일단 분석을 시도해보고 그 결과를 확인해 가면서 반복적으로 개선해 나가는 방법
- 완전하지 못하더라도 신속하게 해결책이나 모형을 제시함으로써, 이를 바탕으로 문제를 좀더 명확하게 인식하고 필요한 데이터를 식별하여 구체화할 수 있게 하는 유용한 상향식 접근 방식.
- 기본적인 프로세스 : 가설의 생성 → 디자인에 대한 실험 → 실제 환경에서의 테스트 → 테스트 결과에서의 통찰 도출 및 가설 확인
- 빅데이터 분석 환경에서 프로토타이핑의 필요성
1) 문제에 대한 인식 수준 : 문제 정의가 불 명확하거나, 이전에 접해보지 못한 새로운 문제일 경우, 프로토타입을 이용하여 문제를 이해하고 이를 바탕으로 구체화
2) 필요 데이터 존재 여부의 불확실성 : 필요한 데이터의 집합이 모두 존재하지 않을 경우, 해당 데이터 수집 또는 대체를 어떻게 할 것인지에 대한 반복적이고 순환적인 협의 과정 필요.
3) 데이터 사용 목적의 가변성: 데이터의 가치는 수집 목적에 따라 확정 되는 것이 아니고, 지속적으로 변화.
④ 지도학습 vs 비지도학습
지도학습 (Supervised Learning) | 비지도 학습 (Unsupervised Learning) |
- 명확한 목적 하에 데이터 분석을 수행하는 것, input과 output 이 존재함 - 분류, 추측, 예측, 최적화를 통해 사용자의 주도 하에 분석을 실시하고 지식을 도출하는 것이 목적 - 예측 (Regression) : 데이터를 대표하는 선형모델 등을 만들고 그 모델을 통해 미래의 사건을 예측하는 것 - 분류 (Classification) : 이전까지 학습된 데이터를 근거로 새로운 데이터가 기존에 학습된 데이터에 분류 여부 |
- 명확히 정의된 형태의 특정 필드값을 구하는 것이 아니라, 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터의 상태를 표현하는 것. - 인사이트를 도출하기에 유용한 방식 - 컴퓨터가 알아서 분류 를 하고, 의미 있는 값을 보여줌 - 데이터가 어떻게 구성되어 있는지 밝히는 용도로 사용함 - 군집화 (Clustering), 장바구니 분석, 기술 통계 및 프로파일링 등 |
* 분석 과제 정의서 작성 방법 (예시)
- 도출한 분석 과제를 분석과제 정의서 양식을 활용하여 보다 상세하게 정의.
- 분석별로 필요한 소스데이터, 분석방법, 데이터 입수 및 분석의 난이도, 분석 수행 주기, 분석 결과에 대한 검증 오너십, 상세 분석과정 등을 정의
- 내, 외부의 비구조적인 데이터와 소셜 미디어 및 오픈 데이터까지 범위를 확장하여 고려하고, 분석 방법도 상세히 작성함.
< 분석 프로젝트 관리 방안 >
① 분석 프로젝트의 특징
- 분석 프로젝트는 다른 프로젝트 유형처럼 범위 , 일정 , 품질 , 리스크 , 의사소통 등 영역별 관리가 수행 되어야 한다
- 다양한 데이터에 기반한 분석 기법을 적용하는 특성 때문에 5 가지 주요 특성을 고려하여 추가적 관리가 필요 하다
- 분석 과제 주요 특성에는 Data Size, Data Complexity, Speed, Analytic Complexity, Accuracy & Precision 등이 있다
- 분석 프로젝트는 도출된 결과의 재해석을 통한 지속적인 반복 및 정규화가 수행되기도 한다
② 분석 과제의 주요 5가지 특성 관리 영역
분석 과제 주요 특성 | 설명 |
Data Size | 분석하고자 하는 데이터의 양을 고려하는 관리방안 수립 필요 |
Data Complexity | 비정형데이터 및 다양한 시스템에 산재되어 있는 데이터들을 통합해서 분석 프로젝트를 진행할 때는, 초기 데이터의 확보와 통합 뿐 아니라 해당 데이터에 잘 적용될 수 있는 분석 모델 선정에 대한 고려 필요 |
Speed | 도출된 분석 결과를 활용하는 시나리오 측면에서의 속도 고려 일 단위, 주 단위 실적은 Batch 형태로 작업, 사기 탐지, 개인화 된 서비스 추천은 실시간 수행되어야 함 즉, 프로젝트 수행 시 분석 모델의 성능 및 속도를 고려한 개발 및 테스트가 수행되어야 함 |
Analytic Complexity | 정확도 (Accuracy) 와 복잡도 (Complexity)는 트레이드 오프 (Trade off) 관계가 존재 분석 모델이 복잡할수록 정확도는 올라가지만 해석이 어려워지기 때문에, 기준점을 사전에 정의해 두어야 함 해석이 가능하면서도, 정확도를 올릴 수 있는 최적모델을 찾는 방안을 사전에 모색 |
Accuracy & Precision | Accuracy (정확도): 분석의 활용적인 측면. 모델과 실제 값의 차이가 적다는 것을 의미 Precision (정밀도): 분석의 안정성 측면. 모델을 반복했을 때의 편차가 적어 일관적으로 동일한 결과를 제시한다는 것을 의미 Accuracy과 Precision은 트레이드 오프인 경우가 많기 때문에, 모델의 해석 및 적용 시 사전에 고려해야 함 |
* Accuracy와 precision의 관계
- 과녁 그림 4개 참고하기.
: https://www.geavis.si/en/2017/06/difference-between-accuracy-and-precision/
: https://en.wikipedia.org/wiki/Accuracy_and_precision
③ 분석 프로젝트 관리 체계
- 분석 프로젝트의 경우, 관리 영역에서 일반 프로젝트와 다르게 유의해야 하는 요소들이 존재함.
- 분석가의 조정자로서의 역할과 프로젝트 관리자의 역할을 동시에 수행하는 경우가 대부분이기 때문에, 프로젝트 관리 영역에 대한 이해와, 주요 사항들을 체크포인트 형태로 사전에 숙지하여, 발생가능한 이슈와 리스크를 숙지하고 미연에 방지할 필요가 있음.
- 프로토타이핑 방식인 어자일 (Agile) 프로젝트 관리 방식에 대한 고려 필요 : 도출된 결과의 재해석을 통한 지속적인 반복 및 정교화가 수행되는 경우가 대부분이기 때문
영역 | 세부 관리 내용 |
시간 (Time) |
: 프로젝트 활동의 일정을 수립 , 일정 통제의 진척 상황 관찰 - 초기에 의도했던 결과(모델)가 나오기 쉽지 않기 때문에, 지속적으로 반복되어 오랜 시간이 소요가능. - Time boxing 기법으로 일정관리를 진행하는 것이 필요 |
범위 (Scope) |
: 작업과 인도물을 식별하고 정의하는데 요구되는 프로세스 - 분석 기회 단계의 프로젝트 범위가 데이터의 형태와 양 또는 적용 모델 알고리즘에 따라 범위가 빈번하게 변경됨. - 분석의 최종 결과물이 보고서 형태인지, 시스템 형태인지에 따른 자원 및 범위를 파악하기 위해 사전에 충분한 고려가 필요함. |
품질 (Quality) |
: 품질보증 (Quality Assurance, QA)과 품질통제 (Quality Control, QC)를 계획하고 확립하는 데 요구되는 프로세스 - 분석 프로젝트를 수행한 결과에 대한 품질 목표를 사전에 수립하여 확정해야 함. |
통합 (Integration) |
: 프로젝트와 관련된 다양한 활동과 프로세스를 도출, 정의, 결합, 단일화, 조정, 통제, 종료에 필요한 프로세스 - 프로젝트 관리 프로세스들이 통합적으로 운영될 수 있도록 관리함. |
이해관계자 (Stakeholder) |
: 프로젝트 스폰서, 고객사, 기타 이해관계자 식별 관리에 필요한 프로세스 - 데이터 분석 전문가, 비즈니스 전문가, 분석 전문가, 시스템 전문가 등 다양한 전문가가 참여하기 때문에 이해 관계자의 식별과 관리가 필요함. |
자원 (Resource) |
: 인력, 시설, 장비, 자재, 기반 시설, 도구와 같은 적절한 프로젝트 자원을 식별하고 확보하는 데 필요한 프로세스 - 고급 분석 및 빅데이터 아키텍쳐링을 수행할 수 있는 인력의 공급이 부족하므로, 프로젝트 수행 전 전문가 확보 검토 필요 |
원가 (Cost) |
: 개발 예산과 원가통제의 진척 상황을 관찰하는데 요구되는 프로세스 - 외부 데이터를 활용한 데이터 분석인 경우 고가의 비용이 소요될 수 있으므로, 사전에 충분한 조사가 필요함. - 오픈소스 tool 외에 프로젝트 수행시 의도했던 결과의 달성을 위한 상용 버전의 tool이 필요할 수 있음. |
리스크 (Risk) |
: 위험과 기회를 식별하고 관리하는 프로세스 - 분석에 필요한 데이터 미확보로 분석 프로젝트 진행이 어려울 수 있으므로, 관련 위험을 식별하고, 대응 방안을 사전에 수립해야 함. - 데이터 분석 알고리즘의 한계로 품질(Quality) 목표를 달성하기 힘들 수 있어, 대응방안을 수립할 필요가 있음. |
조달 (Procurement) |
: 계획에 요구된 프로세스를 포함하며, 제품 및 서비스 또는 인도물을 인수하고 공급자와의 관계를 관리하는데 요구되는 프로세스 - 프로젝트 목적성에 맞는 외부 소싱을 적절하게 운영할 필요가 있음. - PoC (proof of concept) 형태의 프로젝트는 인프라 구매가 아닌 클라우드 등의 다양한 방안을 검토할 필요가 있음 |
의사소통 (Communication) |
: 프로젝트와 관련된 정보를 계획, 관리, 배포하는 데 요구되는 프로세스 - 전문성이 요구되는 데이터 분석 결과를 모든 이해 관계자가 공유할 수 있도록 해야 함. - 프로젝트의 원활한 진행을 위한 다양한 의사소통 체계 마련이 필요. |
[ Reference ]
1. 2018 데이터 분석 준 전문가 ADsP, 데이터에듀, 윤종식 저.
2. 데이터 분석 전문가 가이드, 한국데이터진흥원.
3. EduAtoZ - Programming - YouTube
'📚 Study.log > 📝 ADsP' 카테고리의 다른 글
[Study.log] ADsP | 4과목 - 데이터 분석 | 1장. R 기초와 데이터 마트 (0) | 2022.02.17 |
---|---|
[Study.log] ADsP | 3과목 - 데이터 분석 기획 | 2장. 분석 마스터 플랜 (0) | 2022.02.05 |
[Study.log] ADsP | 1과목 - 데이터의 이해 | 3장. 가치 창조를 위한 데이터사이언스와 전략 인사이트 (1) | 2022.01.18 |
[Study.log] ADsP | 1과목 - 데이터의 이해 | 2장. 데이터의 가치와 미래 (0) | 2022.01.14 |
[Study.log] ADsP | 1과목 - 데이터의 이해 | 1장. 데이터의 이해 (0) | 2022.01.13 |