기본 내용 정리 

https://github.com/jalynnelee/-ADsP-R-basic-

 

GitHub - jalynnelee/-ADsP-R-basic-

Contribute to jalynnelee/-ADsP-R-basic- development by creating an account on GitHub.

github.com

 

32회 데이터분석 준전문가 (ADsP)

Study log  (D - 21)

 

Last update : 2022.02.05. 토

2022. © Jalynne.log

# 나를 위한 공부 로그

 

3과목 - 데이터 분석 기획 (객관식 8문항, 단답형 2문항)

 

2장.분석 마스터 플랜

  • 마스터 플랜 수립
  • 분석 거버넌스 체계 수립

 


< 마스터 플랜 수립 >


① 분석 마스터 플랜 수립 

  • 중장기적 마스터 플랜 수립을 위해서는 분석 과제를 대상으로 다양한 기준을 고려해 적용할 우선순위를 설정해야 함. 
  • 분석 과제 수행의 선 후행 관계를 고려하여 우선순위를 조정해 나간다
  • 분석 과제의 적용 범위 및 방식에 대해서도 종합적으로 고려하여 결정한다
  • 마스터 플랜 수립 개요
우선순위 고려요소 전략적 중요도
비즈니스 성과/ROI(투자자본수익률)
실행 용이성
적용 우선순위 설정  
적용 범위/ 방식 고려 요소 업무 내재화 적용 수준
분석 데이터 적용 수준
기술 적용 수준
분석 구현 로드맵 수립  

*ISP (Information Strategy Planning) : 정보 전략 계획, 정보 기술 또는 정보 시스템을 전략적으로 활용하기 위하여 조직 내, 외부 환경을 분석하여 기회나 문제점을 도출하고, 사용자의 요구사항을 분석하여 시스템 구축의 우선순위를 결정하는 등 중장기 마스터 플랜을 수립하는 절차. 

* 분석 마스터 플랜 : 일반적인 ISP 방법론을 활용하되, 데이터 분석 기획의 특성을 고려하여 수행하고, 기업에서 필요한 데이터 분석 과제를 빠짐없이 도출한 후 과제의 우선순위를 결정하고 단기 및 중,장기로 나누어 계획을 수립한다. 

 

② 우선 순위 평가 방법 및 절차

: 정의된 데이터 과제에 대한 실행 순서를 정하는 과정. 

분석 과제 도출

우선순위 평가 : 과제 우선순위 평가 기준 수립 후, 그에 따라 우선 순위 평가. 

우선순위 정렬 : 분석 과제 수행의 선/후 관계 분석을 통해 순위 조정

 

* Ex) 전략적 중요도 (전략적 필요성, 시급성)과 실행 용이성 (투자 용이성, 기술 용이성) 등 기업에서 고려하는 중요 가치 기준에 따라 다양한 관점에서우선순위 기준 수립하여 평가함. 

우선순위 평가 기준 설명
전략적 중요도 전략적 필요성 - 전략적 목표 및 복원적 업무에 직접적인 연관관계가 밀접한 정도
- 이슈 미해결 시 발생하게 될 위험 및 손실 정도
시급성 - 사용자 요구사항, 업무 능률 향상을 위해 시급히 수행되어야 하는지에 대한 정도
- 향후 경쟁우위 확보를 위한 중요성 정도
실행 용이성 투자 용이성 - 기간 및 인력 투입 용이성 정도
- 비용 및 투자예산 확보 가능성 검토
기술 용이성 - 적용 기술의 안정성 검증 정도
- 응용시스템, H/W 유지보수 용이성 정도
- 개발 Skill 성숙도 및 신기술 적용성 정도 

 

 

③ ROI(Return On Investment) 관점에서의 빅데이터 4V (3V + value) ; 빅데이터의 핵심 특징 

Volume 데이터의 크기/양 투자비용 (Investment) 요소, #3V
: 수집, 저장, 처리에 기술 및 투자 필요 
: 분석 과제 우선순위 평가시, 난이도에 해당
Variety  데이터 종류/유형 - 다양성
Velocity 데이터의 생성/처리 속도
Value 분석 결과 활용 및 실행을 통한 비즈니스 가치 비즈니스 효과 (Return) 요소
: 추구하거나 달성하고자 하는 목표 가치 
: 분석 과제 우선순위 평가시, 시급성에 해당

 

④ 분석 과제 우선순위 선정 기법

- 시급성과 난이도를 고려하여 우선순위를 선정함. 

- 시급성 : 전략적 중요도가 목표 가치에 부합하는지에 따른 시급성. 현재의 관점에서 전략적 가치를 둘 것인지, 미래의 중장기적 관점에 전략적 가치를 둘 것인지를 고려하고, 분석 과제의 목표가치를 함께 고려하여 시급성 여부를 판단

- 난이도 : 데이터를 생성, 저장, 가공, 분석하는 비용과 현재 기업의 분석 수준을 고려한 난이도. 현 시점에서 과제를 추진하는 것이 적용 비용측면과 범위 측면에서 바로 적용하기 쉬운 것인지, 또는 어려운 것인지에 판단 기준. 데이터 분석의 적합성 여부를 본다. 

- 즉, 과제의 범위를 시범과제 형태로 일부 수행할 것인지 or 처음부터 크게 수행할 것인지, 데이터 소스는 기업 내부의 데이터부터 우선 활용 후 외부 데이터까지 확대해 나갈 것인지에 대한 난이도를 고려. 

* 분석 거버넌스체계 수립(다음 절)에서 제시하는 분석 준비도 및 성숙도 진단 결과에 따라 해당 기업의 분석 수준을 파악하고, 이를 바탕으로 분석 적용 범위 및 방법에 따라 난이도 조정 가능. 

 

[ 포트폴리오 사분면을 통한 과제 우선순위 선정 ]

  시급성
← 현재 미래 →
난이도

↑Difficulty 

1사분면 
2사분면 
↓ Easy 3사분면  4사분면 
  • 시급성의 판단 기준은 전략적 중요도 및 목표 가치
  • 난이도는 현시점에서 과제를 추진하는 것이 분석 비용과 적용 범위 측면에서 쉬운 (Easy) 것인지 어려운 (Difficulty) 것인지에 대한 판단 기준
  • 1사분면: 전략적 중요도가 높아 경영에 미치는 영향이 큼, 현재 시급하게 추진이 필요함. 난이도가 높아 현재 수준에서 과제를 바로 적용하기 어려움 
  • 2사분면: 현재 시점에서는 전략적 중요도가 높지 않지만, 중장기적으로는 반드시 필요한 과제. 바로 적용하기에는 난이도가 높아 우선순위가 낮은 영역.  
  • 3사분면 : 전략적 중요도가 높아 현재 시점에 전략적 가치를 두고 있음. 난이도가 어렵지 않아 우선적으로 바로 적용할 가능성과 필요성이 있음. 우선순위가 가장 높아 일반적으로 가장 먼저 하는 것. (급하고 쉬운 것)
  • 4사분면 : 전략적 중요도가 높지 않아 중장기적 관점에서 과제 추진이 바람직. 과제를 바로 적용하는 것이 어렵지 않음. 
  • 우선순위를 시급성에 둘 경우 (반시계 방향으로), 3-4-2 순서 진행 
  • 우선순위를 난이도에 둘 경우 (시계방향으로), 3-1-2 순서 진행
  • 시급성이 높고 난이도가 높은 영역 (1사분면)은 경영진 또는 실무 담당자의 의사결정에 따라 적용 우선순위를 조정할 수 있음
  • 즉, 1사분면에서 3사분면으로 우선순위를 조정하여 추진 가능 (데이터 양, 특성, 시스템 분리, 분석 범위 조절 등에 따라 난이도를 조율하여)

< 출제 유형 > 

1. 분석 과제의 우선순위를 결정할 때, 시급성과 난이도를 모두 우선순위로 둘 때, 가장 먼저 추진해야 하는 것은? 

2. 분석 과제 우선순위 선정 매트릭스에 관한 설명 중 가장 적절하지 않은 것은? 

3. 포트폴리오 사분면 분석을 통한 과제 우선순위 선정 기법 중, 분석과제의 적용 우선순위를 시급성에 둔다면, 결정해야 할 우선순위는? 

 

⑤ 이행계획 수립

[ 로드맵 수립 ]

- 포트폴리오 사분면 분석을 통하여 1차 우선순위 결정

- 결정된 과제의 우선 순위를 토대로 분석 과제별 적용 범위 및 방식을 고려하여 최종적인 실행 우선순위를 결정 후, 단계적 구현 로드맵 수립

- 단계별로 추진 목표 정의

- 추진 과제별 선후행 관계를 고려하여 단계별 추진 내용 정렬

 

[ 세부 이행계획 수립 ]

- 고전적인 폭포수 방식*도 있으나, 반복적인 정렬 과정을 통해 프로젝트의 완성도를 높이는 방식을 주로 사용
- 모든 단계를 반복하기보다, 데이터 수집 및 확보와 분석 데이터를 준비하는 단계를 순차적 진행하고, 모델링 단계는 반복적으로 수행하는 혼합형을 많이 적용함

- 일정도 이러한 특성을 고려하여 수립해야 함. 

* 폭포수 방식 (water-fall) : 순차적인 소프트웨어 개발 프로세스


< 분석 거버넌스 체계 수립 >


거버넌스 체계 개요

[ 거버넌스 (Governance) ] 

- Government와 같은 어원

- 더 폭 넓은 의미로 진화하여, 기업, 비영리 기관 등에서 규칙, 규범 및 행동이 구조화, 유지, 규제되고 책임을 지는 방식 및 프로세스 

 

[ 분석 거버넌스 ] 

- 기업에서 데이터가 어떻게 관리, 유지, 규제되는지에 대한 내부적인 관리 방식이나 프로세스 

 

[ 데이터 거버넌스 ] 

- 데이터의 품질보장, 프라이버시 보호, 데이터 수명 관리, 전담조직과 규정정립, 데이터 소유권과 관리권 명확화 등을 통해 데이터가 적시에 필요한 사람에게 제공 되도록 체계를 확립하는 것

- 데이터 거버넌스가 확립되지 못하면 빅브라더*의 우려가 현실화될 가능성이 높음

* 빅브라더 : 정보의 독점으로 사회를 통제하는 관리 권력 혹은 그러한 사회체계

 

[ 분석 거버넌스 체계 구성 요소 ] 

- 분석 비용 및 예산은 구성 요소가 아님! 

Process 과제 기획/운영 프로세스
Organization 분석 기획/관리 및 추진 조직
System IT 기술/프로그램
Human Resource 분석 관련 교육 및 마인드 육성 체계
Data 데이터 거버넌스

[ 데이터 분석 수준 진단 ] 

- 데이터 분석 수준 진단의 목표 2가지 : 기업의 현재 분석 수준을 명확히 이해 하고 미래의 목표 수준을 정의 + 타 경쟁사에 비해 어느 정도 수준이고 어떠한 영역에 선택과 집중 및 보완을 해야 하는지 개선 방안 도출. 

- 즉, 데이터 분석 기법을 구현하기 위해 무엇을 준비하고 보완해야 하는지 등 분석의 유형 및 분석의 방향성 결정

- 분석 준비도(Readiness)*분석 성숙도(Maturity)*를 함께 평가함으로써 수행될 수 있음

* 분석 준비도 : 분석 업무 파악 , 인력 및 조직 , 분석 기법 , 분석 데이터 , 분석 문화 , 분석 인프라

* 분석 성숙도 : 비즈니스 부문 , 조직 역량 부문 , IT 부문을 대상으로 도입 단계 , 활용 단계 , 확산 단계 , 최적화 단계로 구분해 살펴 볼 수 있음

 

 

② 데이터 분석 준비도 프레임워크

- 목표 : 기업의 데이터 분석 도입의 수준을 파악하기 위한 진단방법

- 과정 : 진단 영역별로 세부 항목에 대한 수준 파악 → 진단 결과 전체 요건 중 일정 수준 이상 충족하면 분석 업무 도입 → 충족하지 못할 시 분석 환경 조성 

분석 업무 파악 발생한 사실 분석 업무
예측 분석 업무
시뮬레이션 분석 업무
최적화 분석 업무
분석 업무 정기적 개선
인력 및 조직 분석 전문가 직무 존재
분석 전문가 교육 훈련 프로그램
관리자의 기본 분석 능력
전사 분석 업무 총괄 조직 존재
경영진 분석 업무 이해 능력
분석 기법 업무별 적합한 분석 기법 사용
분석 업무 도입 방법론
분석 기법 라이브러리
분석 기법 효과성 평가
분석 기법 정기적 개선
분석 데이터 분석 업무를 위한 데이터 충분성, 신뢰성, 적시성
비구조적 데이터 관리
외부 데이터 활용 체계
기준 데이터 관리 (MDM)
분석 문화  사실에 근거한 의사 결정
관리자의 데이터 중시
회의 등에서 데이터 활용
경영진의 직관보다 데이터의 활용
데이터 공유 및 협업 문화
분석 인프라 운영 시스템 데이터 통합
EAI, ETL 등 데이터 유통체계
분석 전용 서버 및 스토리지
빅데이터 분석 환경
통계 분석 환경

비주얼 분석 환경

 

분석 성숙도 모델

- 조직의 성숙도 평가 도구 : CMMI (Capability Maturity Model Integration) 모델

- 성숙도 수준 분류 : 도입, 활용, 확산, 최적화

- 분석 성숙도 진단 분류 : 비즈니스 부문, 조직/역량부문, IT 부문 

단계 설명 비즈니스 부문 조직역량부문 IT 부문
도입 분석을 시작하여 환경과 시스템 구축 실적분석 및 통계
정기보고 수행
운영 데이터 기반
일부 부서에서 수행
담당자 역량에 의존
데이터 웨어하우스
데이터 마트
ETL/EAI
OLAP
활용 분석 결과를 실제 업무에 적용 미래 결과 예측
시물레이션
운영 데이터 기반
전문 담당 부서에서 수행
분석 기법 도입
관리자가 분석 수행
실시간 대시보드
통계분석 환경
확산 전사 차원에서 분석을 관리하고 공유 전사 성과 실시간 분석
프로세스 혁신 3.0
분석 규칙 관리
이벤트 관리
전사 모든 부서 수행
분석 COE 조직 운영
데이터 사이언티스트 확보
빅데이터 관리 환경
시뮬레이션/최적화
비주얼 분석
분석 전용 서버 
최적화 분석을 진화시켜 혁신 및 성과향상에 기여  외부 환경 분석 활용
최적화 업무 적용
실시간 분석

비즈니스 모델 진화
데이터 사이언스 그룹
경영진 분석 활용
전략 연계
분석 협업 환경
분석 Sandbox
프로세스 내재화

빅데이터 분석 

 

 

④ 분석 수준 진단 결과

- 기업의 현재 분석 수준을 객관적으로 파악하여, 이를 토대로 경쟁사의 분석 수준과 비교하여 분석 경쟁력 확보 및 강화를 위한 목표 수준 설정 가능. 

 

[ 분석 관점에서의 사분면 분석 ] 

- 분석 수준 진단 결과를 구분

- 향후 고려해야 하는 데이터 분석 수준에 대한 목표 방향을 정의

- 유형별 특성에 따라 개선 방안을 수립할 수 있음. 

  준비도
낮음 높음
성숙도 높음 정착형
준비도는 낮으나 기업 내부에서 제한적으로 사용하고 있어 우선적으로 분석의 정착이 필요한 기업
확산형
기업에 필요한 6 가지 분석 구성요소를 갖추고 있고, 부분적으로도 도입되어 지속적 확산이 가능한 기업
낮음 준비형
기업에 필요한 데이터, 인력, 조직, 분석 업무 등이 적용되어 있지 않아 사전 준비가 필요한 기업
도입형 
기업에서 활용하는 분석 업무, 기법 등은 부족하지만 적용 조직 등 준비도가 높아 바로 도입할 수 있는 기업

 

⑤ 분석 지원 인프라 방안 수립 

- 기획단계에서부터 장기적 , 안정적으로 활용할 수 있는 확장성을 고려한 플랫폼 구조*를 도입하는 것이 적절함

* 플랫폼 : 단순한 분석 응용프로그램 뿐만이 아니라, 분석 서비스를 위한 응용 프로그램이 실행될 수 있는 기초를 이루는 컴퓨터 시스템, 일반적으로 하드웨어에 탑재되어 데이터 분석에 필요한 프로그래밍 환경과 실행 및 서비스 환경을 제공하는 역할을 수행. 

- 분석 플랫폼이 구성되어 있는 경우에는, 새로운 데이터 분석 니즈가 존재할 경우, 개별적인 분석 시스템을 추가하는 방식이 아닌 서비스를 추가적으로 제공하는 방식으로 확장성을 높일 수 있음. 

광의의 분석 플랫폼 분석 서비스 제공 엔진  
분석 어플리케이션  
분석 서비스 제공 API  
데이터처리 프레임워크 협의의 분석 플랫폼
분석 엔진, 분석 라이브러리
운영체제  
하드웨어   

 

⑥ 데이터 거버넌스 체계 수립 

 

[ 데이터 거버넌스 정의 ]

- 전사 차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운영조직 및 책임 등의 표준화된 관리 체계를 수립하고 운영을 위한 프레임워크(Framework) 및 저장소(Repository)를 구축하는 것. 

- 데이터 거버넌스의 주요 관리 대상 : 마스터 데이터, 메타 데이터, 데이터 사전

- 데이터 거버넌스 체계의 구축으로 데이터의 가용성, 유용성, 통합성, 보안성, 안정성을 확보하여, 프로젝트를 성공으로 이끔. 

- 독자적으로 수행할 수도 있지만, 전사차원의 IT 거버넌스나 EA(Enterprise Architecture)의 구성 요소로써 구축되는 경우도 있음. 

 

[ 데이터 거버넌스 구성 요소 ]

: 유기적인 조합을 통하여 데이터를 비즈니스 목적에 부합하고 최적의 정보 서비스를 제공할 수 있도록 효과적으로 관리. 

원칙 데이터를 유지 관리하기 위한 지침과 가이드 
- 보안, 품질 기준, 변경 관리
조직 데이터를 관리할 조직의 역할과 책임
- 데이터 관리자, 데이터베이스 관리자, 데이터 아키텍트
프로세스 데이터 관리를 위한 활동과 체계
- 작업 절차, 모니터링 활동

 

[ 데이터 거버넌스 체계요소 ]

데이터 표준화 - 데이터 표준용어 설정: 사전 간 상호 검증이 가능하도록 점검 프로세스 포함.
- 명명규칙 수립:  언어별로 작성되어 매핑 상태 유지
- 메타 데이터, 데이터 사전 구축: 데이터 구조 체계 형성. 데이터 구조 체계 or 메타 엔터티 관계 다이어그램 제공. 
데이터 관리체계 - 데이터 정합성 및 활용의 효율성을 위해, 표준 데이터를 포함한 메타데이터와 데이터 사전 (Data Dictionary)의 관리 원칙 수립
- 수립된 원칙에 근거하여 관리와 운영을 위한 담당자 및 조직별 역활과 책임을 상세히 준비.
- 빅데이터의 급증에 따라, 데이터 생명 주기 관리방안을 수립하지 않으면 데이터 가용성 및 관리 비용 증대 문제에 직면 
데이터 저장소관리 - 메타데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소를 구성
- 저장소는 데이터 관리 체계 지원을 위한 워크플로우 및 관리용 응용 소프트웨어를 지원하고 관리 대상 시스템과의 인터페이스를 통한 통제가 이루어져야 함.
- 데이터 구조 변경에 따른 사전영향평가 수행되어야 효율적인 활용이 가능
표준화 활동 - 데이터 거버넌스 체계 구축 후, 표준 준수 여부를 주기적으로 점검, 모니터링을 실시
- 조직 내 안정적 정착을 위한 계속적인 변화 관리 및 주기적인 교육 진행 
- 지속적인 데이터 표준화 개선 활동을 통한 실용력 고취 

 

< 출제 유형 > 

1. 데이터 표준화의 특징으로 올바른 것은? 

2. 데이터 거버넌스에서 메타데이터 구축/ 표준용어 설정/명명규칙 수립 단계는? 

3. 다음은 데이터 거버넌스 중 무엇에 관한 설명인가? 

 

 

⑦ 데이터 조직 및 인력방안 수립 (데이터 분석을 위한 조직 구조) 

* 데이터 분석 조직

- 기업의 경쟁력 확보를 위해 비즈니스 질문과 데이터 분석의 가치를 발견하고, 이를 활용하여 비즈니스를 최적화하는 목표를 가짐

- 기업 내 존재하는 빅데이터 속에서 인사이트를 전파하고, 이를 활성화 하는 역할. 

- 기초 통계학 및 분석 방법에 대한 지식과 분석 경험을 가지고 있는 인력으로 전자 또는 부서 내 조직으로 구성하여 운영. 

- 조직 구조 및 인력 구성을 고려해 기업에 최적화 된 형태로 구성해야 함. 

조직 구조 형태 설명
집중형  - 조직내에 별도의 독립적인 분석 전담 조직 구성 (DSCoE; Data Science Center of Excellence)
- 분석 전담조직에서 회사의 모든 분석 업무를 담당 함
- 일부 협업 부서와 분석 업무가 중복(이중화) 또는 이원화될 가능성이 있음
기능중심 - 별도로 분석 조직을 구성하지 않고 각 해당 업무부서에서 직접 분석 하는 형태
- 일반적인 분석 수행구조, 전사적 관점에서 핵심 분석이 어려움
- 과거 실적에 국한된 분석 수행 가능성 높음, 일부 중복된 분석 업무를 수행할 수 있는 조직 구조.
분산 - 분석 조직의 인력들이 협업부서에 배치 되어 신속한 업무에 적합
- 전사 차원의 우선순위 수행, 베스트 프랙티스 공유 가능. 
- 부서 분석 업무와 역할 분담을 명확히 해야 함

 

⑧ 분석 과제 관리 프로세스 수립

과제 발굴 분석 아이디어 발굴, 분석 과제 후보 제안 (과제 후보 풀 구축), 분석 과제 확장
과제 수행 팀 구성, 분석 과제 실행, 분석 과제 진행 관리, 결과 공유/개선 

- 분석 조직이 지속적이고 체계적인 분석 관리 프로세스를 수행함으로써 조직 내 분석 문화 내재화 및 경쟁력을 확보할 수 있음. 

- 과제를 진행하면서 만들어진 시사점 (Lesson learned)을 포함한 결과물을 풀(pool)로 축적하고 관리하여 시행착오 최소화, 프로젝트 효율 진행. 

 

⑨ 분석 교육 및 변화 관리

- 변화 관리는, 모든 구성원이 데이터를 분석하고, 이를 바로 업무에 활용할 수 있도록 조직 전반에 분석 문화를 정착시키고 변화시키려는 시도 

- 분석 내재화 단계는 준비기 → 도입기 → 안정적 추진기로 이루어 지지만, 새로운 체계의 도입 시에는 저항 및 기존의 행태로 되돌아가려는 관성이 존재하기 때문에 교육 및 마인드 육성을 위한 적극적인 변화 관리가 필요함.

- 분석 조직 및 인력에 대한 지속적인 교육과 훈련이 필요함. 

 

[ 빅데이터 거버넌스 특징 ]

  • 기업이 가진 과거 및 현재의 모든 데이터를 분석하여 비즈니스 인사이트를 찾는 노력은 비용면에서 효율적이지 못함 
  • → 분석 대상 및 목적을 명확히 정의 하고, 필요한 데이터를 수집, 분석하여 점진적으로 확대해 나가는 것이 좋음
  • 빅데이터 분석에서 품질관리도 중요하지만 , 데이터 수명주기 관리방안을 수립 하지 않으면 데이터 가용성 및 관리 비용 증대 문제에 직면할 수 있음
  • ERD 는 운영 중인 데이터베이스와 일치하기 위해 계속해서 변경사항을 관리 하여야 함
  • 산업 분야별 , 데이터 유형별 , 정보 거버넌스 요소별로 구분하여 작성함
  • 적합한 분석 업무를 도출하고 가치를 높여줄 수 있도록 분석 조직 및 인력에 대해 지속적인 교육과 훈련을 실시함
  • 개인정보보호 및 보안 에 대한 방법을 마련해야 함

⑩ 관련 용어 정리 (단답형 기출)

Servitization 제조업과 서비스업의 융합을 나타내는 용어 
예) 웅진 코웨이의 코디
CoE (Center of Excellence) 구성원들이 비즈니스 역량, IT 역량 및 분석 역량을 고루 갖추어야 하며, 협업부서 및 IT 부서와의 지속적인 커뮤니케이션을 수행하는 조직 내 분석 전문조직을 말함
ISP(정보전략계획) 기업의 경영목표 달성에 필요한 전략적 주요 정보를 포착하고, 주요 정보를 지원하기 위해 전사적 관점의 정보 구조를 도출하며, 이를 수행하기 위한 전략 및 실행 계획을 수립하는 전사적인 종합추진 계획
Sandbox 보안모델, 외부 접근 및 영향을 차단 하여 제한된 영역 내에서만 프로그램을 동작시키는 것

 


[ Reference ]

1. 2018 데이터 분석 준 전문가 ADsP, 데이터에듀, 윤종식 저.  

2. 데이터 분석 전문가 가이드, 한국데이터진흥원.

3. EduAtoZ - Programming - YouTube

4. [ADsP 핵심요약] 2과목. 데이터분석 기획 : 네이버 블로그 (naver.com)

32회 데이터분석 준전문가 (ADsP)

Study log  (D - 21)

 

Last update : 2022.02.05.토

2022. © Jalynne.log

# 나를 위한 공부 로그

# 테이블이 많으니 컴퓨터로 보기

# 구조화 해서 기억하기

3과목 - 데이터 분석 기획 (객관식 8문항, 단답형 2문항)

 

1장. 데이터 분석 기획의 이해

  • 분석 기획 방향성 도출
  • 분석 방법론
  • 분석 과제 발굴
  • 분석 프로젝트 관리 방안

< 분석 기획 방향성 도출 >


① 분석 기획이란?  

  • 실제 분석을 수행하기에 앞서, 분석을 수행할 과제의 정의 및 의도했던 결과를 도출할 수 있도록 이를 적절하게 관리할 수 있는 방안을 사전에 계획하는 일련의 작업
  • 어떤 목표 (what)를 달성하기 위해 (why) 어떤 데이터를 가지고 어떤 방식 (how)으로 수행할 지에 대한 일련의 계획을 수립하는 작업
  • 성공적인 분석 결과 도출을 위한 중요 사전작업
  • 해당 문제 영역에 대한 전문성 역량 (Domain knowledge)및 통계학적 지식을 활용한 분석 역량 (Math & Statistics)과, 분석 도구인 데이터 및 프로그래밍 기술 역량 (Information technology)에 대한 균형잡힌 시각을 가지고 방향성 및 계획을 수립해야 함. 

② 분석 주제 유형 4가지 

: 분석의 대상 (what), 분석의 방법 (how)에 따라 4가지로 구분 

분석 주제 유형 분류  대상 (What)
Known Un-known
방법 (How)  Known 최적화 (Optimization) 
*분석 대상 및 분석 방법을 이해하고, 현 문제를 최적화의 형태로 수행
통찰 (Insight)
*분석 대상이 불분명하고, 분석 방법을 알고 있는 경우 인사이트 도출
Un-known 솔루션 (Solution)
*분석 과제는 수행되고, 분석 방법을 알지 못하는 경우, 솔루션을 찾는 방식으로 분석 과제를 수행
발견 (Discovery)
*분석 대상, 방법을 모른다면 발견을 통해 분석 대상 자체를 새롭게 도출

* 분석대상 알면 OS // 모르면 ID 

* 특정한 주제에 대한 분석이라도, 위의 네 가지 유형을 넘나들며 분석을 수행함. 

 

③ 목표 시점 별 분석 기획 방안 

: 과제 중심적인 접근 방식의 단기방안, 마스터플랜 단위의 중장기 방안으로 구분  

분류  과제 단위
- 당면한 분석 주제의 해결
마스터플랜 단위
- 지속적 분석 문화 내재화
1차목표 Speed & Test Accuracy & Deploy
과제의 유형 Quick - Win (단기적)
Long Term view  (중장기적)
접근 방식  Problem solving (문제 해결) Problem definition (과제 정의)

*Quick Win : 즉각적인 실행을 통한 성과 도출 (프로세스 진행 과정에서 일반적인 상식과 경험으로 원인이 명백한 경우 바로 개선함으로써 과제를 단기로 달성하고 , 추진하는 과정)

→ 두 가지를 융합적으로 적용하는 것이 바람직함. 

→ 프로젝트 관리 역량과 리더십 역량이 필요함. 

 

< 출제 유형 > 

1. 목표 시점별로 당면한 과제를 빠르게 해결하는 과제 중심적인 접근 방식의 특징이 아닌 것은? 

 

④ 분석 기획시 고려 사항 

가용한 데이터
(Available data)
- 분석을 위한 데이터 확보 
- 데이터 유형에 따라 적용 가능한 solution 및 분석 방법이 다름
- 데이터의 *유형 분석이 선행적으로 이루어져야 함 (정형, 비정형, 반정형) 
적절한 유스케이스 탐색
(Proper use-case)
- 유사 분석 시나리오 및 솔루션이 있다면 최대한 활용 
- 바퀴를 재 발명 하지 마라.!!
장애 요소들에 대한 사전 계획 수립
(Low barrier of execution)
- 장애 요소들에 대한 사전 계획 수립 필요 
- 일회성 분석으로 그치지 않고 조직 역량을 내재화 하기 위해서는 충분하고 계속적인 교육 및 활용방안 등의 변화 관리가 고려되어야 함. 

< 출제 유형 > 

1. 분석 기획 고려 사항에 대한 부적절한 설명은? 

2. 분석 과제 기획 시 고려요소가 아닌 것은? 

 

⑤ 데이터의 유형 및 저장 방식 

데이터의 유형  특징 예시
정형 데이터 형태( 고정된 필드)가 있으며 연산이 가능.
주로 관계형 DB (RDBMS)에 저장 됨. 
데이터 수집 난이도가 낮음. 
내부 시스템인 경우가 대부분. 
파일 형태라도 내부에 형식을 가지고 있음. 
관계형 데이터베이스, 스프레드시트, CSV 등
저장 방식 : ERP , CRM Transaction data, Demand Forecast
반정형 데이터 형태( 스키마, 메타데이터)가 있으며 연산이 불가능. 
주로 파일에 저장됨. 
데이터 수집 난이도가 중간.
보통 API 형태로 제공되기 때문에 데이터 처리 기술 (파싱)이 요구됨. 
XML, HTML, JSON, 로그형태 (웹로그, 센서데이터)
저장 방식 : Competitor Pricing , Sensor, machine data
*XML : Extensible Markup Language, 다목적 마크업 언어 (태그를 이용한 언어). 인터넷에 연결된 시스템끼리 데이터를 쉽게 주고 받을 수 있게 하여 HTML의 한계 극복. 
비정형 데이터  형태가 없으며 연산이 불가능. 
주로 NoSQL에 저장 됨. 
데이터 수집 난이도가 높음. 
텍스트 마이닝 혹은 파일일 경우 파일을 데이터 형태로 파싱해야 하기 때문에 수집 데이터 처리가 어려움. 
영상, 이미지, 음성, 텍스트 등.
저장 방식 : email , SNS, voice, IoT, 보고서 , news
데이터의 저장방식 설명
RDB - 관계형 데이터를 저장, 수정, 관리할 수 있게 해주는 데이터베이스
- Oracle, MSSQL, MySQL 등
NoSQL - 비관계형 데이터 저장소
- MongoDB, Cassandra, Hbase , Redis
분산 파일 시스템 - 분산된 서버의 디스크에 파일 저장.
- HDFS

< 출제 유형 > 

1. 다음 중 데이터 유형이 다른 것은? 

2. 정형-반정형-비정형 데이터 순서로 옳은 것은? 


< 분석 방법론 >


분석 방법론 개요

필요성 데이터 분석을 효과적으로 기업에 정착하기 위해 데이터 분석을 체계화하는 절차와 방법이 정리된 데이터 분석 방법론 수립이 필요
구성요소  상세한 절차와 방법 (Procedures, Method) 
도구와 기법 (Tools & Techniques)
템플릿과 산출물 (Template & Output)

② 기업의 합리적 의사결정 장애 요소 

  • 고정관념
  • 편향된 생각
  • 프레이밍 효과 (Framing effect) : 동일한 사건이나 상황임에도 불구하고 제시되는 방법에 따라 사람들의 선택이나 판단이 달라지는 왜곡 현상으로, 특정 사안을 어떤 시각으로 바라보느냐에 따라 해석이 달라진다는 이론

③ 분석 방법론의 모델 세 가지 

폭포수 모델
Waterfall model
- 단계를 순차적으로 진행하는 방법
- 이전 단계가 완료되어야 다음 단계로 순차 진행하는 하향식 진행
- 문제점이 발견되면 전단계로 돌아가는 피드백 수행
나선형 모델 
Spiral model 
- 반복을 통해 점증적으로 개발
- 반복에 대한 관리 체계가 효과적으로 갖춰지지 못한 경우 복잡도가 상승하여 프로젝트 진행이 어려울 수 있음
프로토타입 모델 
Prototype model
- 일단 분석을 시도해보고 그 결과를 확인해가면서 반복적으로 개선해 나가는 방법
- 신속하게 해결책 모형 제시, 상향식 접근방법
- 사용자 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확히
파악하기 어려운 상황에서 사용

- 사용자들이 이렇게 만들면 편하게 사용할거야 라는 가설을 생성하게 됨
- 프로토타입을 보고 완성시킨 결과물을 통해 가설을 확인 할 수 있음
- 특정 가설을 갖고 서비스를 설계하고 디자인에 대한 실험도 실행함
- 시제품이 나오기 전의 제품의 원형으로 개발 검증과 양산 검증을 거쳐야 시제품이 될 수 있음
- 정보시스템의 미완성 버전 또는 중요한 기능들이 포함되어 있는 시스템의 초기모델

 

④ KDD (Knowledge Discovery in Database ) 분석 방법론

: 데이터베이스에서 의미있는 지식을 탐색하는 데이터마이닝 프로세스

 

[ 데이터에서 패턴을 찾는 과정 ] 

1) 분석 대상 비즈니스 도메인 이해

2) 분석 대상 데이터 셋 선택과 생성

3) 데이터에 포함되어 있는 노이즈 (Noise)와 이상값 (Outlier) 등을 제거하는 정제작업이나 전처리 작업 실시 

4) 분석 목적에 맞는 변수를 찾고, 필요시 데이터의 차원을 축소하는 데이터를 변경

5) 분석 목적에 맞는 데이터마이닝 기법을 선택 

6) 분석 목적에 맞는 데이터마이닝 알고리즘을 선택

7) 데이터마이닝 실행

8) 데이터마이닝 결과에 대한 해석 

9) 데이터마이닝에서 발견된 지식 활용 

* 데이터마이닝 : 많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하여, 미래에 실행 가능한 정보를 추출해 내고 의사 결정에 이용하는 과정. 

 

[ KDD의 분석 절차]

데이터셋 선택
Selection
- 선택에 앞서 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정 필수. 
- DB 또는 raw data 에서 분석에 필요한 데이터 선택
- 데이터 마이닝에 필요한 타겟 데이터 구성.
데이터 전처리
Preprocessing
- 추출된 분석 대상 데이터 셋에 포함되어 있는 잡음 (Noise), 이상값 (Outlier), 결측치 (Missing value)를 식별하고 필요시 제거 or 의미있는 데이터로 재 처리하여 데이터 셋을 정제
데이터 변환
Transformation
- 정제를 마친 데이터를 전처리 과정을 통해 분석 목적에 맞는 변수를 생성, 선택함.
- 데이터의 차원을 축소하여 효율적으로 데이터마이닝을 적용할 수 있도록
데이터셋의 변경 작업을 거침 
- 데이터 마이닝 프로세스의 진행을 위해 학습용 데이터와 검증용 데이터로 데이터 분리. 
데이터 마이닝
Data mining
- 학습용 데이터를 이용해서 분석 목적에 맞는 데이터마이닝 기법을 선택하고 적절한 데이터 마이닝 기법 및 알고리즘 선택
- 데이터의 패턴을 찾거나 분류 또는 예측 등의 마이닝 작업 시행
데이터 마이닝 결과 평가 
Interpretation / Evaluation
- 데이터 마이닝 결과에 대한 해석과 평가, 그리고 분석 목적과의 일치성 확인
- 발견한 지식을 업무에 활용하기 위한 방안 모색. 
- 필요에 따라 전 프로세스를 반복 수행. 

 

⑤ CRISP-DM (Cross-Industry Standard Process for Data Mining) 분석 방법론 

- 일방향으로 구성되어 있지 않고, 단계간 피드백을 통해 단계별 완성도를 높이도록 구성. 

 

[ CRISP-DM 프로세스의 4 계층 ] : Hierarchical process model 

CRISP process
model
Phases
(단계)
최 상위 레벨, 여러 개의 단계로 구성되어 있음.
Generic Tasks
(일반화 태스크)
데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위 
CRISP process Specialized Tasks
(세분화 태스크)
일반화 태스크를 구체적으로 수행함
Process Instances
(프로세스 실행)
데이터 마이닝을 통한 구체적인 실행을 포함 

 

[ CRISP-DM 프로세스의 6 단계 ]

단계
(일방향이 아닌 피드백 가능)
특징 수행 내용
업무 이해
Business Understanding
- 비즈니스 관점 프로젝트의 목적과 요구사항을 이해하기 위한 단계
- 도메인 지식을 데이터 분석을 위한 문제 정의로 변경하고 초기 프로젝트 계획을 수립하는 단계
업무 목적 파악, 상황 파악,  데이터 마이닝 목표 설정, 프로젝트 계획 수립
데이터 이해
Data Understanding
- 분석을 위한 데이터 수집 , 데이터 속성 이해를 위한 과정
- 데이터 품질에 대한 문제점 식별 및 숨겨져 있는 인사이트를 발견하는 단계
* KDD 의 데이터 셋 준비, 데이터 전처리에 해당하는 단계 
초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
데이터 준비
Data Preparation
- 분석을 위해 수집된 데이터에서 분석 기법에 적합한 데이터셋을 편성하는 단계
- 많은 시간이 소요될 수 있음
* KDD 의 Transformation 과 관련 
분석용 데이터셋 선택 , 데이터 정제 , 데이터 통합 , 데이터 포맷팅
모델링
Modeling
- 다양한 모델링 기법과 알고리즘을 선택
- 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계
- 모델링 단계를 통해 찾아낸 모델은 테스트용 데이터셋으로 평가하여, 모델 과적합 (Overfitting) 등의 문제를 발견하고 대응 방안 마련
모델링 기법 선택, 모델 테스트 계획 설계, 모델링 작성, 모델 평가
평가
Evaluation
- 모델링 단계에서 얻은 모델이 프로젝트의 목적에 부합하는지 평가
- 데이터 마이닝 결과를 수용할 것인지 최종적으로 판단하는 과정
분석 결과 평가 , 모델링 과정 평가 , 모델 적용성 평가
전개
Deployment
- 완성된 모델을 실 업무에 적용하기 위한 계획 수립 
- 모니터링과 모델의 유지보수 계획 마련
- 프로젝트 종료 관련 프로세스를 수행하여 프로젝트를 마무리 함. 
전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료보고서 작성, 프로젝트 리뷰 

 

⑥ 빅데이터 분석 방법론 

[ 분석 방법론의 구성 ] : 일반적으로 방법론은 계층적 프로세스 모델 (Stepwised process model)의 형태로 구성되어 있음. 

단계
(Phase)
- 최상위 계층으로서, 프로세스 그룹 (Process group)을 통하여 완성된 단계별 산출물이 생성됨.
- 각 단계는 기준선 (Baseline)으로 설정되어 관리 되어야 하고, 버전관리 (Configuration management) 등을 통하여 통제가 이루어 져야 한다. 
 → 단계별 완료 보고서
태스크
(Task)
- 각 단계는 여러 개의 태스크로 구성 됨
- 즉, 각 태스크는 단계를 구성하는 단위활동으로, 물리적 또는 논리적 단위로 품질 검토의 항목이 됨. 
→  보고서 
스탭
(Step) 
- WBS (Work breakdown structure)의 워크 패키지에 해당됨.
- 입력 자료 (Input), 처리 및 도구 (Process & tool ), 출력자료 (Output)으로 구성된 단위 프로세스 (Unit process)
→  보고서 구성 요소 

[ 빅데이터 분석 방법론의 5 단계] 

▶ 1단계 : 분석 기획 (Planning)

주요 업무 Tasks Steps 
비즈니스 이해 및 범위 설정
비즈니스 이해 분석 대상인 업무 도메인을 이해하기 위해 내부 업무 매뉴얼과 관련 자료, 외부의 관련 비즈니스 자료 조사 및 프로젝트 진행을 위한 방향 설정

- 입력 자료 : 업무 매뉴얼, 업무 전문가 지식, 빅데이터 분석 대상 도메인에 대한 관련 자료
- 프로세스 및 도구 : 자료 수집 및 비즈니스 이해
- 출력 자료 : 비즈니스 이해 및 도메인 문제점 
프로젝트 범위 설정 프로젝트 목적에 부합하는 범위를 명확히 설정
프로젝트에 참여하는 관계자들의 이해를 일치시키기 위하여 구조화된 프로젝트 범위 정의서 SOW(Statement of Work) 를 작성

- 입력 자료 : 중장기 계획서, 빅데이터 분석 프로젝트 지시서, 비즈니스 이해 및 도메인 문제점
- 프로세스 및 도구 : 자료 수집 및 비즈니스 이해, 프로젝트 범위 정의서 작성 절차
- 출력 자료 : 프로젝트 범위 정의서 

프로젝트 정의 및 계획수립
데이터 분석 프로젝트 정의 프로젝트의 목표 및 KPI, 목표 수준 등을 구체화 하여 상세 프로젝트 정의서 작성 , 프로젝트의 목표를 명확화 하기 위해 모델 운영 이미지 및 평가 기준 설정

- 입력 자료 : 프로젝트 범위 정의서, 빅데이터 분석 프로젝트 지시서
- 프로세스 및 도구 : 프로젝트 목표 구체화, 모델 운영 이미지 설계
- 출력 자료 : 프로젝트 정의서, 모델 운영 이미지 설계서, 모델 평가 기준 

프로젝트 수행 계획 수립 프로젝트 수행 계획서 작성 , 프로젝트의 목적 , 배경 , 기대효과, 수행방법 일정 및 추진 조직 WBS 작성
* WBS : Work Breakdown structure, 작업 분할 구조도, 전체 업무를 분류하여 구성 요소로 만든 후 각 요소를 평가하고 일정별로 계획하며 그것을 완수할 수 있는 사람에게 할당해주는 역할
프로젝트 위험 계획 수립
데이터 분석 위험 식별  앞서 진행된 프로젝트 산출물과 정리 자료 (Lession learned)를 참조하고 전문가의 판단을 활용하여, 빅데이터 분석 프로젝트를 진행하면서 발생 가능한 모든 위험을 식별함. 
식별된 위험은 위험의 영향도, 빈도, 발생가능성에 따라 위험의 우선순위를 설정. 

- 입력 자료 : 프로젝트 범위 정의서, 프로젝트 수행 계획서, 선행 프로젝트 산출물 및 정리자료 
- 프로세스 및 도구 : 위험 식별 절차, 위험 영향도 및 발생 가능성 분석, 위험 우선순위 판단
- 출력 자료 : 식별된 위험 목록 

위험 대응 계획 수립  식별된 위험에 대하여 상세한 정량적, 정성적 분석을통해 위험 대응 방안을 수립.
예상되는 위험에 대한 대응은 회피 (Avoid), 전이 (Transfer), 완화 (Mitigate), 수용 (Accept)으로 구분하여 위험관리 계획서를 작성

- 입력 자료 : 식별된 위험 목록, 프로젝트 범위 정의서, 프로젝트 수행 계획서
- 프로세스 및 도구 : 위험 정량적 분석, 위험 정성적 분석
- 출력 자료 : 위험관리 계획서 

 2단계 : 데이터 준비 (Preparing)

주요 업무 Tasks Steps
필요 데이터 정의  데이터 정의 분석에 필요한 데이터를 정의.
정형 , 비정형 , 반정형 등의 모든 내 외부 데이터를 포함하고 데이터의 속성, 데이터 오너 , 데이터 관련 시스템 담당자 등을 포함하는 데이터 정의서 작성

- 입력 자료 : 프로젝트 수행 계획서, 시스템 설계서, ERD(Entity Relationship Diagram), 메타데이터 정의서, 문서 자료 
- 프로세스 및 도구 : 내,외부 데이터 정의, 정형 비정형 반정형 데이터 정의
- 출력 자료 : 데이터 정의서

데이터 획득 방안 수립 구체적인 데이터 수집 방안을 수립. 
내부 데이터 : 부서 간 업무 협조, 개인정보보호 및 정보 보안과 관련한 문제점을 사전에 점검
외부 데이터 : 시스템 간 다양한 인터페이스 및 법적인 문제점을 고려하여 상세한 계획 수립

- 입력 자료 : 데이터 정의서, 시스템 설계서, ERD, 메타데이터 정의서, 문서자료, 데이터 구입
- 프로세스 및 도구 : 데이터 획득 방안 수립
- 출력 자료 :  데이터 획득 계획서 

데이터 스토어 설계 정형 데이터 스토어 설계 관계형 데이터베이스 (RDBMS)를 사용하고 , 데이터의 효율적 저장과 활용을 위해 데이터 스토어의 논리적, 물리적 설계를 구분하여 설계함

- 입력 자료 : 데이터 정의서, 데이터 획득 계획서
- 프로세스 및 도구 : 데이터베이스 논리설계 및 물리설계, 데이터 매핑
- 출력 자료 : 정형 데이터 스토어 설계서, 데이터 매핑 정의서 

비정형 데이터 스토어 설계  하둡, NoSQL 등을 이용하여 비정형 또는 반정형 데이터를 저장하기 위한 논리, 물리적 데이터 스토어 설계

- 입력 자료 : 데이터 정의서, 데이터 획득 계획서
- 프로세스 및 도구 : 비정형, 반정형 데이터 논리 설계 및 물리설계
- 출력 자료 : 비정형 데이터 스토어 설계서, 데이터 매핑 정의서 

데이터 수집 및 정합성 점검 데이터 수집 및 저장 크롤링 등의 데이터 수집을 위한 ETL 등의 다양한 도구와 API, 스크립트 프로그램 등으로 데이터를 수집
수집된 데이터를 설계된 데이터 스토어에 저장함
* ETL(Extract Transformation Loading) : 다양한 데이터를 취합해 데이터를 추출하고 하나의 공통된 포맷으로 변환해 데이터 웨어 하우스나 데이터 마트 등에 적재하는 과정을 지원하는 도구
* API(Application Programming Interface) : 라이브러리에 접근하기 위한 규칙들을 정의한 것

- 입력 자료 : 데이터 정의서, 데이터 획득 계획서, 데이터 스토어 설계서
- 프로세스 및 도구 : 데이터 크롤링 도구, ETL 도구, 데이터 수집 스크립트
- 출력 자료 : 수집된 분석용 데이터 

데이터 정합성 (무결성) 점검  데이터 스토어의 품질 점검을 통해 데이터의 정합성 확보
데이터 품질개선이 필요한 부분에 대해 보완 작업 진행

- 입력 자료 : 수집된 분석용 데이터
- 프로세스 및 도구 : 데이터 품질 확인, 데이터 정합성 점검 리스트
- 출력 자료 : 데이터 정합성 점검 보고서 

3단계 : 데이터 분석 (Analyzing)

주요 업무 Tasks Steps
분석용 데이터 준비
비즈니스 룰 확인  비즈니스 이해, 도메인 문제점 인식, 프로젝트 정의 등을 이용하여 프로젝트의 목표를 정확하게 인식.
이러한 이해를 바탕으로 세부적인 비즈니스 룰을 파악하고 분석에 필요한 데이터의 범위를 확인

- 입력 자료 : 프로젝트 정의서, 프로젝트 수행 계획서, 데이터 정의서, 데이터 스토어 
- 프로세스 및 도구 : 프로젝트 목표 확인, 비즈니스 룰 확인 
- 출력 자료 : 비즈니스 룰, 분석에 필요한 데이터 범위
분석용 데이터 셋 준비 데이터 스토어로부터 분석에 필요한 정형,비정형 데이터를 추출.
필요시 적절한 가공을 통해 분석도구 입력 자료로 사용될 수 있도록 편성. 
추출된 데이터를 데이터베이스나 구조화된 형태로 구성하고, 필요시 분석을 위한 작업공간과 전사차원의 데이터 스토어로 분리. 

- 입력 자료 : 데이터 정의서, 데이터 스토어
- 프로세스 및 도구 : 데이터 선정, 데이터 변환, ETL 도구 
- 출력 자료 : 분석용 데이터셋
텍스트 분석 텍스트 데이터 확인 및 추출 텍스트 분석에 필요한 비정형 데이터를 전사차원의 데이터 스토어에서 확인하고 필요한 데이터를 추출

- 입력 자료 : 비정형 데이터 스토어
- 프로세스 및 도구 : 분석용 텍스트 데이터 확인, 텍스트 데이터 추출 
- 출력 자료 : 분석용 텍스트 데이터 
텍스트 데이터 분석 추출된 텍스트 데이터를 분석 도구로 적재하여 다양한 기법을 분석하고 모델을 구축 
텍스트 분석을 위해서는 용어사전을 사전에 확보하거나, 업무 도메인에 맞도록 작성해야 함. 
구축된 모델은 텍스트 시각화 도구를 이용하여 모델의 의미전달을 명확하게 함. 

- 입력 자료 : 분석용 텍스트 데이터, 용어사전 (용어 유의어 사전, 불용어 사전 등)
- 프로세스 및 도구 : 분류체계 설계, 형태소 분석, 키워드 도출, 토픽 분석, 감성 분석, 의견분석, 네트워크 분석
- 출력 자료 : 텍스트 분석 보고서 
탐색적 분석
(Exploratory Data Analysis, EDA)
탐색적 데이터 분석 다양한 관점 별로 기초 통계량 등을 산출하고, 데이터의 분포와 변수간의 관계 등 데이터 자체의 특성 및 데이터의 통계적 특성을 이해하고, 모델링을 위한 기초 자료로 활용.

- 입력 자료 : 분석용 데이터셋
- 프로세스 및 도구 : EDA 도구, 통계분석, 변수 간 연관성 분석, 데이터 분포 확인
- 출력 자료 : 데이터 탐색 보고서 
데이터 시각화 탐색적 분석을 위한 도구로 활용. 이 단계에서 수행된 데이터 시각화는 모델링 또는 향후 시스템 구현을 위한 사용자 인터페이스 또는 프로토타입으로 활용될 수도 있다. 

- 입력 자료 : 분석용 데이터셋
- 프로세스 및 도구 : 시각화 도구 및 패키지, 인포그래픽, 시각화 방법론
- 출력 자료 : 데이터 시각화 보고서
모델링
데이터 분할 모델의 과적합과 일반화를 위하여 분석용 데이터 셋을 모델 개발을 위한 훈련용 데이터와 모델의 검증력을 테스트 하기 위한 테스트용 데이터로 분할. 
모델에 적용하는 기법에 따라 교차검증을 수행하거나, 앙상블 기법을 적용할 경우 데이터 분할 또는 검증횟수, 생성 모델 개수 등을 설정. 

- 입력 자료 : 분석용 데이터셋
- 프로세스 및 도구 : 데이터 분할 패키지
- 출력 자료 : 훈련용 데이터, 테스트용 데이터
데이터 모델링 분석용 데이터를 이용한 가설 설정을 통하여 통계 모델을 만들거나, 기계학습을 이용한 데이터의 분류, 예측, 군집 등의 기능을 수행하는 모델 제작 
기계학습은 지도학습과 비지도학습 등으로 나뉘어 다양한 알고리즘 적용. 
필요시 비정형 데이터 분석 결과를 통합적으로 활용하여 프로젝트 목적에 맞는 통합 모델을 수행. 

- 입력 자료 : 분석용 데이터셋
- 프로세스 및 도구 : 통계 모델링 기법, 기계학습, 모델 테스트
- 출력 자료 : 모델링 결과 보고서 
모델 적용 및 운영방안 모델을 가동 중인 운영 시스템에 적용하기 위해서는 모델에 대한 상세 알고리즘 설명서 작성이 필요. 
알고리즘 설명서는 시스템 구현 단계에서 중요한 입력 자료로 활용됨
모델의 안정적 운영을 모니터링 하는 방안도 수립함. 

- 입력 자료 : 모델링 결과보고서 
- 프로세스 및 도구 : 모니터링 방안 수립, 알고리즘 설명서 작성
- 출력 자료 : 알고리즘 설명서, 모니터링 방안 
모델평가 및 검증
모델 평가 프로젝트 정의서의 모델 평가 기준에 따라 모델을 객관적으로 평가
품질관리 차원에서 모델 평가 프로세스를 진행. 
모델 평가를 위해 모델 결과 보고서 내의 알고리즘을 파악하고 테스트용 데이터나, 필요시 모델 검증을 위한 별도의 데이터를 활용. 

- 입력 자료 : 모델링 결과 보고서, 평가용 데이터
- 프로세스 및 도구 : 모델 평가, 모델 품질관리, 모델 개선작업
- 출력 자료 : 모델 평가 보고서
모델 검증 모델의 실적용성을 검증하기 위해 검증용 데이터를 이용하여 모델 검증 작업을 실시 
모델 검증보고서를 작성함
검즈용 데이터는 모델 개발 및 평가에 활용된 훈련용이나 테스트용 데이터가 아닌 실 운영용 데이터를 확보하여, 모델의 품질을 최종 검증.

- 입력 자료 : 모델링 결과 보고서, 모델평가 보고서, 검증용 데이터 
- 프로세스 및 도구 : 모델 검증
- 출력 자료 : 모델 검증 보고서 

4단계 : 시스템 구현 (Developing)

주요 업무 Tasks Steps
설계 및 구현
 시스템 분석 및 설계 가동중인 시스템을 분석하고 알고리즘 설명서에 근거하여, 응용시스템 구축 설계 프로세스 진행. 
시스템 분석과 설계는 사용 중인 정보 시스템 개발 방법론을 커스터마이징 하여 적용할 수 있다. 

- 입력 자료 : 알고리즘 설명서, 운영중인 시스템 설계서
- 프로세스 및 도구 : 정보시스템 개발방법론
- 출력 자료 : 시스템 분석 및 설계서

시스템 구현 시스템 분석 및 설계서에 따라 BI 패키지를 활용하거나, 새롭게 시스템을 구축하거나 가동중인 운영시스템의 커스터마이징 등을 통해 설계된 모델 구현. 

- 입력 자료 : 시스템 분석 및 설계서, 알고리즘 설명서
- 프로세스 및 도구 : 시스템 통합 개발 도구 (IDE), 프로그램 언어, 패키지
- 출력 자료 : 구현 시스템
시스템 테스트 및 운영
시스템 테스트 구축된 시스템의 검증을 위하여 단위 테스트, 통합 테스트, 시스템 테스트 등을 실시 
시스템 테스트는 품질 관리 차원에서 진행하여, 적용된 시스템의 객관성과 완전성을 확보

- 입력 자료 : 구현 시스템, 시스템 테스트 계획서 
- 프로세스 및 도구 : 품질관리 활동
- 출력 자료 : 시스템 테스트 결과보고서 
시스템 운영 계획  구현된 시스템을 지속적으로 활용하기 위하여 시스템 운영자, 사용자를 대상으로 필요한 교육을 실시하고 시스템 운영계획을 수립 

- 입력 자료 : 시스템 분석 및 설계서, 구현 시스템
- 프로세스 및 도구 : 운영계획 수립, 운영자 및 사용자 교육
- 출력 자료 : 운영자 매뉴얼, 사용자 매뉴얼, 시스템 운영 계획서 

 5단계 : 평가 및 전개 (Deploying)

주요 업무 Tasks Steps
모델 발전 계획 수립  모델 발전 계획 개발된 모델의 지속적인 운영과 기능 향상을 위한 발전계획을 상세하게 수립
모델의 계속성을 확보함. 

- 입력 자료 : 구현 시스템, 프로젝트 산출물
- 프로세스 및 도구 : 모델 발전 계획 수립
- 출력 자료 : 모델 발전 계획서 

프로젝트 평가 및 보고 
프로젝트 성과 평가 프로젝트의 정량적 성과와 정성적 성과로 나누어 성과 평가서를 작성

- 입력 자료 : 프로젝트 산출물, 품질관리 산출물, 프로젝트 정의서, 프로젝트 수행 계획서
- 프로세스 및 도구 : 프로젝트 평가 기준, 프로젝트 정량적 평가, 프로젝트 정성적 평가
- 출력 자료 : 프로젝트 성과 평가서 
프로젝트 종료 프로젝트 진행 과정의 모든 산출물 및 프로세스를 지식자산화 하고, 최종 보고서를 작성하여 의사소통 절차에 따라 보고하고 종료. 

- 입력 자료 : 프로젝트 산출물, 품질관리 산출물, 프로젝트 정의서, 프로젝트 수행 계획서, 프로젝트 성과 평가서 
- 프로세스 및 도구 : 프로젝트 지식자산화 작업, 프로젝트 종료 
- 출력 자료 : 프로젝트 최종 보고서 

 


< 분석 과제 발굴 >


① 분석 과제 도출 방법 

: 분석 과제는 풀어야 할 다양한 문제를, 데이터 분석 문제로 변환한 후, 프로젝트로 수행할 수 있는 과제 정의서 형태로 도출된다. 과제를 도출하기 위한 방식은 크게 두가지. (하향식 vs 상향식) 

하향식 접근 방법
Top-down
- 문제가 확실할 때 사용함
- 문제가 주어져있는 상태에서 해법을 찾기 위한 방법 (전통적으로 수행되었던 분석 과제 발굴방식) 
- Make choices
- Optimization Solution 
- 전통적인 분석과제 발굴 방식Why를 강조하는 관점 
상향식 접근 방법
Bottom-up
- 문제의 정의 자체가 어려운 경우 사용함 (점점 어려워 지고 있어, 상향식 접근 방식의 유용성이 증가하고 있음.)
- 데이터를 기반으로 문제의 쟁점 및 해결 방안을 탐색하고 이를 지속적으로 개선
- Create choices
- Discovery → Insight
디자인 싱킹
Design Thinking
- 중요한 의사결정시 상향식과 하향식을 반복적으로 사용하는 동적인 방법.
- 기존의 논리적인 단계별 접근법에 기반한 문제해결 방식은 최근 복잡하고 다양한 환경에서 발생하는 문제에 적합하지 않을 수 있기 때문에, '디자인 사고' 접근법을 통해 전통적인 분석적 사고를 극복하려 함
- 상향식 방식의 발산(Diverge) 단계와 도출된 옵션을 분석하고 검증하는 하향식 접근 방식의 수렴(Converse) 단계를 반복하여 과제를 발굴함

< 분석 기획 방향성 도출 > ② 분석 주제 유형 4가지 

  분석의 대상
(What) 
Known Un-Known
분석의 방법
(How) 
Known Optimization Insight
Un-Known Solution  Discovery

 

② 하향식 접근 방식

: 문제 탐색 → 문제 정의 해결방안탐색 → 타당성 평가 과제 선정

Top down Approach    
문제 탐색
Problem discovery
비즈니스 모델 기반 문제 탐색 - 비즈니스 모델 캔버스를 활용하여 가치가 창출될 문제를 누락없이 도출 할 수 있음
- 해당 기업의 사업 모델을 도식화한 비즈니스 모델 캔버스의 9가지 블록 (key activities, Key partners, Key Resources, Costs, Value proposition, Customer Relationships, Customers, Channels, Reveneu) 을 과제 발굴을 위한 5가지 영역으로 단순화. 
- 업무 (Operation) , 제품 (Product), 고객 (Customer)
단위로 문제를 발굴하고 이를 관리하는 지원 인프라 (IT & Human resource), 규제와 감사 (Audit & Regulation) 영역에 대한 기회를 추가로 도출하는 작업 수행
- 업무 : 운영하는 내부 프로세스 및 주요 자원 관련 주제 도출
 ex) 생산 공정 최적화, 재고량 최소화 등 
- 제품 : 생산, 제공하는 제품, 서비스를 개선하기 위한 관련 주제 도출
 ex) 제품의 주요 기능 개선, 서비스 모니터링 지표 도출 등
- 고객 : 제품, 서비스를 제공받는 사용자 및 고개, 이를 제공하는 채널의 관점에서 관련 주제 도출
 ex) 고객 call 대기 시간 최소화, 영업점 위치 최적화 등. 
- 지원 인프라 : 분석을 수행하는 시스템 영역 및 이를 운영, 관리하는 인력의 관점에서 주제 도출
 ex) EDW 최적화, 적정 운영 인력 도출 등. 
- 규제와 감사 : 제품 생산 및 전달 과정 프로세스 중에서 발생하는 규제 및 보안의 관점에서 주제 도출 
 ex) 제공 서비스 품질의 이상징후 관리, 새로운 환경 규제 시 예상되는 제품 추출 등. 

분석 기회 발굴의 범위 확장*
- 현재 사업 방식 및 비즈니스에 대한 문제 해결은 최적화 및 단기 과제 형식으로 도출될 가능성이 높기 때문에, 새로운 관점의 접근을 통해 새로운 유형의 분석 기회 및 주제 발굴을 수행 

* 거시적 관심의 요인 (STEEP) : 사회 , 기술 , 경제 , 환경 , 정치 영역
* 경쟁자 확대 관점 : 대체재 영역 , 경쟁자 영역 , 신규진입자 영역
* 시장의 니즈 탐색 : 고객 소비자 영역 , 채널 영역 , 영향자들 영역
* 역량의 재해석 관점 : 내부역량 영역 , 파트너 네트워크 영역
외부 참조 모델 기반 문제 탐색 - 유사 동종 사례 벤치마킹을 통한 분석 기회 발굴
- 제공되는 산업별 , 업무 서비스별 분석 테마 후보 그룹 (pool) 을 통해 Quick & Easy 방식으로 필요한 분석기회가 무엇인지에 대한 아이디어를 얻고 기업에 적용할 분석 테마 후보 목록을 빠르게 도출
- 지속적인 조사와 데이터 분석을 통한 가치 발굴 사례를 풀로 미리 만들어 둔다면, 과제 발굴 및 탐색 시 빠르고 의미있는 분석 기회 도출이 가능. 
- 유사 동종 업계 뿐만 아니라 타 업종 및 분야의 데이터 분석 활용 사례 도한 정리해 두면 새로운 주제 탐색에 도움이 된다. 
분석 유즈케이스** 정리 - 현재의 비즈니스 모델 및 유사 동종 사례 탐색을 통해 도출한 분석 기회들을 분석 유즈케이스로 표기하는 것이 필요.
- 풀어야 할 문제에 대한 상세 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시

- 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용
문제 정의
Problem definition
데이터 분석 문제 변환*** - 식별된 비즈니스 문제를 데이터의 문제로 변환하여 정의하는 단계 
- 문제 탐색 단계가 무엇 (what)을 어떤 목적으로(Why) 수행해야 하는지의 관점인 반면, 문제 정의 단계는, 달성을 위해 필요한 데이터 및 기법(How)을 정의하기 위한 데이터 분석 문제로 변환을 수행
- 요구사항 : 분석을 수행하는 당사자 뿐만이 아니라, 해당 문제가 해결 되었을 때 효용을 얻을 수 있는 최종 사용자 (End user) 관점에서 이루어 져야 함
- 데이터 분석 문제가 잘 정의 되었을 때, 필요한 데이터의 정의 및 기법 발굴이 용이
해결 방안 탐색
Solution search
수행 옵션 도출 - 어떤 데이터 또는 분석 시스템을 사용할 것인지 검토하는 단계
- 분석역량을 기존에 가지고 있는지 파악하고, 보유하고 있지 않은 경우에는 교육이나 전문 인력을 채용하여 역량을 확보하거나, 분석 전문 업체를 활용하여 과제 해결 방안에 대해 사전 검토 수행. 

- 데이터 및 분석 시스템에 따라 소요되는 예산 및 활용 가능 도구가 다름****
타당성 검토
Feasibility study
타당성 평가 - 도출된 분석 문제나 가설에 대한 대안을 과제화 하기 위해서는 다각적인 타당성 분석이 수행 되어야 함. 
- 경제적 타당도 : 비용 대비 편익 분석 관점의 접근
  비용: 데이터, 시스템, 인력, 유지보수 등과 같은 분석 비용

  편익: 실질적 비용 절감, 추가적 매출과 수익 등과 같은 경제적 가치 
- 데이터 및 기술적 타당도 : 데이터 존재 여부, 분석 시스템 환경, 분석 역량
과제 선정 - 도출된 여러 대안 중에서, 평가 과정을 거쳐 가장우월한 대안 선택
- 도출한 데이터 분석 문제 및 선정된 솔루션 방안을 포함
- 분석과제 정의서의 형태로 명시하는 후속 작업 시행 
- 프로젝트 계획의 입력물로 활용 

* 분석 기회 발굴의 범위 확장 

관점  영역 기회 도출
거시적 사회 (Social) 비즈니스 모델의 고객 영역에 존재하는 현재 고객을 확장 
전체 시장을 대상으로 사회적, 문화적, 구조적 트랜드 변화에 기반한 분석 기회 도출
기술 (Technological) 과학, 기술, 의학 등 최신 기술의 등장 및 변화에 따른 역량 내재화와 제품, 서비스 개발에 대한분석 기회를 도출
경제 (Economical) 산업과 금융 전반의 변동성 및 경제 구조 변화 동향에 따른 시장의 흐름 파악
이에 대한 분석 기회 도출
환경 (Environmental) 환경과 관련된 정부, 사회단체, 시민사회의 관심과 규제 동향을 파악하고 기회 도출
정치 (Political) 주요 정책 방향, 정세, 지정학적 동향 등 거시적인 흐름을 토대로 한 분서 기회 도출 
경쟁자 확대 대체재 (Substitute) 융합적인 경쟁 환경에서 현재 생산을 수행하고 있는 제품, 서비스를 온라인으로 제공하는 것에 대한 탐색
잠재적 위험을 파악 
경쟁자 (Competitor) 현재 생산하고 있는 제품, 서비스의 주요 경쟁자에 대한 동향을 파악하여 이를 고려한 분석 기회 도출
신규 진입자 (New Entrant) 향후 시장에 대해서 파괴적인 역할을 수행할 수 있는 신규 진입자에 대한 동향을 파악하여 분석기회 도출 
시장의 니즈 탐색 고객 (Customer) 고객의 구매 동향 및 고객의 컨텍스트를 더욱 깊게 이해하여 제품, 서비스의 개선에 필요한 분석 기회를 도출 
채널 (Channel) 영업사원, 직판 대리점, 홈페이지 등 자체적으로 운영하는 채널 뿐만아니라, 최종고객에게 상품 및 서비스를 전달하는 것에 가능한 경로를 파악하여 해당 경로에 존재하는 채널별 분석 기회를 확대하여 탐색 
영향자들 (Influencer) 기업 의사 결정에 영향을 미치는 주주, 투자자, 협회 및 기타 이해관계자의 주요 관심사항에 대해서 파악하고 분석 기회를 탐색
역량의 재해석 내부 역량 (Competency) 지적 재산권, 기술력 등 기본적인 것 뿐만아니라 중요하면서도 간과하기 쉬운 지식, 기술, 스킬 등의 노하우와 인프라적인 유형 자산에 대하여 재해석하고 해당 영역의 기회를 탐색. 
파트너와 네트워크 (Partners & Networks) 자사가 직접 보유하고 있지는 않지만, 밀접한 관계를 유지하고 있는 관계사와 공급사 등의역량을 활용해 수행할 수 있는 기능을 파악해보고, 이에 대한 분석 기회를 추가적으로 도출. 

 

** 분석 유즈 케이스의 예시 

업무 분석 유즈 케이스 설명 효과
재무 자금 시재 예측 일별로 예정된 자금지출과 입금 추정 자금 과부족 현상 예방
자금 운용 효율화
구매 최적화 구매 유형과 구매자별로 과거 실적과 구매 조건을 비교/분석하여 구매방안 도출 구매 비용 절감 
고객 서비스 수준 유지 서비스별로 달성 수준을 측정하고 평가한 뒤 목표 수준을 벗어나면 경보 발행 품질 수준 제고
고객 만족 제고 
판매 영업성과 분석 영업 직원별 사용 원가(급여 포함)와 실적을 분석하고 부진한 영업 직원 세그멘트를 식별하여 영업 정책에 반영 영업 수율 향상
영업 직원 생산성 제고 

*** 데이터 분석 문제 변환 예시 

비즈니스 문제 (why) 분석 문제 (what)
고객 이탈 증대 고객의 이탈에 영향을 미치는 요인을 식별하고, 이탈 가능성을 예측
예상치 않은 설비 장애로 인한 판매량 감소 설비의 장애를 이끄는 신호를 감지하여 설비 장애 요인으로 식별하고 장애 발생 시점 및 가능성을 예측
기존 판매 정보 기반 영업사원의 판단 시, 재고 관리 및 적정 가격 판매 어려움.  내부 판매 정보 외의 수요예측을 수행할 수 있는 인재의 추출 및 모델링을 통한 수요 예측. 

**** 시스템에 따른 활용 가능 도구 

  분석 역량
(Who) 
확보 미확보
분석 기법 및 시스템
(How)
기존 시스템 기존 시스템 개선 활용 교육 및 채용을 통한 역량 확보
신규 도입 시스템 고도화  전문업체 (Sourcing)

 

③ 상향식 접근 방식 

  • 문제의 정의 자체가 어려운 경우 상향식 접근 방식 사용
  • 다량의 원천 데이터를 대상으로 분석을 수행하여, 역으로 추적하면서 가치있는 모든 문제를 도출 또는 재정의하는 일련의 과정.
  • 데이터를 기반으로 문제의 재정의 및 해결방안을 탐색하고 이를 지속적으로 개선하는 방식
  • 인과 관계 (Know-why)로부터 상관관계(Know-affinity) 분석으로의 이동이 주요 변화. 
  • 상향식 접근 방식의 데이터 분석은 비지도학습 (Unsupervised Learning) 방법에 의해 수행됨
  • 디자인 사고 (Design thinking)*의 발산(Diverce) 단계에 해당함
  • 인사이트 도출 후 반복적인 시행착오를 통해 수정하며 문제를 도출하는 일련의 과정 (프로토타이핑 접근법**)

*디자인 사고 접근법을 통한 전통적인 분석적 사고 극복 

- 객관적으로 존재하는 데이터 그 자체를 관찰하고 실제적으로 행동에 옮김으로서, 대상을 조금 더 잘 이해하는 방식으로의 접근 수행 

- 답을 미리 내는 것이 아니라, 사물을 있는 그대로 인식하는 What의 관점에서 보아야 한다. 

- Empathize(감정이입) → Define Ideate Proto type Test

 

**프로토타이핑(prototyping) 접근법  

- 사용자가 요구사항이나 데이터를 정확히 규정하기 어렵고, 데이터 소스도 명확히 파악하기 어려운 상황에서 일단 분석을 시도해보고 그 결과를 확인해 가면서 반복적으로 개선해 나가는 방법

- 완전하지 못하더라도 신속하게 해결책이나 모형을 제시함으로써, 이를 바탕으로 문제를 좀더 명확하게 인식하고 필요한 데이터를 식별하여 구체화할 수 있게 하는 유용한 상향식 접근 방식. 

- 기본적인 프로세스 : 가설의 생성 → 디자인에 대한 실험 → 실제 환경에서의 테스트 → 테스트 결과에서의 통찰 도출 및 가설 확인

- 빅데이터 분석 환경에서 프로토타이핑의 필요성 

 1) 문제에 대한 인식 수준 : 문제 정의가 불 명확하거나, 이전에 접해보지 못한 새로운 문제일 경우, 프로토타입을 이용하여 문제를 이해하고 이를 바탕으로 구체화 

 2) 필요 데이터 존재 여부의 불확실성 : 필요한 데이터의 집합이 모두 존재하지 않을 경우, 해당 데이터 수집 또는 대체를 어떻게 할 것인지에 대한 반복적이고 순환적인 협의 과정 필요.

 3) 데이터 사용 목적의 가변성: 데이터의 가치는 수집 목적에 따라 확정 되는 것이 아니고, 지속적으로 변화. 

 

④ 지도학습 vs 비지도학습 

지도학습 (Supervised Learning) 비지도 학습 (Unsupervised Learning) 
- 명확한 목적 하에 데이터 분석을 수행하는 것, input과 output 이 존재함
- 분류, 추측, 예측, 최적화를 통해 사용자의 주도 하에 분석을 실시하고 지식을 도출하는 것이 목적 

- 예측 (Regression) : 데이터를 대표하는 선형모델 등을 만들고 그 모델을 통해 미래의 사건을 예측하는 것
- 분류 (Classification) : 이전까지 학습된 데이터를 근거로 새로운 데이터가 기존에 학습된 데이터에 분류 여부
- 명확히 정의된 형태의 특정 필드값을 구하는 것이 아니라, 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터의 상태를 표현하는 것. 
- 인사이트를 도출하기에 유용한 방식 
- 컴퓨터가 알아서 분류 를 하고, 의미 있는 값을 보여줌

- 데이터가 어떻게 구성되어 있는지 밝히는 용도로 사용함
- 군집화 (Clustering), 장바구니 분석, 기술 통계 및 프로파일링 등

* 분석 과제 정의서 작성 방법 (예시)  

- 도출한 분석 과제를 분석과제 정의서 양식을 활용하여 보다 상세하게 정의.

- 분석별로 필요한 소스데이터, 분석방법, 데이터 입수 및 분석의 난이도, 분석 수행 주기, 분석 결과에 대한 검증 오너십, 상세 분석과정 등을 정의 

- 내, 외부의 비구조적인 데이터와 소셜 미디어 및 오픈 데이터까지 범위를 확장하여 고려하고, 분석 방법도 상세히 작성함. 


< 분석 프로젝트 관리 방안 >


분석 프로젝트의 특징 

  • 분석 프로젝트는 다른 프로젝트 유형처럼 범위 , 일정 , 품질 , 리스크 , 의사소통영역별 관리수행 되어야 한다
  • 다양한 데이터에 기반한 분석 기법을 적용하는 특성 때문에 5 가지 주요 특성을 고려하여 추가적 관리필요 하다
  • 분석 과제 주요 특성에는 Data Size, Data Complexity, Speed, Analytic Complexity, Accuracy & Precision 등이 있다
  • 분석 프로젝트는 도출된 결과의 재해석을 통한 지속적인 반복 및 정규화가 수행되기도 한다

 

② 분석 과제의 주요 5가지 특성 관리 영역  

분석 과제 주요 특성 설명
Data Size 분석하고자 하는 데이터의 양을 고려하는 관리방안 수립 필요
Data Complexity 비정형데이터 및 다양한 시스템에 산재되어 있는 데이터들을 통합해서 분석 프로젝트를 진행할 때는, 초기 데이터의 확보와 통합 뿐 아니라 해당 데이터에 잘 적용될 수 있는 분석 모델 선정대한 고려 필요
Speed 도출된 분석 결과를 활용하는 시나리오 측면에서의 속도 고려
일 단위, 주 단위 실적은 Batch 형태로 작업, 사기 탐지, 개인화 된 서비스 추천은 실시간 수행되어야 함

즉, 프로젝트 수행 시 분석 모델의 성능 및 속도를 고려한 개발 및 테스트가 수행되어야 함
Analytic Complexity 정확도 (Accuracy) 와 복잡도 (Complexity)는 트레이드 오프 (Trade off) 관계가 존재
분석 모델이 복잡할수록 정확도는 올라가지만 해석이 어려워지기 때문에, 기준점을 사전에 정의해 두어야 함
해석이 가능하면서도, 정확도를 올릴 수 있는 최적모델을 찾는 방안을 사전에 모색 
Accuracy & Precision Accuracy (정확도): 분석의 활용적인 측면. 모델과 실제 값의 차이가 적다는 것을 의미
Precision (정밀도): 분석의 안정성 측면. 모델을 반복했을 때의 편차가 적어 일관적으로 동일한 결과를 제시한다는 것을 의미
Accuracy과 Precision은 트레이드 오프인 경우가 많기 때문에, 모델의 해석 및 적용 시 사전에 고려해야 함

* Accuracy와 precision의 관계

- 과녁 그림 4개 참고하기. 

: https://www.geavis.si/en/2017/06/difference-between-accuracy-and-precision/

: https://en.wikipedia.org/wiki/Accuracy_and_precision 

 

③ 분석 프로젝트 관리 체계 

- 분석 프로젝트의 경우, 관리 영역에서 일반 프로젝트와 다르게 유의해야 하는 요소들이 존재함. 

- 분석가의 조정자로서의 역할과 프로젝트 관리자의 역할을 동시에 수행하는 경우가 대부분이기 때문에, 프로젝트 관리 영역에 대한 이해와, 주요 사항들을 체크포인트 형태로 사전에 숙지하여, 발생가능한 이슈와 리스크를 숙지하고 미연에 방지할 필요가 있음. 

- 프로토타이핑 방식인 어자일 (Agile) 프로젝트 관리 방식에 대한 고려 필요 : 도출된 결과의 재해석을 통한 지속적인 반복 및 정교화가 수행되는 경우가 대부분이기 때문

영역 세부 관리 내용
시간
(Time)
: 프로젝트 활동의 일정을 수립 , 일정 통제의 진척 상황 관찰
- 초기에 의도했던 결과(모델)가 나오기 쉽지 않기 때문에, 지속적으로 반복되어 오랜 시간이 소요가능.
- Time boxing 기법으로 일정관리를 진행하는 것이 필요 
범위
(Scope)
: 작업과 인도물을 식별하고 정의하는데 요구되는 프로세스
- 분석 기회 단계의 프로젝트 범위가 데이터의 형태와 양 또는 적용 모델 알고리즘에 따라 범위가 빈번하게 변경됨.
- 분석의 최종 결과물이 보고서 형태인지, 시스템 형태인지에 따른 자원 및 범위를 파악하기 위해 사전에 충분한 고려가 필요함. 
품질
(Quality)
: 품질보증 (Quality Assurance, QA)과 품질통제 (Quality Control, QC)를 계획하고 확립하는 데 요구되는 프로세스
- 분석 프로젝트를 수행한 결과에 대한 품질 목표를 사전에 수립하여 확정해야 함. 
통합
(Integration)
: 프로젝트와 관련된 다양한 활동과 프로세스를 도출, 정의, 결합, 단일화, 조정, 통제, 종료에 필요한 프로세스
- 프로젝트 관리 프로세스들이 통합적으로 운영될 수 있도록 관리함.
이해관계자
(Stakeholder)
: 프로젝트 스폰서, 고객사, 기타 이해관계자 식별 관리에 필요한 프로세스
- 데이터 분석 전문가, 비즈니스 전문가, 분석 전문가, 시스템 전문가 등 다양한 전문가가 참여하기 때문에 이해 관계자의 식별과 관리가 필요함. 
자원
(Resource)
: 인력, 시설, 장비, 자재, 기반 시설, 도구와 같은 적절한 프로젝트 자원을 식별하고 확보하는 데 필요한 프로세스
- 고급 분석 및 빅데이터 아키텍쳐링을 수행할 수 있는 인력의 공급이 부족하므로, 프로젝트 수행 전 전문가 확보 검토 필요
원가
(Cost)
: 개발 예산과 원가통제의 진척 상황을 관찰하는데 요구되는 프로세스
- 외부 데이터를 활용한 데이터 분석인 경우 고가의 비용이 소요될 수 있으므로, 사전에 충분한 조사가 필요함.
- 오픈소스 tool 외에 프로젝트 수행시 의도했던 결과의 달성을 위한 상용 버전의 tool이 필요할 수 있음. 
리스크
(Risk)
: 위험과 기회를 식별하고 관리하는 프로세스
- 분석에 필요한 데이터 미확보로 분석 프로젝트 진행이 어려울 수 있으므로, 관련 위험을 식별하고, 대응 방안을 사전에 수립해야 함. 
- 데이터 분석 알고리즘의 한계로 품질(Quality) 목표를 달성하기 힘들 수 있어, 대응방안을 수립할 필요가 있음.
조달
(Procurement)
: 계획에 요구된 프로세스를 포함하며, 제품 및 서비스 또는 인도물을 인수하고 공급자와의 관계를 관리하는데 요구되는 프로세스
- 프로젝트 목적성에 맞는 외부 소싱을 적절하게 운영할 필요가 있음. 
- PoC (proof of concept) 형태의 프로젝트는 인프라 구매가 아닌 클라우드 등의 다양한 방안을 검토할 필요가 있음
의사소통
(Communication)
: 프로젝트와 관련된 정보를 계획, 관리, 배포하는 데 요구되는 프로세스
- 전문성이 요구되는 데이터 분석 결과를 모든 이해 관계자가 공유할 수 있도록 해야 함. 
- 프로젝트의 원활한 진행을 위한 다양한 의사소통 체계 마련이 필요. 

 


[ Reference ]

1. 2018 데이터 분석 준 전문가 ADsP, 데이터에듀, 윤종식 저.  

2. 데이터 분석 전문가 가이드, 한국데이터진흥원.

3. EduAtoZ - Programming - YouTube

 

32회 데이터분석 준전문가 (ADsP)

Study log  (D - 39)

 

Last update : 2022.01.18. 화

2022. © Jalynne.log

# 나를 위한 공부 로그

1과목 - 데이터의 이해 (객관식 8문항, 단답형 2문항)

 

3장. 가치 창조를 위한 데이터사이언스와 전략 인사이트

  • 빅데이터분석과 전략 인사이트
  • 전략 인사이트 도출을 위한 필요 역량
  • 빅데이터 그리고 데이터 사이언스의 미래

< 빅데이터분석과 전략 인사이트 >


 빅데이터 열풍과 회의론

  • 빅데이터 열풍이 일어나며, 빅데이터 열풍은 '거품현상' 이라는 주장들이 하나 둘씩 제기되며, '빨리 끓어 오른 냄비가 빨리 식는다'라는 우려가 회의론을 불러오기도 함. 
  • 실제 찾을 수 있는 가치들을 발굴해볼 기회들을 사전에 차단하게 될 수도 있음. 
  • 회의론의 다양한 원인 
회의론의 원인 설명
과거의 고객관계관리 (CRM)가, 투자효과를 거두지 못했던 것에 대한 부정적 학습효과 - CRM을 비롯한 IT 솔루션 영역은 공포 마케팅이 잘 통하는 영역이었기 때문에, 도입만 하면 모든 문제를 한번에 해소할 수 있을 것처럼 강조 + 나중에는 합류하지 못한다면 위험에 처할지도 모른다는 공포 분위기를 조성
- 막상 거액을 투자해 솔루션을 도입해도, 어떻게 활용하고 어떻게 가치를 뽑아내야 할지 첫 번째 물음부터 다시 해야 하는 사태가 벌어짐
빅데이터 성공 사례가 기존 분석 프로젝트를 포함해 놓은 것이 많음 - 빅데이터의 새로운 가치로 회자 되는 부분이 굳이 빅데이터가 필요 없는 경우 (우수고객, 이탈예측, 구매패턴 분석 등) 
- 국내 빅 데이터 업체들이 CRM 분석 성과를 빅데이터 분석으로 과대포장.

- 데이터에서 가치, 즉, 통찰을 끌어내 성과를 창줄하는 것이 관건 (빅데이터에 포커스를 두지 않아야 한다.) 

- 분석에 기초한 전략적 통찰력이 중요하다. (아래 성공 기업과 실패 기업의 사례에서도 알 수 있음. )

성공한 기업 성공하지 못한 기업 
구글, 페이스북, 링크드인 싸이월드..
데이터 분석과 함께 시작되고 분석이 내부 의사결정에 결정적 정보를 제공함 데이터 분석에 기반한 경영 문화의 부재
- 데이터 분석에 기초해 전략적 통찰을 얻고, 효과적인 의사결정을 내리고 성과를 만들어내는 체계가 없었음.
- OLAP와 같은 분석 인프라는 있었으나, 데이터 분석에 기초한 의사결정이 없었음. 
- 웹 로그 분석을 통한 일차원적 분석에만 집중하여, 비즈니스 핵심 가치와 관련된 심도 있는 분석이 수행되지 않았다. 
- 회원들의 소셜 네트워킹 활동 특성과 관련된 분석을 위한 프레임워크나 평가지표가 없었다. 

② 빅데이터는 'Big'이 핵심 keyword가 아니다. 

  • 데이터의 크기가 중요한 것이 아니라, 데이터에 기초한 의사결정, 어떠한 시각과 통찰을 얻을 수 있는가의 문제가 중요하다. 
  • 데이터의 양 보다는 오히려 "유형의 다양성"과 관련 있음 : 음성 , 텍스트 , 이미지 , 비디오 등 다양한 정보 원천의 활용이 가능하다는 점 속에 기회가 있다. 
  • 전략, 비즈니스 핵심 가치에 집중하고,이와 관련된 분석 평가 지표를 개발, 이를 효과적으로 시장 및 고객 변화에 대응할 때, 빅데이터 분석이 가치가 있다. 

③ 전략적 통찰이 없는 분석의 함정

  • 한국의 경영 문화는 여전히 분석을 국소적인 문제 해결 용도로 사용하는 단계이기 때문에, 기업의 핵심 가치와 관련해 전략적 통찰력을 가져다 주는 데이터 분석을 내재화 하는 것이 어려움 
  • 무분별한 단순 분석은 쓸모없는 분석 결과들만을 낳는다. 
  • 전략적 통찰력을 가지고 분석하여, 핵심 비즈니스 이슈에 집중하여 데이터를 분석해 차별적인 전략으로 기업을 운영해야 함. 
  • Ex) 아메리칸 항공은 복잡한 최적화 및 타사의 능력 증진으로 경쟁 우위를 잃었지만, 사우스웨스트 항공은 단순한 최적화 모델로 높은 시장가치 확보. 

 

④ 일차적인 분석 vs. 가치기반 분석을 통한 전략 도출

  • 일차적인 분석

   : 일차적 분석을 통해서도 부서나 업무 영역에서 상당한 효과를 얻을 수 있음

   : 그러나 큰 변화에 대응하거나, 고객 환경의 변화를 파악하여 새로운 기회를 포착하기 어렵다. 

  • 전략적 통찰력의 창출에 집중 시 

   : 분석은 해당 사업에 중요한 기회 발굴, 주요 경영진의 지원을 얻어냄, 강력한 모멘텀을 만들 수 있음. 

  • 빅데이터 분석이 나아가야 하는 방향 

   : 일차적 분석 경험이 증가시키면서 경험을 쌓아, 작은 성공을 거두고, 이후 분석의 활용 범위를 더 넓고 전략적으로 변화시켜야 함

   : 가치 기반 분석 단계로 나아가, 전략적 인사이트를 얻을 수 있어야 함. 

산업 일차원적 분석 애플리케이션
금융서비스 신용점수 산정 , 사기 탐지 , 고객 수익성 분석
소매업 재고 보충 , 수요예측
제조업 맞춤형 상품 개발 , 신상품 개발
에너지 트레이딩 , 공급 , 수요예측
온라인 웹 매트릭스 , 사이트 설계 , 고객 추천
병원 가격책정, 고객 로열티, 수익관리
헬스케어 약품 거래, 예비 진단, 질병 관리 

< 전략 인사이트 도출을 위한 필요 역량 >

 


데이터사이언스의 정의

정의 설명
의미있는 정보 추출 데이터로부터 의미 있는 정보를 추출해내는 학문
다양한 유형의 데이터를 대상 정형, 반정형, 비정형 등의 다양한 유형의 데이터를 대상으로 함
포괄적 개념 분석 뿐 아니라 이를 효과적으로 구현하고 전달하는 과정까지 포함한 포괄적 개념
전문 지식의 종합 학문 데이터 공학, 수학, 통계학, 컴퓨터 공학, 시각화, 해커의 사고방식, 해당 분야의 전문 지식을 종합한 학문이므로, 총체적 (holistic) 접근법을 사용함
과학과 인문학의 교차로  과학과 인문학의 교차로에 서 있다고 할 수 있기 때문에, 스토리텔링 , 커뮤니케이션 능력, 창의력, 직관력이 필요함

[ 다른 분석들과의 차이점 ]

  데이터 사이언스 통계학 데이터 마이닝
분석대상 정형, 비정형, 반정형 등 다양한 데이터 유형 정형화된 데이터  
분석 방법 분석 + 시각화 + 전달을 포함한 포괄적 개념   분석에 초점
학문 접근  종합적 학문 또는 총체적 접근법    

 

 

② 데이터사이언스의 구성요소 

데이터 사이언스의 영역 세부 분야
Analytics (분석적 영역)  수학, 확률모델, 머신러닝, 분석학, 패턴인식과 학습, 불확실성 모델링 등.
IT (Data Management 영역) 시그널 프로세싱, 프로그래밍, 데이터 엔지니어링, 데이터 웨어하우스, 고성능 컴퓨팅
비즈니스 분석 (비즈니스 컨설팅 영역) 커뮤니케이션, 프레젠테이션, 스토리텔링, 시각화 등.

 

③ 데이터 사이언티스트의 요구 역량

  • 데이터 사이언티스트데이터 해커, 애널리스트, 커뮤니케이션, 신뢰받는 어드바이저 등의 조합이라 할 수 있다.
  • 가트너가 본 데이터 사이언티스트의 역량 : 데이터 관리, 분석 모델링, 비즈니스 분석, 소프트 스킬 →  강력한 호기심에서 시작
  • 호기심이란, 문제의 이면을 파고들고, 질문들을 찾고, 검증 가능한 가설을 세우는 능력. 
  • 하드 스킬소프트 스킬 능력을 동시에 갖추고 있어야 함 : 데이터 처리 기술 이외에 인문학적 요소 (스토리텔링, 커뮤니케이션 능력, 창의력, 열정, 직관력, 비판적 사고방식, 글쓰기 능력, 비즈니스 이슈에 대한 감각, 고객들에 대한 공감 능력) 필요하다. (분석기술보다 소프트스킬이 더욱 중요함.) 
하드 스킬 (Hard skill) 소프트 스킬 (Soft skill)
빅데이터에 대한 이론적 지식 : 관련 기법에 대한 이해와 방법론 습득
분석 기술에 대한 숙련 : 최적의 분석 설계 및 노하우 축적
Machine Learning, Modeling, Data Technical Skill 등
통찰력 있는 분석 : 창의적 사고 , 호기심 , 논리적 비판
설득력 있는 전달 : Storytelling , Visualization
다분야 간 협력 : Communication

[ 데이터 사이언티스트가 효과적 분석모델 개발을 위해 고려해야 하는 사항 ]

  • 분석 모델이 예측할 수 없는 위험을 살피기 위해 현실 세계를 돌아보고 분석을 경험과 세상에 대해 통찰력과 함께 활용
  • 가정들과 현실의 불일치에 대해 끊임 없이 고찰하고 모델의 능력에 대해 항상 의구심을 갖는다
  • 분석의 객관성에 의문을 제기하고 분석 모델에 포함된 가정과 해석의 개입 등의 한계를 고려한다
  • 모델 범위 바깥의 요인은 판단하지 않는다

 

④ 전략적 통찰력과 인문학의 부활  

: 인문학의 열풍이 한때의 유행이 아닌 이유 

외부환경적 측면에서 본 인문학 열풍 설명
단순 세계화에서 복잡한 세계화로의 변화 컨버젼스에서 디버젼스로 
* Convergence : 규모의 경제, 세계화, 표준화, 이성화가 키워드 
* Divergence : 복잡한 세계, 다양성, 관계, 연결성, 창조성이 키워드
비즈니스의 중심이 제품생산에서 서비스로 이동 고장나지 않는 제품의 생산보다는, 얼마나 뛰어난 서비스로 응대하는가.
경제와 산업의 논리가 생산에서 시장창조로 바뀜  공급자 중심의 기술 경쟁에서 무형자산의 경쟁으로 
* 공급자 중심의 경쟁 : 생산에 관련된 기술 중심, 기술 중심의 대규모 투자, 좋은 품질의 제품 생산.
* 무형자산의 경쟁 : 현재화 패러다임에 근거한 시장 창조, 현지 사회와 문화에 관한 지식. 

⑤ 데이터 사이언티스트가 분석으로 다룰 수 있는 6가지 핵심 질문   

- 인문학적 사고란 : 비판. 왜 우리는 여태 이런 식으로 생각했나, 왜 우리는 세상이 그런 것인 줄로만 알았나? 하는 물음을 던지는 것. 

- 분석에서 문제의 이면을 제대로 파고들지 못하면 그것은 단순한 정보의 나열에 불과하다.

- 통찰력 있는 분석이란 : "집요하게 따지는 것"

  과거 현재 미래
정보 (Information) 무슨일이 일어났는가?
예 ) 리포팅 (보고서 작성)
무슨 일이 일어나고 있는가?
예 ) 경고
무슨 일이 일어날 것인가?
예 ) 추측
통찰력 (Insight) 어떻게, 왜 일어났는가?
예 ) 모델링, 실험 설계
차선 행동은 무엇인가 ?
예 ) 권고
최악과 최선의 상황은?
예 ) 예측 , 최적화, 시뮬레이션

* 과거 → 현재 →미래로 정리하여 이해 + 정보만으로 할 수 있는것과, 통찰력으로 할 수 있는 것을 구분하여 알기 

- 최고의 데이터 사이언티스트는 정량 분석이라는 과학과 인문학적 통찰에 근거한 합리적 추론을 탁월하게 조합한다. 

 

⑥ 데이터 분석 모델링에서 인문학적 통찰력의 적용 사례

- 인간을 바라보는 관점을 이용한 신용리스크 모델 : 인간에 대한 이해는 마케팅 모델의 개발에 중요한 가이드가 된다. 

- 모델의 예측력을 높이기 위해, '인간을 어떤 관점에서 볼 것인가', '이를 위해서는 어떤 데이터가 필요한가', '어떤 기술을 활용해야 할 것인가'라는 질문에 가이드를 제공. 

인간을 바라보는 관점  
성향적 관점 인간의 타고난 성향은 변하지 않는 존재라고 상정함. 
유전적 요소처럼 원래의 성향이 존재하고 인간은 이것을 기초로 나뉜다고 본다.
과거: 지점장이 대출자를 면담시 인상이나 관상으로 신용을 판단. 
행동적 관점 한 사람의 행동을 지속적으로 관찰해 그 행동을 보고 그 사람을 판단한다. 
현재 : 고객들의 과거 행동 패턴을 분석한 신용평가 모형의 적용
상황적 관점 그 사람이 놓여있는 상황과 맥락을 고려해야 한다. 
최근 : 시나리오 분석, 모델에 경제 상황의 변화를 반영. (변화에 민감한 그룹과 둔감한 그룹)

 


 

< 빅데이터 그리고 데이터 사이언스의 미래 >


 빅데이터의 시대 

신속한 의사결정을 원하는 비즈니스에서는 실시간 상관관계분석에서 도출된 인사이트바탕으로 수익을 창출할 수 있는 기회가 점점 늘어나고 있음
상관관계를 통해 특정 현상의 발생 가능성이 포착되고 , 그에 상응하는 행동을 하도록 추천되는 일이 점점 늘어날 것
데이터 기반의 상관관계 분석이 주는 인사이트인과관계에 의한 미래 예측을 점점 더 압도해가는 시대가 도래

의사결정 오류 설명 
로직 (논리) 오류  부정확한 가정을 하고 테스트를 하지 않는 것
프로세스오류 결정에서 분석과 통찰력을 고려하지 않은 것
데이터 수집이나 분석이 너무 늦어 사용할 수 없게 되는 것
대안을 진지하게 고려하지 않은 것

 

② 가치 패러다임의 변화 

단계 설명
Digitalization  아날로그의 세상을 어떻게 효과적으로 디지털화 하는가
Connection  디지털화된 정보와 대상들은 이제 서로 연결되며, 효과적이고 효율적으로 정보를 연결 및 제공함.
연결을 얼마나 효과적이고 효율적으로 제공해주느냐가 성패
Agency 방대한 정보들의 복잡한 하이퍼 연결과, 필요한 정보를 얼마나 효과적이고 믿을 수 있게 관리하고 제공할 수 있는가 가 중요한 가치

 

③ 데이터 사이언스의 한계와 인문학

데이터베이스의 한계 모든 분석은 가정에 근거한다.
분석 과정에 인간의 해석이 개입된다.
분석 결과의 해석이 사람에 따라 달라질 수 있고, 이로 인해 다른 결론이 나타날 수 있다. 
인문학의 역할 분석 결과를 해석하는 인간의 소양과 인문학적 소양으로 보다 발전적인 미래 가치 도출
모델의 능력에 대해 항상 의구심을 가져야 함.  
가정과 현실의 불일치에 대해 계속 고찰해야 함.
분석 모델이 예측할 수 없는 위험을 살펴야 함.

 


[ Reference ]

1. 2018 데이터 분석 준 전문가 ADsP, 데이터에듀, 윤종식 저. 

2. 데이터 분석 전문가 가이드, 한국데이터진흥원.

3. EduAtoZ - Programming - YouTube

4. ADSP 데이터분석준전문가 1과목 정리 : 네이버 블로그 (naver.com)

32회 데이터분석 준전문가 (ADsP)

Study log  (D - 43)

 

Last update : 2022.01.17. 월

2022. © Jalynne.log

# 나를 위한 공부 로그

1과목 - 데이터의 이해 (객관식 8문항, 단답형 2문항)

2장. 데이터의 가치와 미래

  • 빅데이터의 가치와 영향
  • 비즈니스 모델
  • 위기 요인과 통제 방안
  • 미래의 빅데이터

< 빅데이터의 가치와 영향 >


 빅데이터의 정의 

측면 빅데이터의 정의
활용 데이터 규모적 측면
일반적인 데이터베이스 소프트웨어로 저장 , 관리 , 분석할 수 있는 범위를 초과하는 규모의 데이터
분석 비용 및 기술적 측면
(중간범위의 정의)
다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, 데이터의 초고속 수집, 발굴, 분석을 지원하도록 고안된 차세대 기술 및 아키텍처
클라우드 컴퓨팅의 활용
데이터 자체 특성 변화에 초점
(좁은 범위의 정의)
3V. 즉, 데이터의 규모 측면의 양 (Volume), 데이터 유형과 소스 측면의 다양성 (Variety), 데이터 수집과 처리 측면에서 속도 (Velocity)가 급격히 증가하면서 나타난 현상
메이어-쇤베르거와쿠키어
(인재, 조직변화까지 포함한 넓은 관점)
대용량 데이터를 활용해, 작은 용량에서는 얻을 수 없었던 새로운 통찰이나 가치를 추출해 내는 일.
나아가 이를 이용해 시장, 기업 및 시민과 정부의 관계 등, 많은 분야에 변화를 가져오는 일.
Data scientist 같은 새로운 인재 필요, 데이터 중심 조직. 

 

② 빅데이터의 4V 

: ROI (Return On Investment, 투자자본수익률) 관점에서 보는 빅데이터 

  4V 설명
투자비용요소 Volume 데이터의 크기
생성되는 모든 데이터를 수집
Variety 데이터의 다양성
정형화된 데이터를 넘어 텍스트 , 오디오 , 비디오 등 모든 유형의
데이터를 대상으로 함
Velocity 데이터의 속도
사용자가 원하는 시간 내 데이터 분석 결과 제공, 업데이트 속도 빠름
비즈니스 효과 요소 Value  

< 출제 유형 >
1. 과제 우선순위 결정 내용 중 부적절한 것은? 

2. 빅데이터 4V에 해당하지 않은 것은? 

 

③-1 빅데이터의 출현 배경

: 새롭게 등장한 것이 아닌, 기존의 데이터, 처리방식, 다루는 사람과 조직 차원에서 일어나는 '변화', paradigm shift

측면 출현 배경
산업계 빅데이터의 현상은 양질 전환 법칙으로 설명할 수 있다.
정보의 지속적 축적이 거대한 가치 창출이 가능할 만큼 충분한 규모에 도달했고, 질적 변화를 일으킬 기술이 접목되면서 기회를 맞이함.  
학계 거대 데이터 활용 과학 확산
대표적 사례는 인간 게놈 프로젝트.
필요한 기술 아키텍처 및 통계 도구들의 발전. 
기술발전 디지털화, 저장기술 발전과 가격하락, 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅 보편화
*클라우드 컴퓨팅 : 빅 데이터 분석에 경제적 효과를 제공해준 결정적 기술

③-2 빅데이터의 출현에 따른 변화

- 사용자 로그(log) 정보에 대한 프로파일링 : 사용자의 아이덴티티가 뚜렷해지고, 사용자와 광고를 매칭하는 정확도가 향상.

- 소셜 미디어, 영상 등 비정형 데이터의 확산

 

< 출제 유형 >
1. 빅데이터의 출현 배경 설명으로 부적절한 것은? / 거리가 먼 것은?

- 정부의 공공데이터 개방 확산은 빅데이터 출현 배경과 거리가 멀다.

 

④ 빅데이터의 역할/기능

- 빅데이터에 거는 기대 : 차세대 산업 혁신에 꼭 필요한 요소

역할 설명
석탄, 철 석탄, 철이 산업혁명에서 했던 역할을 지금의 제조업 뿐 아니라 서비스 분야의 생산성을 획기적으로 끌어올려 혁명적 변화를 가져올 것으로 기대.
원유 에너지 원인 원유처럼, 각종 비즈니스, 공공기관 대국민 서비스, 경제 성장에 필요한 정보를 제공 하여, 산업 전반의 생산성을 향상시키고, 기존에 없던 새로운 범주의 산업을 만들어 낼 것으로 전망.
렌즈 현미경이 생물학 발전에 미쳤던 영향만큼 데이터가 산업 전반에 영향을 미칠 것.
구글 'Ngram Viewer' 를 통해 수천만 권의 책을 디지털화한 것을 예로 들 수 있음.
플랫폼 플랫폼이란, 비즈니스 측면에서는 공동 활용의 목적으로 구축된 유 무형의 구조물 을 의미함. 
빅데이터가 다양한 서드파티 비즈니스에 활용되면서 플랫폼 역할을 할 것으로 전망됨. 

" 페이스북은 SNS 서비스로 시작했지만 , 2006 년 F8 행사를 기점으로 자신들의 소셜그래프 자산을 외부 개발자들에게 공개하고 서드 파티 개발자들이 페이스북 위에서 작동하는 앱을 만들기 시작했다. 각종 사용자 데이터나 M2M 센서 등에서 수집된 데이터를 가공, 처리, 저장해 두고, 이 데이터에 접근할 수 있도록 API (Application program interface) 를 공개 하였다. "

< 출제 유형 >
1. 다음은 빅데이터의 무슨 역할을 설명하는가? 

 

 

⑤ 빅데이터의 가치 산정이 어려운 이유 

가치산정이 어려운 이유  
데이터의 활용 방식 재사용이나 재조합(mashup), 다목적용 데이터 개발 등이 일반화되면서, 특정 데이터를 언제 어디서 누가 활용할지 알 수 없다.
새로운 가치 창출 데이터가 기존에 없던 가치를 창출함에 따라 그 가치를 측정하기 어렵다
분석기술의 발달 분석 기술의 발달로 지금은 가치 없는 데이터도 새로운 분석 기법의 등장으로 거대한 가치를 만들어내는 재료가 될 가능성이 있다

< 출제 유형 >
1. 다음 중 빅데이터 가치 산정이 어려운 이유가 아닌 것은? 

 

빅데이터가 만들어내는 본질적인 변화

 전
사전처리 (표준화된 문서 포맷) 사후처리 (가능한 많은 데이터를 모은 뒤 그 안에서 숨은 정보를 찾아냄)
표본조사 전수조사 (데이터 처리 비용의 감소로 인한 변화)
질 (Quality)  양 (Quantity)
: 양질의 정보 > 오류정보, 일부의 오류가 대세에 영향을 주지 못함.
인과관계 상관관계 (인사이트를 통한 미래 예측)

< 출제 유형 >
1. 다음 중 빅데이터 특징으로 옳지 않는 것은? / 본질적인 변화에 관한 설명 중 적절하지 않은 것은? 


< 비즈니스 모델 >


 빅데이터 활용 사례 (빅데이터의 영향)

차원 활용 사례
기업 혁신, 경쟁력 제고, 생산성 향상
* 구글 : 검색엔진 페이지랭크 알고리즘 혁신

* 윌마트 : 구매 패턴 분석 하여 상품 진열에 활용
* 아마존 : 킨들 (Kindle, 전자책 전용 단말기)에 쌓이는 전자책 읽기 관련 데이터를 분석해 저자들에게 제공
정부 환경 탐색, 상황 분석, 미래 대응
* 국가 안전 확보 활동 : 실시간 교통정보 수집, 기후 정보, 각종 지질 활동, 소방 서비스를 위한 모니터링

* 의료와 교육 개선 : IBM 왓슨
개인 * 정치인 : 선거활동에 이용 (사회관계망 분석을 통한 유세 지역 선정, 해당 지역 유권자에게 영향을 줄 수 있는 내용을 선정)
* 가수 : 팬들의 음악 청취 기록 분석 및 활용. 

 

 

② 빅데이터 활용 기본 기법 7가지

기법 설명
연관규칙학습
(Association rule learning)
변수간 주목할 만한 상관관계가 있는지 찾아내는 방법

[ 예시 ] 

- 우유구매자가 기저귀 도 같이 구매하는가?
- 커피를 사는 사람들이 탄산음료도 많이 구매 하는가?
유형분석
(Classification tree analysis)
사용자가 어떤 특성을 가진 집단에 속하는가와 같은 문제 해결에 사용함

[ 예시 ] 

- 문서의 분류.
- 조직을 그룹으로 나누는 경우.
- 온라인 수강생들을 특성에 따라
분류.
유전 알고리즘
(Generic algorithms)
최적화가 필요한 문제의 해결책을 자연선택, 돌연변이 등과 같은 메커니즘을 통해 점진적으로 진화 시켜 나가는 방법

[ 예시 ] 

- 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가?
- 응급실에서 의사를 어떻게 배치하는 것이 가장 효율적인가?
기계학습 훈련 데이터로부터 패턴을 학습해 예측하는 일에 활용되고 있음

[ 예시 ] 
넷플릭스 추천 시스템 (기존의 시청 기록을 바탕으로 시청자가 보고싶어할 영화를 추천 )
회귀분석 두 변인의 인과관계를 선형함수로 나타내는 수치데이터 분석 방법
즉, 독립 변수를 조작하면 종속변수가 어떻게 변화하는가? 

[ 예시 ] 
사용자의 만족도가 충성도에 어떤 영향을 미치는가?
구매자의 나이가 구매 차량의 종류에 어떤 영향을 미치는가? 
감정분석 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석

[ 예시 ] 

소셜 미디어에 나타난 의견을 바탕으로 고객이 원하는 것을 찾아내는 경우
호텔에서 고객의 논평을 받아 서비스를 개선하는 경우
소셜네트워크 분석 
(SNA, 사회관계망분석)
영향력 있는 사람을 찾아낼 수 있고, 고객들간 사회 관계를 파악할 수 있다.
Opinion leader와 degrees of separation을 파악할 수 있음. 

 

< 출제 유형 >
1. 다음은 빅데이터 활용 기법 중 무엇에 관한 설명인가? 

2. 커피를 사는 사람들이 탄산음료도 많이 구매하는지를 알아보기 위해 사용되는 분석은? 

3. 감정분석에 대한 설명 중 가장 적절하지 않은 것은?  -  감정 분석, 소셜 네트워크 분석을 유의해서 구분하기! 

 

③ 빅데이터 분석 기술

기술 설명
Hadoop - 여러 개의 컴퓨터를 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술.
- 분산 파일 시스템 ( Hadoop Distributed File System, HDFS)를 통해 수 천대의 장비에 대용량 파일을 저장할 수 있는 기능을 제공. 
- 맵리듀스 (Map reduce)로 HDFS에 저장된 대용량의 데이터들을 대상으로 SQL을 이용해 사용자의 질의를 실시간으로 처리하는 기술. 
- 하둡의 부족한 기능을 서로 보완하는 하둡 에코시스템의 등장으로 다양한 솔루션 제공. 
* 맵리듀스 : 대용량 데이터를 분산 처리하기 위한 목적으로 개발된 프로그래밍 모델
* 하둡 에코시스템 : HDFS + Map reduce 
Apache Spark - 실시간 분산형 컴퓨팅 플랫폼으로서 스칼라로 작성되어 있지만, 스칼라, 자바, R, 파이썬, API를 지원.
- In-memory 방식으로 처리하여 하둡에 비해 처리 속도가 빠름. 
Smart Factory - 공장 내 설비와 기계에 사물인터넷이 설치되어 공정 데이터가 실시간으로 수집됨.
- 데이터에 기반한 의사결정이 이뤄짐으로써 생산성을 극대화. 

< 위기 요인과 통제 방안 >


 빅데이터 위기 요인

  위기요인 통제 방안 / 해결 방안
사생활 침해 M2M (machine to machine) 시대의 도래로, 우리를 둘러싼 정보 수집 센서들의 수가 점점 늘어나고 있고, 특정 데이터가 본래 목적 외에 가공 처리되어, 2차, 3차적 목적으로 활용될 가능성이 증가

*익명화 (Anonymization) : 사생활 침해를 방지하기 위해 데이터에 포함된 개인 식별 정보를 삭제하거나 알아볼 수 없는 형태로 변환 하는 기술
동의제에서 책임제로 전환.
개인정보의 활용에 대한 개인이 매번 동의하는 것은 경제적으로도 매우 비효율적임.
사생활침해 문제를 개인정보 제공자의 동의를 통해 해결하기 보다는, 개인 정보 사용자에게 책임을 지워, 개인정보 사용 주체가 보다 적극적으로 보호장치를 강구하게 하는 효과가 발생할 것으로 기대됨.
책임 원칙의 훼손 빅데이터 기반분석과 예측 기술이 발전하면서 정확도가 증가한 만큼 , 분석 대상이 되는 사람들은 예측 알고리즘의 희생양이 될 가능성이 증가함.
그러나 잠재적 위험 사항에 대해서도 책임을 추궁하는 사회로 변질될 가능성이 높아 민주주의 사회 원칙을 크게 훼손할 수 있다.

예 ) 범죄 예측 프로그램을 통해 범죄 전 체포
기존의 책임원칙을 강화할 수 밖에 없다.
데이터의 오용 빅데이터는 일어난 일에 대한 데이터에 의존하기 때문에, 이것을 바탕으로 미래를 예측하는 것은 적지않은 정확도를 가질 수 있지만 , 항상 맞을 수는 없음. 또한, 주어진 데이터에 잘못된 인사이트를 얻어 비즈니스에 직접 손실을 불러 올 수 있음. 데이터 알고리즘에 대한 접근권 허용 및 객관적 인증방안 도입 필요성 제기.
(알고리즘을 해석할 능력을 가진 전문가인 알고리즈미스트 필요)

 

< 출제 유형 >
1. 다음 중 빅데이터 위기 요인과 해결 방안을 잘못 연결한 것을 고르시오.  

2. 빅데이터의 특징 및 위기요인과 그에 대한 통제 방안에 대한 설명으로 적절한 것은? 

 

② 개인정보 비식별화 기법

비식별화 기법 설명
데이터 마스킹
Data Masking
개인을 식별하는데 기여할 확률이 높은 주요 개인 식별자가 보이지 않도록 처리하여 식별하지 못하게 하는 기술.
다양한 유형의 데이터 관리 시스템에 저장된 정보를 보호하는 데 사용되는
프로세스.
유형으로는 정적인 데이터 마스킹, 동적인 데이터 마스킹이 있으며, 치환, 셔플, 암호화 등의 기술이 존재.

[ 예시 ]
카드 뒤 4 자리 숨기기 , 주민번호 뒤 6 자리 숨기기
데이터 범주화
Data suppression
변수가 가질 수 있는 가능한 값들을 몇 개의 구간으로 범주화.

[ 예시 ]
홍길동, 35 세 -- > 홍씨 , 30~40세
가명처리
Pseudonymization
개인식별 정보를 삭제하거나, 알아볼 수 없는 형태로 변환.

[ 예시 ]
홍길동 , 국제대 재학 --> 임꺽정 , 한성대 재학
잡음 첨가 자료 값에 잡음을 추가하거나 곱해 원래 자료에 약간의 변형을 가하여 공개
총계 처리 / 평균값 대체 
Aggregation
데이터의 총합 값을 보임으로 개별 데이터의 값이 보이지 않도록 함
데이터 값 삭제
Data reduction
데이터 셋의 값 중 필요 없는 값 또는 개인 식별에 중요한 값 삭제

< 출제 유형 >
1. 다음 중 개인정보 비 식별화 기법으로 부적절한 것은? 


< 미래의 빅데이터 >


미래의 빅데이터

필요 요소 주요 변화
데이터 모든 것의 데이터화 (datafication)
M2M 및 IOT의 발전으로, 모든 곳의 센서에서 데이터가 발생함. 
기술 진화하는 알고리즘, 인공지능 (Artificial Intelligence, AI)
인력 데이터 사이언티스트, 알고리즈미스트(Algorithmist)의 부상. 
* 데이터 사이언티스트 : 빅데이터에 대한 이론적 지식과 숙련된 분석 기술을 바탕으로 통찰력, 전달력, 협업능력을 두루 갖춘 전문 인력으로써 빅데이터의 다각적 분석을 통해 인사이트를 도출하고 이를 조직의 전략 방향 제시에 활용할 줄 아는 기획자로서의 전문가. 
* 알고리즈미스트 : 데이터 분석 알고리즘으로 부당한 피해가 발생하는 것을 막는 역할. 알고리즘 코딩 해석을 통해  피해를 입은 사람을 구제하는 전문가.

[ Reference ]

1. 2018 데이터 분석 준 전문가 ADsP, 데이터에듀, 윤종식 저. 

2. 데이터 분석 전문가 가이드, 한국데이터진흥원.

3. EduAtoZ - Programming - YouTube

4. ADSP 데이터분석준전문가 1과목 정리 : 네이버 블로그 (naver.com)

32회 데이터분석 준전문가 (ADsP)

Study log  (D - 44)

 

Last update : 2022.01.17. 월

2022. © Jalynne.log

# 나를 위한 공부 로그

1과목 - 데이터의 이해 (객관식 8문항, 단답형 2문항)

 

1장. 데이터의 이해 
  • 데이터와 정보
  • 데이터베이스의 정의와 특징
  • 데이터베이스 활용

< 데이터와 정보 >


데이터의 정의 

- 개별 데이터 자체로는 의미가 중요하지 않는 객관적 사실 (Fact)

- 추론, 예측, 전망, 추정을 위한 근거 (Basis) : 당위적 특성 

- 다른 객체와의 상호 관계 속에서 가치를 가짐 

 

② 데이터의 유형 

정성적 데이터 (Qualitative data) 정량적 데이터 (Quantitative data)
자료의 성질, 특징을 자세히 풀어 쓴 데이터
언어, 문자로 기술됨 
비정형 데이터 형태 (형태와 형식이 정해져있지 않음)
분석에 많은 시간과 비용이 필요 

[ 예시 ] 설문조사의 주관식 답, SNS 게시글, 기상특보 등. 
숫자, 수치, 기호, 도형 등으로 표시됨
데이터 양이 증가하더라도 관리 시스템에 저장 및 검색, 분석이 용이함

[ 예시 ] 지역별 온도, 풍속, 강우량 

< 출제 유형 >
1. 다음은 어떤 데이터의 유형인가? -  데이터 설명 제시 후 어떤 유형인지 답하는 단답형 문제 
2. 다음중 정량적/정성적 데이터가 아닌 것은? or 다음 중 정성적 데이터에 속하는 것은? - 보기 4개 중, 성격이 다른 하나 고르기 

 

③-1 지식의 차원

: 암묵지와 형식지 ( by. Polanyi)

암묵지  형식지
학습, 체험, 경험 (현장 작업) 을 통해 개인이 습득하는 무형 지식
시행착오와 오랜 경험을 통해 체화되기 때문에, 공유되기 어려움

[ 예시 ] 김장 담그기 노하우 , 자전거 타는 방법
교과서 , 매뉴얼 , 비디오 , DB 등으로 형상화 된 지식
외부로 표출 되어서, 여러사람이 공유할 수 있음


[ 예시 ] 회계 , 재무 관련 대차대조표에 요구되는 지식의 매뉴얼

< 출제 유형 >

1. 다음중 암묵지가 아닌 것은? - 암묵지에 대한 설명 중 맞지 않는 것을 확인 

2. 다음중 데이터에 대한 설명으로 부적절한 것은? 

 

③-2 지식 경영

: 개인의 암묵지와 집단의 형식지가 나선형 형태로 회전하며 생성, 발전, 전환되는 지식의 발전을 기반으로 한 기업의 경영

 

③-3 암묵지와 형식지의 4단계 지식 전환 모드 

단계 설명
1단계 : 통화
(암묵지 - 암묵지)
암묵적 지식 (노하우)을 다른 사람에게 알려주는 것 
2단계 : 출화
(암묵지 - 형식지)
암묵적 지식 (노하우)을 책이나 교본 (형식지)으로 만드는 것
3단계 : 결화
(형식지 - 형식지)
책이나 교본(형식지)에 자신이 알고 있는 새로운 지식 (암묵지)를 추가하는 것 
4단계 : 면화
(형식지 - 암묵지)
만들어진 책이나 교본 (형식지)를 보고 다른 직원들이 암묵적 지식 (노하우)를 습득하는 것 
암묵지와 형식지의 상호작용 전환
암묵지 형식지
전환
암묵지 공통화 (Socialization) 표출화 (Externalization)
형식지 내면화 (Internalization) 연결화 (Combination)

 

< 출제 유형 >

1. 다음 보기는 암묵지와 형식지의 상호작용에 관한 설명이다. 알맞게 연결된 것은? 

- 각 단계별 설명에 맞게 () 괄호 안에 공-표-연-내 넣기 (순서 정확하게 암기, 각 단계의 의미 암기)

2. 내재된 경험을 문서나 매체로 저장하는 것은? 

- 각 단계 중 한 단계에 대한 설명을 주고 답 고르는 문제

 

④ 데이터와 정보의 관계

: 데이터를 가공하여 얻을 수 있는 것은 정보, 지식, 지혜

DIKW 계층구조 : Data - Information - Knowledge - Wisdom의 계층 구조를 가짐

데-정-식-혜 정의 예시
데이터
Data
타 데이터와의 상관관계가 없는 가공하기 전 의 순수한 수치나 기호
(객관적 사실)
A마트는 연필을 100원에, B마트는 연필을 300원에 판매한다.
정보
Information 
데이터의 가공 및 상관, 연관 관계 속에서 의미가 도출된 것, 의미를 부여한 데이터
(사실 + 연관)
A마트의 연필이 B마트보다 싸다
지식
Knowledge 
상호 연결된 정보 패턴을 이해 하여 이를 토대로 예측한 결과물, 고유의 지식으로 내재화
(사실 + 연관 + 행동예측)
상대적으로 저렴한 A마트에서 연필을 사야지.
지혜
Wisdom
근본 원리에 대한 깊은 이해 를 바탕으로 도출되는 창의적 아이디어
(사실 +연관 + 행동예측 + 추론
A마트의 다른 상품들도 B마트보다 쌀 것이다. 

< 출제 유형 >

1. 데이터의 가공 및 처리와 데이터간 연관 관계 속에서 의미가 도출된 것은? - 정보 

2. 아래 내용은 데이터, 정보, 지식의 차이점을 예시로 설명한 것이다. 각각의 용어와 예시가 적절하게 연결된 것은? 

- 예시와 용어를 적절히 매칭하는 문제 


< 데이터베이스의 정의와 특징 >


 데이터베이스의 특징  

- 데이터베이스 정의 : 상호 관련된 다수의 콘텐츠를 정보 처리 및 정보통신 기기에 의하여 체계적으로 수집, 축적하여 다양한 용도와 방법으로 이용할 수 있도록 정리한 정보의 집합체

- 일반적 특징 : 통합, 저장, 공용, 변화되는 데이터를 특징으로 한다. 

데이터베이스는 ~이다. 설명
통합 데이터
(Integrated)
데이터베이스에 같은 내용의 데이터가 중복되어 있지 않다.
저장 데이터
(Stored)
자기디스크나 자기테이프 등과 같이 컴퓨터가 접근할 수 있는 저장매체에 저장되어 있다.
공용 데이터
(Shared)
 데이터베이스의 데이터는 여러 사용자에게 서로 다른 목적으로 공동으로 이용 된다.
변화하는 데이터
(Changable)
새로운 데이터의 추가 , 기존 데이터의 삭제 , 갱신으로 항상 변화하면서도 항상 현재의 정확한 데이터를 유지 해야한다. 

< 출제 유형 >

1. 데이터 베이스 특징에 대한 설명 중 적절하지 않은 것은? 

2. 다음은 데이터베이스의 일반적인 특징에 대한 설명이다. 맞지 않은 것은? 

 

② DBMS 

: Database Management Systems 

: 사용자와 데이터베이스 사이에서, 사용자의 요구에 따라 정보를 처리해주고, 데이터베이스를 관리해주는 소프트웨어

RDBMS (Relational) : 관계형 데이터베이스 관리 시스템 ODBMS (Object) : 객체지향 데이터베이스 관리 시스템
정형화된 테이블로 구성된 데이터 항목들의 집합체
장점: 검증된 시스템, 대규모 정보 처리 가능

단점: 제한된 형태의 정보만 처리 가능, 복잡한 정보구조 모델링 어려움
복잡한 데이터 구조를 표현 및 관리하는 DBMS
장점: 복잡한 구조의 모델링 가능
단점: 사용자 정의 타입 및 비정형 복합 정보 타입 지원 가능.
[ 예시 ] MySQL(오픈소스), Oracle Database(상용)
*MySQL : 오라클 사에서 관리하는 오픈소스 RDMBS
객체들을 생성하여 계층에서 체계적으로 정리하고, 다시 계층들을 하위 계층이 상위 계층으로부터 속성과 방법들을 물려받을 수 있음.

 

< 출제 유형 >

1. 사용자와 데이터베이스 사이에서 사용자의 요구에 따라 정보를 처리해주고 데이터베이스를 관리해주는 소프트웨어는? 

2. 복잡한 데이터 구조를 표현 및 관리하는 DBMS를 무엇이라 하는가? 

 

< 추가적으로 보기에 등장할 수 있는 용어 > 

1. Operating System (운영체제) : Windows, Linux, Unix와 같은 운영체제

2. Data Dictionary (자료사전) : 자료에 관한 정보를 모아 두는 저장소. 자료의 이름 , 표현 방식 , 자료의 의미와 사용 방식 , 그리고 다른 자료와의 관계를 저장

3. ERD (Entity Relationship Diagram) : 실체와 이들의 관계를 도형으로 표현한 것 , 실체의 상관관계 다이어그램은 사용자와 어플리케이션 개발자 간의 자료를 공통적으로 이해할 수 있도록하는 유용한 매체

 

③ 데이터베이스 설계 절차 

  절차 내용
1 요구조건분석 데이터베이스 사용자, 사용목적, 사용범위, 제약조건 등을 정리. 명세서 작성
2 개념적 설계 E-R 모델, 정보를 추상적 개념으로 표현하는 과정. DBMS 독립적 E-R 다이어그램 작성
3 논리적 설계 자료를 컴퓨터가 이해할 수 있도록 특정 DBMS 의 논리적 자료 구조로 변환
4 물리적 설계 논리적 구조로 표현된 데이터를 물리적 구조의 데이터로 변환하는 과정

 

④ NoSQL 

SQL (Structured Query Language) NoSQL (Non SQL, Non Relational, Not Only SQL)
RDBMS 의 데이터를 관리하기 위해 설계된 특수 목적의 프로그래밍 언어. 챔벌린과 레이먼드 F. 보이스가 처음 개발.
단순한 질의 기능 뿐만 아니라, 완전한 데이터 정의, 조작 기능을 갖춤. 
테이블을 단위로 연산을 수행, 영어 문장과 비슷한 구문. (초보자 접근 용이)

관계형 데이터베이스보다 덜 제한적인 일관성 모델을 이용하는 데이터의 저장 및 검색을 위한 메커니즘 제공 , 디자인 단순화 , 수평적 확장성 , 세세한 통제 등을 포함.
기존의 RDBMS 가 갖고 있는 특성 뿐만 아니라 다른 특성들을 부가적으로 지원함.
NoSQL 저장 방식 도구 특징
MongoDB 데이터 교환 시 비산 (BSON: Binary JSON) 문서 형태로 저장.
여러 서버에
분산 저장 및 확장이 용이.
방대한 데이터 처리가 빠르다는 장점.
C++로 작성됨.
Apache HBase 하둡 플랫폼을 위한 공개 비관계형 분산 데이터 베이스.
구글의
빅테이블 (BigTable) 을 본보기로 삼았음.
JAVA 자바로 작성됨 .
Redis Remote Dictionary Server
'키-값' 구조의 비정형 데이터를 저장,
관리하기 위한 오픈 소스 기반의 비관계형 데이터베이스 관리 시스템.

< 출제 유형 >

1. 데이터 NoSQL 저장 방식과 관련이 없는 도구는?

 

⑤ 무결성과 레이크 

데이터 무결성 (Data integrity) 데이터 레이크 (Data lake)
 - 데이터 베이스 내의 데이터에 대한 정확한 일관성, 유효성, 신뢰성을 보장하기 위해 데이터 변경 및 수정 시 여러 제한을 두어 데이터의 정확성을 보증. 
- 유형에는 개체 무결성 (Entity integrity), 참조 무결성 (Reference integrity), 범위 무결성 (Domain integrity)이 있음. 
- 수 많은 정보 속에서 의미있는 내용을 찾기 위해 방식에 상관 없이 데이터를 저장하는 시스템 
- 대용량의 정형 및 비정형 데이터를 저장할 뿐만 아니라 접근도 쉽게 할 수 있는 대규모 저장소
- Apache Hadoop, Teradata Integrated Big data platform 1700 같은 플랫폼으로 구성된 솔루션 제공 

 


< 데이터베이스의 활용>


기업 내부 데이터베이스 솔루션 - 시대별

- 데이터베이스 솔루션의 개념? (IT 관련 솔루션이라는 것은 무엇인가) 

: 기업의 특정 상황이나 문제점을 발견하고, 이 것을 해결 또는 처리하는 것. (하드웨어를 포함하는 소프트웨어, 응용프로그램) 

* DBMS도 하나의 솔루션이라고 할 수 있다. (데이터를 효과적으로 이용할 수 있도록 통합하여 저장, 정리나 보관, 관리 등을 해주는 솔루션 

* IT 솔루션의 목표 : 품질관리, 비용절감, 수익증대, 위험관리 등. 

시대 데이터베이스 솔루션 특징
1980년대
OLTP
(On-Line Transaction Processing)
온라인 거래 처리
주 컴퓨터와 통신회선으로 접속되어 있는 복수의 사용자 단말에서 발생한 거래를 주 컴퓨터에서 처리하여 그 결과를 사용자에 되돌려 보내는 처리형태.
데이터를 수시로 갱신하는 프로세스, 거래중심 

예 ) 상품주문 입력 시스템, 회원 정보 수정, 재고 관리 시스템 등.
OLAP
(On-Line Analytical Processing)
온라인 분석 처리
정보 위주의 분석 처리, 다차원으로 이루어진 데이터로부터 통계적인 요약 정보를 제공할 수 있는 기술, 다차원의 데이터를 대화식으로 분석 하기 위한 SW
데이터 조회 위주, 주제 중심

예 ) 10 년간 A 사의 직급별 임금 상승률
2000년대 CRM
(Customer Relationship Management)
고객 관계 관리
고객별 구매 이력 데이터베이스를 분석하여 고객에 대한 이해를 돕고 이를 바탕으로 각종 마케팅 전략을 통해 보다 높은 이익을 창출 할 수 있는 솔루션
SCM
(Supply Chain Management)

공급망 관리
기업이 외부 공급업체 또는 제휴업체 (제조 , 물류 , 유통업체 등 유통공급망에 참여하는 모든 업체)와 협력하는 통합된 정보시스템으로 연계하여 재고 및 시간과 비용을 최적화 시키기 위한 솔루션.
자재구매 데이터, 생산, 재고 데이터, 유통 판매 데이터, 고객 데이터로 구성됨

< 출제 유형 >

1. 다음은 어떤 기업 내부 데이터 솔루션에 대한 설명인가? 

2. 아래는 데이터베이스를 기반으로 기업 내에 구축하는 주요 정보시스템 중 하나를 설명한 것이다. 다음 중 아래의 내용에 적합한 것은?

 

②-1 기업 내부 데이터베이스 솔루션 - 제조부문

제조부문 DB 솔루션 설명
Data Warehouse 큰 조직 내에서 분산 운영되는 각각의 DB 관리 시스템들을 효율적으로 통합하여 조정 및 관리하기 때문에, 기업 내의 효율적인 의사결정 지원 애플리케이션을 위한 정보를 제공하는 하나의 통합된 데이터 저장 공간 (정보관리시스템).
데이터들은 시간적 흐름에 따라 변화하는 값을 유지.
*ETL : 추출 , 변환 , 적재 (Extract, Transform, Load)을 통해, 주기적으로 내부 및 외부 데이터베이스로부터 정보를 추출하고 정해진 규약에 따라 정보를 변환한 후에 데이터웨어하우스에 정보를 적재함. 
*4대 특징 (특성) 
통합 : 데이터들은 전사적 차원 에서 일관된 형식으로 정의됨
시계열성 : 관리되는 데이터들은 시간의 흐름에 따라 변화하는 값을 저장함
주제지향적 : 특정 주제에 따라 데이터들이 분류 , 저장 , 관리됨
비소멸성(비휘발성)
Data Mart 전사적으로 구축된 데이터 웨어하우스로부터 특정 주제, 부서 중심으로 구축된 소규모 단일 주제의 데이터 웨어하우스
재무 , 생산 , 운영과 같이 특정 조직의 특정 업무 분야에 초점을 두고 있음
ERP 
(Enterprise Resource Planning)
제조업을 포함한 다양한 비즈니스 분야에서 생산, 구매 , 재고 , 주문 , 공급자와의 거래 , 고객 서비스 제공 등 전 부문에 걸쳐 독립적으로 운영되던 주요 프로세스 관리를 돕는, 여러 모듈로 구성된 통합 애플리케이션 소프트웨어 패키지.
한 부문에서 데이터를 입력하면 회사의 전 부문에서 동시에 정보를 활용할 수 있다. 

< 출제 유형 >

1. 데이터웨어하우스 고유의 특성이 아닌 것은? or 설명으로 부적절한 것은? - 데이터 베이스, 데이터 마트에 대한 설명과 비교해서 알아둘 것! 

2. 다음은 어떤 기업 내부 데이터베이스 솔루션에 대한 설명인가? (시대별 솔루션과 엮어서 보기로 주어질 수 있음) 

 

②-2 BI (Business Intelligence) vs BA (Business Analytics)

BI
(Business Intelligence)
BA 
(Business Analytics)
기업의 Data Wearhouse에 저장된 데이터에 접근해, 경영의사결정에 필요한 정보를 획득하고 이를 경영활동에 활용하는 것.
데이터를 통합 분석하여 기업 활동에 연관된 의사결정을 돕는 프로세스.
하나의 특정 비즈니스 질문에 답변하도록 설계함.

* 가트너의 정의 : 여러 곳에 산재하여 있는 데이터를 수집하여 체계적이고 일목요연하게 정리함으로써 사용자가 필요로 하는 정보를 정확한 시간에 제공할 수 있는 환경

* ad hoc report : BI 도구 중 하나로, 일회용으로 작성된 임시 보고서. (구조화된 보고와 다름) BI 도구를 사용하면 조직의 모든 사용자가 IT 직원에게 부담을 주지 않고 특정 비즈니스 질문에 답변하고 해당 데이터를 시각적으로 표시할 수 있음. BI 와 빅데이터 분석의 차이점을 나타내는 키워드
*cf ) Optimization, forecast, insight : 빅데이터 분석 관련 키워드
경영 의사결정을 위한 통계적이고 수학적인 분석에 초점 을 둔 기법
성과에 대한 이해와 비즈니스 통찰력에 초점을 둔 분석 방법
사전에 예측하고 최적화하기 위한 것으로 BI 보다 진보된 형태

< 출제 유형 >

1. 다음은 무엇을 의미하는가? - BI나 BA 중 하나에 대한 설명을 써두고, 어떤 것에 대한 것인지 묻는 문제. 

2. BI와 빅 데이터 분석의 차이점을 나타낸 키워드는? 

 

기업 내부 데이터베이스 솔루션 - 금융부문

금융부문 DB 솔루션 설명
블록체인
(Block Chain)
기존 금융회사의 중앙 집중형 서버에 거래 기록을 보관하는 방식에서 벗어나 거래에 참여하는 모든 사용자에게 거래 내용을 보내주며 거래 때마다 이를 대조하는 데이터 위조 방지 기술.
2000년 초반, EAI, ERP, e-CRM 등을 통한 정보 공유 및 통합, 정보의 전략적 활용이 시작되었다.  *EAI (Enterprise Application Integration): 기업 내 상호 연관된 모든 애플리케이션을 유기적으로 연동하여 필요한 정보를 중앙 집중적으로 통합, 관리, 사용할 수 있는 환경을 구현하는 것. 손쉬운 확장성을 가짐
향후 EDW (Enterprise Data Warehouse)의 확장이 기대.  

 

기업 내부 데이터베이스 솔루션 - 유통부문

유통부문 DB 솔루션 설명 
KMS
(Knowledge Management System)
지식관리시스템
조직 내의 지식을 체계적으로 관리하는 시스템을 의미.
의사결정을 내리는 것이 기업 내 인적자원이 수행하는 일이었기 때문에, 인적자원이 떠나면 지식 자원이 함께 사라져, 기업의 지식 자원이 소실된다는 관점에서 시작된 시스템. 
RFID 무선주파수 (RF, Radio Frequency)를 이용하여 대상을 식별할 수 있는 기술.
RF 태그에 사용 목적에 알맞은 정보를 저장하여 적용 대상에 부착한 후 판독기에 해당되는 RFID 리더를 통해 정보를 인식함.
유비쿼터스 시대를 준비. 

< 출제 유형 >

1. 기업 내부 데이터베이스 활용과 관련이 없는 것은?

- 기업 내부 데이터베이스 솔루션 인지 아닌지 구분할 수 있어야 함 : SCM, CRM, ERP, KMS 은 기억할 것! 

 

⑤ 사회 기반 구조로서의 데이터베이스 - 시대별 

  주요 내용 참고
1990년대 데이터 베이스 구축이 활발히 추진.
정부를 중심으로 사회간접자본 (SOC) 차원에서 EDI 및 CALS를 활용하여 VAN을 통해 정보망이 구축되기 시작함. 
* EDI (Electronic Data Interchange) : 주문서, 납품서, 청구서 등 무역에 필요한 각종 서류를 표준화된 양식을 통해 전자적 신호로 바꿔 통신망을 이용해 거래처에 전송하는 시스템
* VAN (Value Added Network) : 부가가치통신망. 단순한 통신을 넘어 부가가치가 높은 서비스를 하는 것. 
* CALS (Commerce At Light Speed) : 전자 상거래 구축을 위해 기업 내에서 비용 절감과 생산성 향상 추구 목적으로 시작. 제품의 라이프 사이클 전반에 관련된 데이터를 통합, 공유할 수 있도록 한 경영 통합 정보 시스템. 
1990년대 후반 DB 활용이 문서 교환 등에 국한되었던 EDI 및 CALS에서 벗어나, 지리, 교통 부문의 데이터 베이스의 구축이 시작됨  
2000년대 지리, 교통 DB 고도화.
의료, 교육, 행정 등 사회 각 부문으로 공공 DB의 구축 및 이용이 확대되었다. 
 
부문 주요 내용
물류 CVO (Commercial Vehicle Operation System)
PORT-MIS (항만 운영 정보 시스템)
KROIS (철도운영정보시스템)
VAN (민간기업물류)
지리 NGIS (국가지리정보체계) - 1995년 
GIS
RS (Remote Sensing)
GPS (Global positioning system)
LBS (Location based service)
SIM (Spatial information management)
공간 DBMS 등
교통 ITS (Intelligent Transport System) : 지능형 교통 시스템. 전자 , 정보 , 통신 , 제어 등의 기술을 교통체계에 접목시킨 것으로 신속 , 안전 , 쾌적한 차세대 교통체계를 만드는 데 목적을 두고 있다.
의료 의료정보 시스템
PACS (Picture Archiving and Communications System)

U-health (Ubiquitous-health)

[ Reference ]

1. 2018 데이터 분석 준 전문가 ADsP, 데이터에듀, 윤종식 저. 

2. 데이터 분석 전문가 가이드, 한국데이터진흥원.

3. https://itstory07.tistory.com/413

4. EduAtoZ - Programming - YouTube

5. ADSP 데이터분석준전문가 1과목 정리 : 네이버 블로그 (naver.com)

📌 과목개요

1과목 - 데이터의 이해 (객관식 8문항, 단답형 2문항)

1. 데이터의 이해 

  • 데이터와 정보
  • 데이터베이스의 정의와 특징
  • 데이터베이스 활용

2. 데이터의 가치와 미래

  • 빅데이터의 가치와 영향
  • 비즈니스 모델
  • 위기 요인과 통제 방안
  • 미래의 빅데이터

3. 가치 창조를 위한 데이터사이언스와 전략 인사이트 

  • 빅데이터분석과 전략 인사이트
  • 전략 인사이트 도출을 위한 필요 역량
  • 빅데이터 그리고 데이터 사이언스의 미래

 

3과목 - 데이터분석 기획 (객관식 8문항, 단답형 2문항)

1. 데이터 분석 기획의 이해 

  • 분석 기획 방향성 도출
  • 분석 방법론
  • 분석 과제 발굴
  • 분석 프로젝트 관리 방안

2. 분석 마스터 플랜

  • 마스터 플랜 수립
  • 분석 거버넌스 체계 수립

 

4과목 - 데이터 분석 (객관식 24문항, 단답형 6문항)

1. R 기초와 데이터 마트

  • R기초
  • 데이터 마트
  • 결측값 처리와 이상값 검색

2. 통계분석

  • 통계학 개론
  • 기초 통계분석
  • 다변량 분석
  • 시계열 예측

3. 정형 데이터 마이닝 

  • 데이터 마이닝 개요
  • 분류분석(Classification)
  • 군집분석(Clustering)
  • 연관분석(Association Analysis)

 

❗객관식 (40문항, 각 2점) + 단답형 (10문항, 각 2점)❗
❗❗시험시간 = 90분 (1시간 30분)❗❗
❗❗❗ADP 필기 범위에도 포함되기 때문에 한 번 공부할 때 확실히 정리 해 두는 것이 필요!❗❗❗

 

💯 합격기준

  • 총점 60점 이상 취득 (과목별 40% 미만 과락)

 

 

📆 시험준비 계획 

  • 32회 시험 준비 (22.02.26.토) 
  • 22년 1월 24일 필기 접수

  • ~ 1월 : 내용 1회독 완료하기 (+ 블로그에 필기 정리 = 나만의 ADsP책 만들기 단권화)
    • 참고할 교재 : 데이터 분석 전문가 가이드 (개정판), 한국데이터진흥원 + 2018 데이터분석 준전문가, 윤종식, 에듀윌. + AtoZ 유투브 참고자료
  • ~ 2월 첫 주 : 2,3회독 완료하기 (+ 기출문제 풀기) 
  • ~ 2월 둘째주 ~ 시험 전날 : 오답위주로 정리암기 ( + 데이터분석 자격 검정 실전문제 문제집 풀기) 

 

2022.01.12. Updated

©Jalynne.log

+ Recent posts