Study/Data Mining
EDA (탐색적 데이터 분석)
Ark1st
2019. 3. 14. 23:09
EDA (탐색적 데이터 분석)
탐색적 데이터 분석 (exploratory data analysis) 은 데이터의 집합(data sets)을 분석하여 그 특징을 요약하는 접근법으로 흔히 시각적 방법을 사용합니다. 통계적 모델은 사용되거나 사용되지 않을 수도 있지만, EDA는 데이터가 형식적인 모델링이나 가설의 시험 과제를 넘어서 우리에게 무엇을 말해줄 수 있는지를 보기 위한 것(for seeing what the data can tell us) 입니다.
EDA의 목적(objectives) 은 다음과 같습니다.
- 관찰된 현상의 원인에 대한 가설을 제시합니다.
- 통계적 추론을 기반으로 가정을 평가합니다.
- 적절한 통계 도구 및 기법의 선정을 지원합니다.
- 조사나 실험을 통하여 추가 데이터 수집의 근거를 제시합니다.
EDA의 과정은 다음과 같습니다.
- 데이터 가지고 오기
- 데이터 모양 확인
- 데이터 타입 확인
- 데이터 기초 분석
- 데이터 클린징
- 데이터 시각화
- 의사결정
EDA의 테크닉은 빅 데이터 분석과 데이터 마이닝에 채택되었습니다. 또한 학생들에게 통계적 사고를 소개하는 방법으로 가르쳐지고 있습니다.
<출처>
Exploratory data analysis, Wikipedia, updated 2019.02.22, accessed 2019.03.14, https://en.wikipedia.org/wiki/Exploratory_data_analysis#cite_note-5
이영호, "확률과통계" 가천대학교, 2019.03.14