Study/Data Mining

EDA (탐색적 데이터 분석)

Ark1st 2019. 3. 14. 23:09

EDA (탐색적 데이터 분석)


탐색적 데이터 분석 (exploratory data analysis) 은 데이터의 집합(data sets)을 분석하여 그 특징을 요약하는 접근법으로 흔히 시각적 방법을 사용합니다. 통계적 모델은 사용되거나 사용되지 않을 수도 있지만, EDA는 데이터가 형식적인 모델링이나 가설의 시험 과제를 넘어서 우리에게 무엇을 말해줄 수 있는지를 보기 위한 것(for seeing what the data can tell us) 입니다.


EDA의 목적(objectives) 은 다음과 같습니다.


  • 관찰된 현상의 원인에 대한 가설을 제시합니다.
  • 통계적 추론을 기반으로 가정을 평가합니다.
  • 적절한 통계 도구 및 기법의 선정을 지원합니다.
  • 조사나 실험을 통하여 추가 데이터 수집의 근거를 제시합니다.


EDA의 과정은 다음과 같습니다.


  1. 데이터 가지고 오기
  2. 데이터 모양 확인
  3. 데이터 타입 확인
  4. 데이터 기초 분석
  5. 데이터 클린징
  6. 데이터 시각화
  7. 의사결정


EDA의 테크닉은 빅 데이터 분석과 데이터 마이닝에 채택되었습니다. 또한 학생들에게 통계적 사고를 소개하는 방법으로 가르쳐지고 있습니다.




<출처> 

Exploratory data analysis, Wikipedia, updated 2019.02.22, accessed 2019.03.14, https://en.wikipedia.org/wiki/Exploratory_data_analysis#cite_note-5


이영호, "확률과통계"  가천대학교, 2019.03.14