데이터 파악하기
데이터 파악은 데이터 분석에 있어서 아주 중요합니다. 데이터를 먼저 받아 보게 되면 어떤 변수들이 있는지, 변수의 종류는 무엇인지 생각해야 합니다. 대략적인 특징들과 변수를 파악하고 나면 어떤 데이터 분석 기법을 적용할지에 대한 생각을 할 수 있게 됩니다.
데이터 파악을 돕는 여러 함수들이 있습니다. 쉽게 배우는 R 데이터 분석에서는 6개의 함수를 예로 들었습니다.
함수 | 기능 |
---|---|
head() | 데이터의 앞부분 출력 |
tail() | 데이터의 뒷부분 출력 |
View() | 뷰어 창에서 데이터 확인 |
dim() | 데이터의 차원 출력 |
str() | 데이터의 속성 출력 |
summary() | 요약 통계량 출력 |
우리는 이 데이터 함수를 실습하기 위해서 ggplot2 패키지 에서 제공하는 mpg 데이터를 활용하겠습니다. mpg 데이터는 미국의 환경 보호국에서 제공하는 자동차 234종의 연비 데이터를 담고 있습니다.
install.package(ggplot2)
mpg <- as.data.frame(ggplot2::mpg)
1. head() - 데이터 앞부분 출력
데이터가 크다면 데이터 프레임 전체를 출력하기에는 화면에 너무 많은 내용이 출력되게 됩니다. head()는 데이터의 앞부분부터 6번째 행까지만 축약해서 출력해 줍니다.
head(mpg)
데이터 프레임의 이름 뒤에 쉼표를 쓰고 숫자를 입력하면 입력한 행까지의 데이터를 출력해 줍니다.
head(mpg,10) #10행까지 출력
2. tail() -
데이터 뒷부분 출력
head()는 앞부분의 내용을 출력했다면 tail()은 데이터의 뒷부분을 출력해 줍니다. 마찬가지로 뒤에서부터 여섯 행을 출력해 줍니다.
tail(mpg)
마찬가지로 데이터 프레임의 이름 뒤에 쉼표를 쓰고 숫자를 쓰면 원하는 만큼의 행의 데이터를 출력해 줍니다.
tail(mpg,10) #뒤에서부터 10행까지 출력
3. View() - 뷰어 창에서 확인
View()는 엑셀과 유사하게 생긴 뷰어 창에서 데이터의 내용을 확인할 수 있습니다.
View(mpg)
4. dim() - 데이터의 차원 출력
데이터의 차원 출력이라는 것은 쉽게 이야기 하자면 데이터가 몇 행 몇 열로 구성되는지 알아보는 것입니다.
dim(mpg)
## [1] 234 11
5. str() - 속성 확인
str() 은 데이터에 들어 있는 변수들의 속성을 보여 줍니다.
str(mpg)
6. summary() - 요약 통계량 산출
summary(mpg)
Source Code
https://github.com/ark1st/Doit_R_ARKS_CODE/blob/master/blog_mpg_%20certain_data
// 참고자료
김영우, 『쉽게 배우는 R 데이터 분석』, 이지스 퍼블리싱,
2019 이영호, "확률과통계" 가천대학교, 2019.03.21
'Programming > R' 카테고리의 다른 글
데이터 전처리 (0) | 2019.04.14 |
---|---|
변수 조작하기 (0) | 2019.04.10 |
외부 데이터로 데이터프레임 만들기 (0) | 2019.03.30 |
데이터 프레임 만들기 (0) | 2019.03.30 |
변수 (0) | 2019.03.27 |