데이터 분석을 할 때 전의 방식처럼 일일히 변수를 입력하여 적어주기는 힘들 것입니다. 그래서 외부에서 생성된 데이터를 분석하는 경우가 많습니다.

1. 엑셀 파일 불러오기

1.1 엑셀 파일 불러오기

엑셀 파일을 불러올 때에는 readxl 패키지를 사용합니다.

install.packages("readxl")
library(readxl)

readxl 패키지 내의 read_excel()을 사용하여 액셀 파일을 불러올 수 있습니다. 프로젝트 파일이 있는 폴더 내에 엑셀 파일이 위치한다면 파일명을 적으면 됩니다.

ex_example <- read_excel("example.xlsx")

만약 프로젝트 폴더가 아닌 다른 폴더 내의 액셀 파일을 불러오려면 파일의 경로를 지정해야 합니다. 이때 파일 경로에서 사용하는 역슬래시 ' \ ' 는 슬래시 ' / ' 로 꼭 바꿔주어야 합니다.

df_example <- read_excel("C:/data/example.xlsx")

 

1.2 readxl()의 파라미터 알아보기

1.2.1. 엑셀 파일에 시트가 여러 개 있을 때

엑셀 파일에 시트가 여러 개 있을 때에는 sheet 파라미터를 사용합니다.

ex_example <- read_excel("example.xlsx", sheet = 3)

1.2.2. 엑셀 파일의 첫번째 행이 변수 명이 아닐때

read_excel() 함수는 엑셀 파일의 첫번째 행을 변수명으로 인식합니다. 변수명이 없이 첫번째 행부터 데이터가 시작된다면 한 행이 유실되는 경우가 생겨납니다. 이 때는 col_names 파라미터를 사용합니다. 논리형 벡터 타입으로 입력하여 F 또는 FALSE 를 입력하면 됩니다.

ex_example <-read_excel("example.xlsx", col_names = F)

1.2.3. 엑셀 파일에 빈 값이 있다면

엑셀 데이터 파일에 빈 값이 있다면 이것을 지정된 수(센티널)로 둘지 선택하실 수 있습니다. na 파라미터를 사용합니다.

ex_example <-read_excel("example.xlsx", na=0)

1.2.4. 원하는 행부터 가져오고 싶을 때

skip 파라미터를 사용하여 원하는 행부터 시작하여 데이터를 가져오실 수 있습니다.

ex_example <- read_excel("example.xlsx", skip=3)

 

2. CSV 파일 불러오기

2.1. CSV 파일 불러오기

.csv 파일은 Comma-separated values의 약자로 쉼표 ' , ' 로 구분된 범용 데이터 파일 입니다. 다양한 프로그램에서 지원하며 용량이 작기 때문에 자주 사용됩니다.

R에서 csv 파일을 불러올 때에는 별도의 패키지가 필요하지 않습니다. read.csv() 함수를 사용하여 불러올 수 있습니다.

csv_example <- read.csv("example.csv")

 

2.2. read.csv()의 파라미터 알아보기

2.2.1 첫 줄이 변수명이 아닐 때

엑셀 파일과 마찬가지로 read.csv() 도 첫 줄을 변수명으로 인식합니다. 이때는 header 파라미터를 사용합니다. header = T 혹은 header = TRUE 인 경우에는 첫 줄이 변수명인 경우, header = F 혹은 header = FALSE 는 첫 줄이 변수명이 아닌 경우에 사용합니다.

csv_example <- read.csv("example.csv", header = F)

2.2.1 열을 구분하는 기호를 지정하고 싶을 때

기본값은 콤마 ' , ' 이지만 열을 구분하는 기호를 다른 기호로 사용하였을 때에는 sep 파라미터를 사용합니다.

csv_example <- read.csv("example.csv", sep = " ") # 띄어쓰기로 구분되었을 때

2.2.2 문자가 들어 있는 파일을 읽어올 때

csv 파일을 불러올 때에는 factor 타입으로 불러오게 됩니다. 이때 문자가 들어 있다면 오류가 발생할 수 있으므로 stringAsFactors 파라미터를 F 혹은 FALSE 로 설정해야 합니다.

csv_example <- read.csv("example.csv", stringAsFactors = F)

2.2.3 원하는 행부터 가져오고 싶을 때

원하는 행부터 가져오고 싶다면 skip 파라미터를 사용합니다.

csv_example <- read.csv("example.csv", skip = 3)

 

 

// 참고자료

영우, 『쉽게 배우는 R 데이터 분석』, 이지스 퍼블리싱, 2019

이영호, "확률과통계"  가천대학교, 2019.03.21

'Programming > R' 카테고리의 다른 글

변수 조작하기  (0) 2019.04.10
데이터 파악하기  (0) 2019.04.09
데이터 프레임 만들기  (0) 2019.03.30
변수  (0) 2019.03.27
VSCode 에서 R 프로그래밍 환경 구축하기  (1) 2019.03.25

+ Recent posts