데이터 파악하기

데이터 파악은 데이터 분석에 있어서 아주 중요합니다. 데이터를 먼저 받아 보게 되면 어떤 변수들이 있는지, 변수의 종류는 무엇인지 생각해야 합니다. 대략적인 특징들과 변수를 파악하고 나면 어떤 데이터 분석 기법을 적용할지에 대한 생각을 할 수 있게 됩니다.

데이터 파악을 돕는 여러 함수들이 있습니다. 쉽게 배우는 R 데이터 분석에서는 6개의 함수를 예로 들었습니다.

 

함수 기능
head() 데이터의 앞부분 출력
tail() 데이터의 뒷부분 출력
View() 뷰어 창에서 데이터 확인
dim() 데이터의 차원 출력
str() 데이터의 속성 출력
summary() 요약 통계량 출력

 

우리는 이 데이터 함수를 실습하기 위해서 ggplot2 패키지 에서 제공하는 mpg 데이터를 활용하겠습니다. mpg 데이터는 미국의 환경 보호국에서 제공하는 자동차 234종의 연비 데이터를 담고 있습니다.

install.package(ggplot2)
mpg <- as.data.frame(ggplot2::mpg)

 

1. head() - 데이터 앞부분 출력

데이터가 크다면 데이터 프레임 전체를 출력하기에는 화면에 너무 많은 내용이 출력되게 됩니다. head()는 데이터의 앞부분부터 6번째 행까지만 축약해서 출력해 줍니다.

head(mpg)

데이터 프레임의 이름 뒤에 쉼표를 쓰고 숫자를 입력하면 입력한 행까지의 데이터를 출력해 줍니다.

head(mpg,10) #10행까지 출력

2. tail() -

데이터 뒷부분 출력

head()는 앞부분의 내용을 출력했다면 tail()은 데이터의 뒷부분을 출력해 줍니다. 마찬가지로 뒤에서부터 여섯 행을 출력해 줍니다.

tail(mpg)

마찬가지로 데이터 프레임의 이름 뒤에 쉼표를 쓰고 숫자를 쓰면 원하는 만큼의 행의 데이터를 출력해 줍니다.

tail(mpg,10) #뒤에서부터 10행까지 출력

 

3. View() - 뷰어 창에서 확인

View()는 엑셀과 유사하게 생긴 뷰어 창에서 데이터의 내용을 확인할 수 있습니다.

View(mpg)

4. dim() - 데이터의 차원 출력

데이터의 차원 출력이라는 것은 쉽게 이야기 하자면 데이터가 몇 행 몇 열로 구성되는지 알아보는 것입니다.

dim(mpg)
## [1] 234  11

 

5. str() - 속성 확인

str() 은 데이터에 들어 있는 변수들의 속성을 보여 줍니다.

str(mpg)

6. summary() - 요약 통계량 산출

summary(mpg)

 

Source Code

https://github.com/ark1st/Doit_R_ARKS_CODE/blob/master/blog_mpg_%20certain_data

 

// 참고자료

김영우, 『쉽게 배우는 R 데이터 분석』, 이지스 퍼블리싱,

2019 이영호, "확률과통계" 가천대학교, 2019.03.21

'Programming > R' 카테고리의 다른 글

데이터 전처리  (0) 2019.04.14
변수 조작하기  (0) 2019.04.10
외부 데이터로 데이터프레임 만들기  (0) 2019.03.30
데이터 프레임 만들기  (0) 2019.03.30
변수  (0) 2019.03.27

https://github.com/ark1st

데이터 분석을 할 때 전의 방식처럼 일일히 변수를 입력하여 적어주기는 힘들 것입니다. 그래서 외부에서 생성된 데이터를 분석하는 경우가 많습니다.

1. 엑셀 파일 불러오기

1.1 엑셀 파일 불러오기

엑셀 파일을 불러올 때에는 readxl 패키지를 사용합니다.

install.packages("readxl")
library(readxl)

readxl 패키지 내의 read_excel()을 사용하여 액셀 파일을 불러올 수 있습니다. 프로젝트 파일이 있는 폴더 내에 엑셀 파일이 위치한다면 파일명을 적으면 됩니다.

ex_example <- read_excel("example.xlsx")

만약 프로젝트 폴더가 아닌 다른 폴더 내의 액셀 파일을 불러오려면 파일의 경로를 지정해야 합니다. 이때 파일 경로에서 사용하는 역슬래시 ' \ ' 는 슬래시 ' / ' 로 꼭 바꿔주어야 합니다.

df_example <- read_excel("C:/data/example.xlsx")

 

1.2 readxl()의 파라미터 알아보기

1.2.1. 엑셀 파일에 시트가 여러 개 있을 때

엑셀 파일에 시트가 여러 개 있을 때에는 sheet 파라미터를 사용합니다.

ex_example <- read_excel("example.xlsx", sheet = 3)

1.2.2. 엑셀 파일의 첫번째 행이 변수 명이 아닐때

read_excel() 함수는 엑셀 파일의 첫번째 행을 변수명으로 인식합니다. 변수명이 없이 첫번째 행부터 데이터가 시작된다면 한 행이 유실되는 경우가 생겨납니다. 이 때는 col_names 파라미터를 사용합니다. 논리형 벡터 타입으로 입력하여 F 또는 FALSE 를 입력하면 됩니다.

ex_example <-read_excel("example.xlsx", col_names = F)

1.2.3. 엑셀 파일에 빈 값이 있다면

엑셀 데이터 파일에 빈 값이 있다면 이것을 지정된 수(센티널)로 둘지 선택하실 수 있습니다. na 파라미터를 사용합니다.

ex_example <-read_excel("example.xlsx", na=0)

1.2.4. 원하는 행부터 가져오고 싶을 때

skip 파라미터를 사용하여 원하는 행부터 시작하여 데이터를 가져오실 수 있습니다.

ex_example <- read_excel("example.xlsx", skip=3)

 

2. CSV 파일 불러오기

2.1. CSV 파일 불러오기

.csv 파일은 Comma-separated values의 약자로 쉼표 ' , ' 로 구분된 범용 데이터 파일 입니다. 다양한 프로그램에서 지원하며 용량이 작기 때문에 자주 사용됩니다.

R에서 csv 파일을 불러올 때에는 별도의 패키지가 필요하지 않습니다. read.csv() 함수를 사용하여 불러올 수 있습니다.

csv_example <- read.csv("example.csv")

 

2.2. read.csv()의 파라미터 알아보기

2.2.1 첫 줄이 변수명이 아닐 때

엑셀 파일과 마찬가지로 read.csv() 도 첫 줄을 변수명으로 인식합니다. 이때는 header 파라미터를 사용합니다. header = T 혹은 header = TRUE 인 경우에는 첫 줄이 변수명인 경우, header = F 혹은 header = FALSE 는 첫 줄이 변수명이 아닌 경우에 사용합니다.

csv_example <- read.csv("example.csv", header = F)

2.2.1 열을 구분하는 기호를 지정하고 싶을 때

기본값은 콤마 ' , ' 이지만 열을 구분하는 기호를 다른 기호로 사용하였을 때에는 sep 파라미터를 사용합니다.

csv_example <- read.csv("example.csv", sep = " ") # 띄어쓰기로 구분되었을 때

2.2.2 문자가 들어 있는 파일을 읽어올 때

csv 파일을 불러올 때에는 factor 타입으로 불러오게 됩니다. 이때 문자가 들어 있다면 오류가 발생할 수 있으므로 stringAsFactors 파라미터를 F 혹은 FALSE 로 설정해야 합니다.

csv_example <- read.csv("example.csv", stringAsFactors = F)

2.2.3 원하는 행부터 가져오고 싶을 때

원하는 행부터 가져오고 싶다면 skip 파라미터를 사용합니다.

csv_example <- read.csv("example.csv", skip = 3)

 

 

// 참고자료

영우, 『쉽게 배우는 R 데이터 분석』, 이지스 퍼블리싱, 2019

이영호, "확률과통계"  가천대학교, 2019.03.21

'Programming > R' 카테고리의 다른 글

변수 조작하기  (0) 2019.04.10
데이터 파악하기  (0) 2019.04.09
데이터 프레임 만들기  (0) 2019.03.30
변수  (0) 2019.03.27
VSCode 에서 R 프로그래밍 환경 구축하기  (1) 2019.03.25

1. 데이터 프레임

데이터 프레임은 가장 많이 사용되는 데이터의 형태입니다. 행과 열로 구성된 사각형 모양의 표처럼 생겼습니다. 데이터 프레임의 열은 일반적으로 속성을 나타내며 컬럼(Column), 변수라고도 불립니다. 행은 데이터 한 개체에 대한 정보를 나타냅니다.

데이터를 처리할 때 데이터가 크다는 말은 행이 많다는 이야기 일 수도 있고 열이 많다는 이야기 일 수도 있습니다.

행이 많아지는 것은 100명의 데이터를 분석하다가 10만명의 데이터를 분석하는 것으로 비유할 수 있습니다. 이러한 상황에서 우리는 컴퓨터가 느려지고 심한 경우에는 데이터를 아예 불러오지도 못하는(!) 상황에 놓이기도 합니다. 이 문제를 해결하려면 더 성능이 좋은 장비를 구축하거나, 분산 처리 기술, 클라우드 서비스를 활용할 수 있습니다. 데이터의 행이 많아지더라도 분석 기술은 크게 달라지지 않습니다.

열이 많아지는 것은 변수가 늘어나는 것을 의미합니다. 데이터 분석은 변수들의 관계를 통해서 의미있는 결과를 도출합니다. 변수들끼리 조합하여 새로운 변수들을 만들기도 합니다. 이러한 측면에서 데이터의 열이 증가하게 된다면 조합할 수 있는 경우의 수가 기하급수적으로 늘어나게 됩니다. 그래서 더 복잡한 분석 방법을 도입해야 할 필요성이 생기게 됩니다.

이러한 측면에서 데이터의 행이 많은 것보다 열이 많은 것이 데이터 분석에서는 더 중요합니다.

 

2. 데이터 프레임 만들기

아래와 같은 데이터 프레임을 만들어 보겠습니다.

이름 영어 점수 수학 점수
KIM 100 80
LEE 80 90
PARK 70 100
KANG 90 90

1. 변수 생성

네 명의 이름, 영어점수, 수학점수를 각각 담은 변수를 생성합니다.

name <- c("KIM","LEE","PARK","KANG")
english <- c(100, 80, 70, 90)
math <- c(80, 90, 100, 90)

2. 변수로 데이터 프레임 만들기

df_exam <- data.frame(name, english, math)
df_exam

## [1] name english math
## [1] KIM   100   80
## [1] LEE   80   90
## [1] PARK   70   100
## [1] KANG   90   90

이때 새로운 변수를 추가 할 수도 있습니다. 국어 점수를 추가해 보겠습니다.

korean <- c(90, 80, 85, 95)
df_exam <- data.frame(name, english, math, korean)
df_exam

## [1] name english math korean
## [1] KIM   100   80  90
## [1] LEE   80   90  80
## [1] PARK   70   100  85
## [1] KANG   90   90  95

데이터 프레임 내에 있는 변수에 접근할 때에는 $ 기호를 사용합니다.

df_exam$english

## [1] 100 80 70 90

데이터 프레임을 한번에 만들 수도 있습니다. data.frame( ) 함수 안에 변수와 값을 나열해서 한 번에 만들 수 있습니다.

df_exam2 <- data.frame(name = c("KIM","LEE","PARK","KANG"),
					   english = c(100, 80, 70, 90),
  					   math = c(80, 90, 100, 90),
                       korean <- c(90, 80, 85, 95))
df_exam2

## [1] name english math korean
## [1] KIM   100   80  90
## [1] LEE   80   90  80
## [1] PARK   70   100  85
## [1] KANG   90   90  95

 

 

// 참고자료

영우, 『쉽게 배우는 R 데이터 분석』, 이지스 퍼블리싱, 2019

이영호, "확률과통계"  가천대학교, 2019.03.21

'Programming > R' 카테고리의 다른 글

데이터 파악하기  (0) 2019.04.09
외부 데이터로 데이터프레임 만들기  (0) 2019.03.30
변수  (0) 2019.03.27
VSCode 에서 R 프로그래밍 환경 구축하기  (1) 2019.03.25
R & R Studio 설치 (2)  (0) 2019.03.19

1. 변수

데이터 분석에 있어서 변수는 아주 중요합니다. 변수는 데이터 분석의 대상이 되는 '변하는 수'를 말합니다. 이와 다르게 변하지 않는 수를 상수라고 합니다.

변수를 구분하여 보면 범주형 변수와 연속형 변수가 있습니다.

  • 범주형 변수는 대상을 특성을 가진 그룹 범주 중 하나에 속하게 할 수 있는 변수입니다. 성별(남성과 여성), 학급(1반, 2반), 지역과 같은 변수들이 범주형 변수에 속합니다. 임의로 숫자를 부여하여 구분할 수 있지만 (남성 : 0, 여성 : 1) 이 숫자가 가진 의미는 없고 그룹의 특성의 다름을 표기하는 역할만 합니다. 주로 빈도분석, 교차분석과 같은 데이터 분석 방식을 적용하여 분석합니다.
  • 연속형 변수는 주로 숫자로 표기되고, 숫자 자체의 크기가 의미가 있는 변수입니다. 점수, 키, 몸무게와 같이 그 값 자체로 의미를 가지는 변수 입니다. 평균, 분산과 같은 기법을 적용하여 분석합니다.

자데이터 분석에 있어서 사용자의 필요에 따라 (가장 적합한 의사 결정을 얻기 위해서) 이 변수의 특성들을 적절히 조작할 수 있습니다. 가령 키와 몸무게 라는 연속형 변수를 BMI 값으로 환산하여 저체중, 정상, 과체중, 비만 과 같은 범주형 변수로 바꾸어 범주형 변수에서만 적용할 수 있는 데이터 분석 방식을 사용할 수도 있습니다. 그러나 이러한 경우에는 데이터를 나누는 기준이 합당해야만 합니다.

 

2. 변수 만들기

2.1. R에서의 변수

R에서의 변수는 <- 를 통하여 만들수 있습니다. (변수명 <- 대입할 숫자)

x <- 1

(= 연산자를 사용해서도 만들 수 있지만 추천하지는 않는 방법입니다.)

R에서는 여러 형태의 변수들을 만들 수 있습니다.

2.1.1. 정수형

x1 <- 138
x1
# [1] 138

 

2.1.2. 실수형

x2 <- 0.237
x2
# [1] 0.237

 

2.1.3 문자형(문자열형)

x3 <- "c"
x3
# [1] c
X4 <- "string"
x4
# [1] string

R에서는 문자와 문자열을 사용할때 두 경우 모두 문자열로 처리합니다.

 

3. 변수의 사용

3.1. 변수의 출력

위 예제에서처럼 변수를 출력할 때에는 변수 명을 사용합니다.

x1 <- "변수 출력"
x1  #변수를 출력합니다.

# [1] 변수 출력

 

3.2. 정수형 변수의 계산

x2 <- 3
x2 * 3

# [1] 9

정수형 변수에 연산자를 사용하여 계산할 수 있습니다.

 

4. 여러 값으로 구성된 변수

R에서는 하나에 변수에 여러 가지 값을 저장할 수 있습니다. 이렇게 하나에 변수에 1차원적으로 여러가지 값을 저장한 것을 R에서는 벡터(Vector) 라고 합니다.

R에서 변수에 여러가지 값을 넣는 방법에는 여러가지가 있습니다.

4.1. c() 함수 (combine)

var1 <- c(1,3,8,14,24,25,0,237)
var1

# [1] 1 3 8 14 24 25 0 237

콜론 ( : ) 을 이용하면 1씩 증가하는 연속된 값을 넣을 수 있습니다.

var2 <- c(1:5)
var2

# [1] 1 2 3 4 5

문자 또한 c() 함수를 이용하여 여러개의 문자로 이루어진 변수를 만들 수 있습니다.

str <- c("a", "b", "c")
str

#[1] "a" "b" "c"

문자열 또한 마찬가지 입니다.

str2 <- c("R","String","Combine","Test")
str2

# [1] "R" "String" "Combine" "Test"

 

4.2. seq() 함수 (sequence)

seq 함수를 이용해서 연속된 값을 지닌 변수를 만들 수 있습니다.

var3 <- seq(1,5)
var3

# [1] 1 2 3 4 5 

파라미터를 사용하여 일정량 증가하는 연속된 값을 지닌 변수를 만들 수도 있습니다.

var4 <- seq(1,10, by = 2)
var4

# [1] 1 3 5 7 9

 

5. 여러 값으로 구성된 변수의 연산

여러 값으로 구성된 변수 또한 연산할 수 있습니다.

  1. 여러 값으로 구성된 변수와 숫자 연산은 여러 값으로 구성된 변수들에 일괄적으로 숫자 연산이 처리됩니다.
var_add <- c(1,2,3,4,5)
var_add + 2

# [1] 3 4 5 6 7
  1. 여러 값으로 구성된 변수끼리 연산하면 같은 순서에 위치한 값끼리 연산합니다.
var5 <- (1, 3, 8, 14, 24)
var6 <- (3, 15, 3, 18, 16)
var5 + var6

# [1] 4 18 11 32 40
  1. 여러 값으로 구성된 변수를 연산할 때 변수의 구성 원소의 수가 다를 경우에는 원소의 개수가 작은 변수를 반복해서 사용합니다.
var7 = c(1:5)
var8 = seq(1,7)
var9 = seq(1,10)

var7 + var8 #경고 메시지 출력
# [1] 1 4 6 8 10 7 9 11

var7 + var9
# [1] 1 4 6 8 10 7 9 11 13 15 

6. 변수 생성의 규칙

  • 알아보기 쉽고 기억하기 쉽도록 의미를 담아 만들어야 합니다.
  • 변수명은 특수문자 중 마침표 . 와 언더바 _ 와 영어 숫자로만 사용 가능합니다.
  • 변수명은 숫자나 언더바 _ 로 시작할 수 없습니다.
  • 변수명이 마침표로 시작하면 바로 뒤에는 영어가 와야 합니다.
  • Keyword 를 변수명으로 사용할 수 없습니다.

 

 

// 참고자료

영우, 『쉽게 배우는 R 데이터 분석』, 이지스 퍼블리싱, 2019

이영호, "확률과통계"  가천대학교, 2019.03.21

'Programming > R' 카테고리의 다른 글

외부 데이터로 데이터프레임 만들기  (0) 2019.03.30
데이터 프레임 만들기  (0) 2019.03.30
VSCode 에서 R 프로그래밍 환경 구축하기  (1) 2019.03.25
R & R Studio 설치 (2)  (0) 2019.03.19
R & R Studio 설치 (1)  (0) 2019.03.19

VScode(Visual Studio Code)는 마이크로소프트에서 만든 텍스트 편집기 입니다. Github에서 만들어진 에디터 Atom의 Electron 프레임워크를 기반으로 만들어졌으며 마이크로소프트의 개발툴 중 최초로 크로스 플랫폼을 지원합니다. 즉, Windows, MacOS, LINUX 모두 지원하는 소프트웨어 입니다.

방대한 플러그인 환경과 개발 환경을 갖추고 있기 때문에 유사 IDE라고도 불리기도 하는 이 소프트웨어에서 R을 사용하는 방법을 알아보겠습니다.

 

  1. VSCode 를 열은 후 좌측의 확장 탭 (Ctrl + Shift + X) 을 클릭합니다.


  1. 확장 탭에서 R을 검색합니다.


  1. R 플러그인을 설치합니다. (기존의 R과 다른 VSCode 플러그인 이므로 R은 설치되어 있어야 합니다.)


  1. 다 설치가 된 후 Ctrl + Shift+ P 에서 Setting 을 검색하여 User Settings로 가줍니다.


  1. Extensions 에서 R을 찾은 후 R이 설치된 폴더를 지정해 줍니다.


설치가 완료되었습니다.


 

파일을 새로 만들고 확장자를 *.R 형태로 지정하여 R 프로젝트를 생성할 수 있습니다.


 

코드를 입력하고 블럭 처리 한 다음 Ctrl + Enter 로 코드를 실행시킬 수 있습니다.


qplot 과 같은 그래프 출력은 R 소프트웨어를 통해 출력됩니다.


 



'Programming > R' 카테고리의 다른 글

외부 데이터로 데이터프레임 만들기  (0) 2019.03.30
데이터 프레임 만들기  (0) 2019.03.30
변수  (0) 2019.03.27
R & R Studio 설치 (2)  (0) 2019.03.19
R & R Studio 설치 (1)  (0) 2019.03.19

이번 글에서는 R을 다루는데 도움을 주는 IDE (통합 개발 환경)인 R Studio 를 설치하여 보겠습니다.


1. https://www.rstudio.com/ 에 접속하여 Download Rstudio 를 선택합니다.

2. 더 많은 기능을 가진 제품들이 있지만 Free 버전을 선택합니다.

3. 운영체제에 맞는 버전을 선택하여 설치합니다.

5. 설치를 시작합니다. 다음.

6. 설치 폴더를 지정합니다. 

7. 시작 메뉴에 폴더를 생성합니다. 만들지 않을 경우에는 바로가기 아이콘을 만들지 않겠습니다에 체크합니다.

8. 설치 완료.

9. 이렇게 설치가 완료되었습니다.


'Programming > R' 카테고리의 다른 글

외부 데이터로 데이터프레임 만들기  (0) 2019.03.30
데이터 프레임 만들기  (0) 2019.03.30
변수  (0) 2019.03.27
VSCode 에서 R 프로그래밍 환경 구축하기  (1) 2019.03.25
R & R Studio 설치 (1)  (0) 2019.03.19

 에서 알아본 R과 R의 사용을 편하게 도와주는 IDE인 R Studio를 설치해 보겠습니다.



1. r-project.org 에 접속하여 Download R을 클릭합니다.



2. Korea 서버에서 자신이 가장 빠르게 다운 받아지는 서버에 접속하여 다운로드 받습니다.

(외국 접속이라면 외국 기준의 서버에 접속하여 다운로드 하면 됩니다.)



3. Install R for first time을 클릭합니다.

4. 윈도우 환경이므로 Download R 3.5.2 for Windows를 클릭하여 다운로드 받습니다. (3월 15일 기준으로 가장 최신버전이 3.5.2 입니다.)

5. 한국어 선택 (설치 과정의 언어이므로 무관)


6. R은 전 글에서 설명하였듯 GNU 라이센스가 적용되는 오픈소스 소프트웨어 입니다. 약관을 읽어보시고 다음.

7. 원하는 폴더에 설치합니다. 

8. 저는 64bit 환경만 필요하기 때문에 32bit Files의 체크를 풀어 주었습니다.

9. 기본값 사용

10. 시작메뉴 폴더를 지정해 줍니다. 필요하지 안하면 만들지 않음 하셔도 무방합니다.

11. 아이콘 생성과 레지스트리를 점검하시고 다음을 누르시면 설치가 완료 됩니다.


다음은 실질적인 작업을 할 수 있도록 도와주는 R Studio 를 설치하여 보겠습니다.


'Programming > R' 카테고리의 다른 글

외부 데이터로 데이터프레임 만들기  (0) 2019.03.30
데이터 프레임 만들기  (0) 2019.03.30
변수  (0) 2019.03.27
VSCode 에서 R 프로그래밍 환경 구축하기  (1) 2019.03.25
R & R Studio 설치 (2)  (0) 2019.03.19

+ Recent posts