1. 변수
데이터 분석에 있어서 변수는 아주 중요합니다. 변수는 데이터 분석의 대상이 되는 '변하는 수'를 말합니다. 이와 다르게 변하지 않는 수를 상수라고 합니다.
변수를 구분하여 보면 범주형 변수와 연속형 변수가 있습니다.
- 범주형 변수는 대상을 특성을 가진 그룹 범주 중 하나에 속하게 할 수 있는 변수입니다. 성별(남성과 여성), 학급(1반, 2반), 지역과 같은 변수들이 범주형 변수에 속합니다. 임의로 숫자를 부여하여 구분할 수 있지만 (남성 : 0, 여성 : 1) 이 숫자가 가진 의미는 없고 그룹의 특성의 다름을 표기하는 역할만 합니다. 주로 빈도분석, 교차분석과 같은 데이터 분석 방식을 적용하여 분석합니다.
- 연속형 변수는 주로 숫자로 표기되고, 숫자 자체의 크기가 의미가 있는 변수입니다. 점수, 키, 몸무게와 같이 그 값 자체로 의미를 가지는 변수 입니다. 평균, 분산과 같은 기법을 적용하여 분석합니다.
자데이터 분석에 있어서 사용자의 필요에 따라 (가장 적합한 의사 결정을 얻기 위해서) 이 변수의 특성들을 적절히 조작할 수 있습니다. 가령 키와 몸무게 라는 연속형 변수를 BMI 값으로 환산하여 저체중, 정상, 과체중, 비만 과 같은 범주형 변수로 바꾸어 범주형 변수에서만 적용할 수 있는 데이터 분석 방식을 사용할 수도 있습니다. 그러나 이러한 경우에는 데이터를 나누는 기준이 합당해야만 합니다.
2. 변수 만들기
2.1. R에서의 변수
R에서의 변수는 <- 를 통하여 만들수 있습니다. (변수명 <- 대입할 숫자)
x <- 1
(= 연산자를 사용해서도 만들 수 있지만 추천하지는 않는 방법입니다.)
R에서는 여러 형태의 변수들을 만들 수 있습니다.
2.1.1. 정수형
x1 <- 138
x1
# [1] 138
2.1.2. 실수형
x2 <- 0.237
x2
# [1] 0.237
2.1.3 문자형(문자열형)
x3 <- "c"
x3
# [1] c
X4 <- "string"
x4
# [1] string
R에서는 문자와 문자열을 사용할때 두 경우 모두 문자열로 처리합니다.
3. 변수의 사용
3.1. 변수의 출력
위 예제에서처럼 변수를 출력할 때에는 변수 명을 사용합니다.
x1 <- "변수 출력"
x1 #변수를 출력합니다.
# [1] 변수 출력
3.2. 정수형 변수의 계산
x2 <- 3
x2 * 3
# [1] 9
정수형 변수에 연산자를 사용하여 계산할 수 있습니다.
4. 여러 값으로 구성된 변수
R에서는 하나에 변수에 여러 가지 값을 저장할 수 있습니다. 이렇게 하나에 변수에 1차원적으로 여러가지 값을 저장한 것을 R에서는 벡터(Vector) 라고 합니다.
R에서 변수에 여러가지 값을 넣는 방법에는 여러가지가 있습니다.
4.1. c() 함수 (combine)
var1 <- c(1,3,8,14,24,25,0,237)
var1
# [1] 1 3 8 14 24 25 0 237
콜론 ( : ) 을 이용하면 1씩 증가하는 연속된 값을 넣을 수 있습니다.
var2 <- c(1:5)
var2
# [1] 1 2 3 4 5
문자 또한 c() 함수를 이용하여 여러개의 문자로 이루어진 변수를 만들 수 있습니다.
str <- c("a", "b", "c")
str
#[1] "a" "b" "c"
문자열 또한 마찬가지 입니다.
str2 <- c("R","String","Combine","Test")
str2
# [1] "R" "String" "Combine" "Test"
4.2. seq() 함수 (sequence)
seq 함수를 이용해서 연속된 값을 지닌 변수를 만들 수 있습니다.
var3 <- seq(1,5)
var3
# [1] 1 2 3 4 5
파라미터를 사용하여 일정량 증가하는 연속된 값을 지닌 변수를 만들 수도 있습니다.
var4 <- seq(1,10, by = 2)
var4
# [1] 1 3 5 7 9
5. 여러 값으로 구성된 변수의 연산
여러 값으로 구성된 변수 또한 연산할 수 있습니다.
- 여러 값으로 구성된 변수와 숫자 연산은 여러 값으로 구성된 변수들에 일괄적으로 숫자 연산이 처리됩니다.
var_add <- c(1,2,3,4,5)
var_add + 2
# [1] 3 4 5 6 7
- 여러 값으로 구성된 변수끼리 연산하면 같은 순서에 위치한 값끼리 연산합니다.
var5 <- (1, 3, 8, 14, 24)
var6 <- (3, 15, 3, 18, 16)
var5 + var6
# [1] 4 18 11 32 40
- 여러 값으로 구성된 변수를 연산할 때 변수의 구성 원소의 수가 다를 경우에는 원소의 개수가 작은 변수를 반복해서 사용합니다.
var7 = c(1:5)
var8 = seq(1,7)
var9 = seq(1,10)
var7 + var8 #경고 메시지 출력
# [1] 1 4 6 8 10 7 9 11
var7 + var9
# [1] 1 4 6 8 10 7 9 11 13 15
6. 변수 생성의 규칙
- 알아보기 쉽고 기억하기 쉽도록 의미를 담아 만들어야 합니다.
- 변수명은 특수문자 중 마침표 . 와 언더바 _ 와 영어 숫자로만 사용 가능합니다.
- 변수명은 숫자나 언더바 _ 로 시작할 수 없습니다.
- 변수명이 마침표로 시작하면 바로 뒤에는 영어가 와야 합니다.
- Keyword 를 변수명으로 사용할 수 없습니다.
// 참고자료
김영우, 『쉽게 배우는 R 데이터 분석』, 이지스 퍼블리싱, 2019
이영호, "확률과통계" 가천대학교, 2019.03.21
'Programming > R' 카테고리의 다른 글
외부 데이터로 데이터프레임 만들기 (0) | 2019.03.30 |
---|---|
데이터 프레임 만들기 (0) | 2019.03.30 |
VSCode 에서 R 프로그래밍 환경 구축하기 (1) | 2019.03.25 |
R & R Studio 설치 (2) (0) | 2019.03.19 |
R & R Studio 설치 (1) (0) | 2019.03.19 |