Practice makes perfect
[R] 평균, 분산, 표준변차 본문
기술 통계
- 대표값 : 평균(Mean), 합계(Sum), 중위수(Median), 최빈수(mode), 사분위수(quartile) 등.
- 산포도 : 분산(Variance), 표준편차(Standard Deviation), 최소값(Minimum), 최대값(Maximum), 범위(Range) 등
- 비대칭도 : 왜도(Skewness), 첨도(Kurtosis)
평균과 분산 그리고 표준변차
① 평균 ( all/n : mean)
score1 <- c(85, 90, 93, 86, 82)
score2 <- c(85, 90, 93, 46, 42)
score3 <- c(100, 100, 54, 50, 52)
# 평균
mean(score1) 출력값: [1] 87.2 : 평균값
mean(score2) 출력값: [1] 71.2 : 평균값
mean(score3) 출력값: [1] 71.2 : 평균값
평균의 단점 : 데이터에 대한 분포도를 파악할 수 없습니다.
- 산술평균 : 모든 값을 더한 후 값의 개수만큼 나눈 후 나오는 값을 의미
- 상승평균 : 상승평균/기하평균 : %로 평균 비율을 구할 때 방법
ex) 회사의 연매출 10억 인 회사가 작년에 10% 성장 후 올해 2% 감소했다면 2년 평균 성장률은 어떻게 될까요?
ans) squart(1.1*0.98) = 1.04 : 4% 성장
- 제곱평균 : 각 값의 제곱의 평균을 구한 후 루트를 적용해서 구하는 평균.
- 조화 평균 : 주로 평균 속도를 구할 때 사용하는 방법
ex) 서울에서 강원도로 휴가는 가는데 갈 때는 안 막혀서 시속 100km로 갔는데, 올 때는 너무 막혀서
시속 60km였다면 왕복 평균 속력은 얼마일까요?
ans) 조화 평균의 식 : 2xy / (x+y) = 2(100*60) / (100+60)
② 중앙값(median:중위수)
- 모든 데이터를 크기 순서대로 정렬시킨 후 가운데 있는 값을 의미
- 전체 개수가 짝수 일때는 중앙값 두개를 더하고 2로 나눈 수가 출력
score3 <- c(100, 100, 54, 50, 52)
median(score3) 출력값 : 54
- 데이터의 개수가 짝수 일때 (m + (m+1) /2)
num <- c(6, 6, 7, 8, 9, 10)
median(num) 출력값 : 7.5
- 중위수 : 전체에서 2/4 의 수
- 1사분위 : 전체에서 1/4 위추에 오는 수
- 3사분위 : 전체에서 3/4 위치에 오는 수
③ 표준편차(Standard Deviation:SD)
- 분산 값에 루트를 적용해서 제곱을 제거한 값
- 평균의 단점인 분포도를 파악할 수 없다는 것을 편차를 통해서 해결함
④ 제곱평균(평균제곱)
- 편차 값을 제곱해서 마이너스 값을 플러스 값으로 바꾼 후 평균을 구하는 방법
score <- c(100, 100, 54, 50, 52)
mean(score) 결과값 : 71.2
((100-71.2)^2+(100-71.2)^2+(54-71.2)^2+(50-71.2)^2+(52-71.2)^2) / 5
결과값 : 554.56
⑤ 분산(Variance) : 편차 값을 제곱해서 나온 값
score1 <- c(85, 90, 93, 86, 82)
mean(score1) 출력값 : 87.2
((85-87.2)^2+(90-87.2)^2+(93-87.2)^2+(86-87.2)^2+(82-87.2)^2)/5
출력값 : 14.9
⑥ 표준편차(Standard Deviation:SD) : 분산 값에 루트를 적용해서 제곱을 제거한 값
⑦ 자유도(degree of freedom)
: 표본의 분산과 표준편차를 계산할 때 나누는 분모의 수를 (모집단-1)개로 계산하여 주어진 데이터에서 표본을 자유롭게 뽑을수 있는 경우의수를 의미하며, 표본을 추출해서 표본의 분산과 표준 편차를 계산할 때는 항상 자유도를 분모로 사용합니다.
score1 <- c(85, 90, 93, 86, 82)
mean(score1) 출력값 : 87.2
((85-87.2)^2+(90-87.2)^2+(93-87.2)^2+(86-87.2)^2+(82-87.2)^2)/5 = 14.9
var(score1) # [1] 18.7 (4로 나눈 값(자유도))
표준화와 표준값
1) 표준화 : 모든 값들의 표준값을 정해서 그 값을 기준으로 차이를 구해서 비교하는 방법
2) 표준값 = (각데이터 - 평균) / 표준편차
3) 편차값 = 표준값 * 10 + 50
'빅데이터 > R' 카테고리의 다른 글
[R] 교차분석(Cross Table Analyze) (0) | 2020.07.14 |
---|---|
[R] 척도별 기술 통계량 구하기 (0) | 2020.07.14 |
[R] 텍스트 마이닝 분석 - 실시간 뉴스 수집과 분석 (1) | 2020.07.13 |
[R] 통계 분석 절차 (0) | 2020.07.10 |
[R] 텍스트 마이닝 분석 - 연관어 분석(단어 연관성) (0) | 2020.07.10 |