Practice makes perfect

[R] 평균, 분산, 표준변차 본문

빅데이터/R

[R] 평균, 분산, 표준변차

kerpect 2020. 7. 13. 17:58
728x90
반응형
SMALL

기술 통계


- 대표값 : 평균(Mean), 합계(Sum), 중위수(Median), 최빈수(mode), 사분위수(quartile) 등.
- 산포도 : 분산(Variance), 표준편차(Standard Deviation), 최소값(Minimum), 최대값(Maximum), 범위(Range) 등 
- 비대칭도 : 왜도(Skewness), 첨도(Kurtosis)

 

평균과 분산 그리고 표준변차 

 

평균 ( all/n : mean) 

score1 <- c(85, 90, 93, 86, 82)
score2 <- c(85, 90, 93, 46, 42)
score3 <- c(100, 100, 54, 50, 52)

# 평균 
mean(score1)  출력값: [1] 87.2 : 평균값
mean(score2)  출력값: [1] 71.2 : 평균값
mean(score3)  출력값: [1] 71.2 : 평균값

평균의 단점 : 데이터에 대한 분포도를 파악할 수 없습니다. 

 

- 산술평균 : 모든 값을 더한 후 값의 개수만큼 나눈 후 나오는 값을 의미

 

- 상승평균 : 상승평균/기하평균 : %로 평균 비율을 구할 때 방법

  ex) 회사의 연매출 10억 인 회사가 작년에 10% 성장 후 올해 2% 감소했다면 2년 평균 성장률은 어떻게 될까요?

      ans) squart(1.1*0.98) = 1.04 : 4% 성장

 

- 제곱평균 : 각 값의 제곱의 평균을 구한 후 루트를 적용해서 구하는 평균.

 

- 조화 평균 : 주로 평균 속도를 구할 때 사용하는 방법

   ex) 서울에서 강원도로 휴가는 가는데 갈 때는 안 막혀서 시속 100km로 갔는데, 올 때는 너무 막혀서 

        시속 60km였다면 왕복 평균 속력은 얼마일까요?

        ans) 조화 평균의 식 : 2xy / (x+y) = 2(100*60) / (100+60)

 

 

중앙값(median:중위수)

- 모든 데이터를 크기 순서대로 정렬시킨 후 가운데 있는 값을 의미

- 전체 개수가 짝수 일때는 중앙값 두개를 더하고 2로 나눈 수가 출력

score3 <- c(100, 100, 54, 50, 52)

median(score3) 출력값 :  54

- 데이터의 개수가 짝수 일때 (m + (m+1) /2) 
num <- c(6, 6, 7, 8, 9, 10)
median(num) 출력값 : 7.5

- 중위수 :  전체에서 2/4 의 수

- 1사분위 : 전체에서 1/4 위추에 오는 수 

- 3사분위 : 전체에서 3/4 위치에 오는 수 

 

 

표준편차(Standard Deviation:SD)

- 분산 값에 루트를 적용해서 제곱을 제거한 값

- 평균의 단점인 분포도를 파악할 수 없다는 것을 편차를 통해서 해결함

 

 

제곱평균(평균제곱) 

- 편차 값을 제곱해서 마이너스 값을 플러스 값으로 바꾼 후 평균을 구하는 방법

score <- c(100, 100, 54, 50, 52)
mean(score) 결과값 : 71.2

((100-71.2)^2+(100-71.2)^2+(54-71.2)^2+(50-71.2)^2+(52-71.2)^2) / 5 
결과값 : 554.56

 

분산(Variance) : 편차 값을 제곱해서 나온 값

 score1 <- c(85, 90, 93, 86, 82)
 mean(score1) 출력값 : 87.2
 
((85-87.2)^2+(90-87.2)^2+(93-87.2)^2+(86-87.2)^2+(82-87.2)^2)/5 
출력값 :  14.9

 

 

표준편차(Standard Deviation:SD) : 분산 값에 루트를 적용해서 제곱을 제거한 값

 

 

자유도(degree of freedom)

: 표본의 분산과 표준편차를 계산할 때 나누는 분모의 수를 (모집단-1)개로 계산하여 주어진 데이터에서 표본을 자유롭게 뽑을수 있는 경우의수를 의미하며, 표본을 추출해서 표본의 분산과 표준 편차를 계산할 때는 항상 자유도를 분모로 사용합니다. 

score1 <- c(85, 90, 93, 86, 82)
mean(score1) 출력값 : 87.2 

((85-87.2)^2+(90-87.2)^2+(93-87.2)^2+(86-87.2)^2+(82-87.2)^2)/5 = 14.9

var(score1)    # [1] 18.7 (4로 나눈 값(자유도))

 

 

표준화와 표준값 


1) 표준화 : 모든 값들의 표준값을 정해서 그 값을 기준으로 차이를 구해서 비교하는 방법


2) 표준값 = (각데이터 - 평균) / 표준편차 


3) 편차값 = 표준값 * 10 + 50

 

728x90
반응형
LIST