[R] 평균, 분산, 표준변차

Notice

Recent Posts

Recent Comments

Link

250x250

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

Practice makes perfect

[R] 평균, 분산, 표준변차 본문

빅데이터/R

[R] 평균, 분산, 표준변차

kerpect 2020. 7. 13. 17:58

728x90

SMALL

기술 통계

- 대표값 : 평균(Mean), 합계(Sum), 중위수(Median), 최빈수(mode), 사분위수(quartile) 등.
- 산포도 : 분산(Variance), 표준편차(Standard Deviation), 최소값(Minimum), 최대값(Maximum), 범위(Range) 등
- 비대칭도 : 왜도(Skewness), 첨도(Kurtosis)

평균과 분산 그리고 표준변차

① 평균 ( all/n : mean)

score1 <- c(85, 90, 93, 86, 82)
score2 <- c(85, 90, 93, 46, 42)
score3 <- c(100, 100, 54, 50, 52)

# 평균 
mean(score1)  출력값: [1] 87.2 : 평균값
mean(score2)  출력값: [1] 71.2 : 평균값
mean(score3)  출력값: [1] 71.2 : 평균값

평균의 단점 : 데이터에 대한 분포도를 파악할 수 없습니다.

- 산술평균 : 모든 값을 더한 후 값의 개수만큼 나눈 후 나오는 값을 의미

- 상승평균 : 상승평균/기하평균 : %로 평균 비율을 구할 때 방법

ex) 회사의 연매출 10억 인 회사가 작년에 10% 성장 후 올해 2% 감소했다면 2년 평균 성장률은 어떻게 될까요?

ans) squart(1.1*0.98) = 1.04 : 4% 성장

- 제곱평균 : 각 값의 제곱의 평균을 구한 후 루트를 적용해서 구하는 평균.

- 조화 평균 : 주로 평균 속도를 구할 때 사용하는 방법

ex) 서울에서 강원도로 휴가는 가는데 갈 때는 안 막혀서 시속 100km로 갔는데, 올 때는 너무 막혀서

시속 60km였다면 왕복 평균 속력은 얼마일까요?

ans) 조화 평균의 식 : 2xy / (x+y) = 2(100*60) / (100+60)

② 중앙값(median:중위수)

- 모든 데이터를 크기 순서대로 정렬시킨 후 가운데 있는 값을 의미

- 전체 개수가 짝수 일때는 중앙값 두개를 더하고 2로 나눈 수가 출력

score3 <- c(100, 100, 54, 50, 52)

median(score3) 출력값 :  54

- 데이터의 개수가 짝수 일때 (m + (m+1) /2) 
num <- c(6, 6, 7, 8, 9, 10)
median(num) 출력값 : 7.5

- 중위수 : 전체에서 2/4 의 수

- 1사분위 : 전체에서 1/4 위추에 오는 수

- 3사분위 : 전체에서 3/4 위치에 오는 수

③ 표준편차(Standard Deviation:SD)

- 분산 값에 루트를 적용해서 제곱을 제거한 값

- 평균의 단점인 분포도를 파악할 수 없다는 것을 편차를 통해서 해결함

④ 제곱평균(평균제곱)

- 편차 값을 제곱해서 마이너스 값을 플러스 값으로 바꾼 후 평균을 구하는 방법

score <- c(100, 100, 54, 50, 52)
mean(score) 결과값 : 71.2

((100-71.2)^2+(100-71.2)^2+(54-71.2)^2+(50-71.2)^2+(52-71.2)^2) / 5 
결과값 : 554.56

⑤ 분산(Variance) : 편차 값을 제곱해서 나온 값

 score1 <- c(85, 90, 93, 86, 82)
 mean(score1) 출력값 : 87.2
 
((85-87.2)^2+(90-87.2)^2+(93-87.2)^2+(86-87.2)^2+(82-87.2)^2)/5 
출력값 :  14.9

⑥ 표준편차(Standard Deviation:SD) : 분산 값에 루트를 적용해서 제곱을 제거한 값

⑦ 자유도(degree of freedom)

: 표본의 분산과 표준편차를 계산할 때 나누는 분모의 수를 (모집단-1)개로 계산하여 주어진 데이터에서 표본을 자유롭게 뽑을수 있는 경우의수를 의미하며, 표본을 추출해서 표본의 분산과 표준 편차를 계산할 때는 항상 자유도를 분모로 사용합니다.

score1 <- c(85, 90, 93, 86, 82)
mean(score1) 출력값 : 87.2 

((85-87.2)^2+(90-87.2)^2+(93-87.2)^2+(86-87.2)^2+(82-87.2)^2)/5 = 14.9

var(score1)    # [1] 18.7 (4로 나눈 값(자유도))

표준화와 표준값

1) 표준화 : 모든 값들의 표준값을 정해서 그 값을 기준으로 차이를 구해서 비교하는 방법

2) 표준값 = (각데이터 - 평균) / 표준편차

3) 편차값 = 표준값 * 10 + 50

728x90

LIST

'빅데이터 > R' 카테고리의 다른 글

[R] 교차분석(Cross Table Analyze) (0)	2020.07.14
[R] 척도별 기술 통계량 구하기 (0)	2020.07.14
[R] 텍스트 마이닝 분석 - 실시간 뉴스 수집과 분석 (1)	2020.07.13
[R] 통계 분석 절차 (0)	2020.07.10
[R] 텍스트 마이닝 분석 - 연관어 분석(단어 연관성) (0)	2020.07.10

'빅데이터/R' Related Articles

Practice makes perfect

[R] 평균, 분산, 표준변차 본문

[R] 평균, 분산, 표준변차

기술 통계

평균과 분산 그리고 표준변차

'빅데이터 > R' 카테고리의 다른 글

티스토리툴바