Practice makes perfect

[R] 이상치(극단치) 본문

빅데이터/R

[R] 이상치(극단치)

kerpect 2020. 7. 6. 15:28
728x90
반응형
SMALL

 이상치(극단치)

이상치(Outlier)란 관측된 데이터의 범위에서 많이 벗어나 아주 작은 값이나 아주 큰 값을 말합니다.

 

- 이상치의 유무는 데이터 분석에서 중요하게 작용하기 때문에 데이터 전처리에서 이상치를 찾는 것은 중요한 작업 중      하나입니다.

 

- 보통 이상치는 제거하는 것이 일반적이지만 분석 목적에 따라 이상치만 따로 모아서 케이스 분석을 실시하는 경우도      있습니다.

 

- 이상치 찾는 방법은 일반적으로 데이터 분포도를 이용하지만 분석분야(특히, 공장 및 제조)에 따라 관리범위로 찾는

  경우도 많이 존재합니다.

 

 

* 밑의 데이터를 활용하여 설명하겠습니다.

 

1) 범주형 변수 극다치 처리 - 이산변수 (정수형 변수)

 

table(dataset$gender)

- 출력값 - 
0   1   2   5  (요인-범주) / 1,2 = 여자, 남자 / 0,5 = 이상치 결과
2  173 124  1  (빈도수)

dataset <-subset(dataset, gender==1 | gender==2) # 1,2 외의 값 필터링 

length(dataset$gender) 
출력값 :  [1] 297

pie(table(dataset$gender))

subset( ) : 조건에 맞는 데이터 선택 시, 유용

                               ↓

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2) 연속형 변수의 이상치 처리 

 

① 데이터 확인

1. dataset$price 

2. plot(dataset$price) # plot 차트 

summary(dataset$price)

- 출력값 -
   Min.  1st Qu.   Median     Mean  3rd Qu.     Max.     NA's 
-457.200    4.425    5.400    8.752    6.300  675.000       30 

1. dataset$price

 

2. plot

 

② price 변수의 데이터 정제와 시각화

dataset2 <- subset(dataset, price >=2 & price <= 8)

length(dataset2$price) 
출력값 : [1] 251 - 이상치 49개 

stem(dataset2$price) # 줄기와 잎 도표 보기 (n.n)

의미 : 2~8 사이의 값이 출력 (각 숫자별로 2개씩 / 2 - 2.1, 2.3 ,2.3) 

728x90
반응형
LIST

'빅데이터 > R' 카테고리의 다른 글

[R] lattice 패키지  (0) 2020.07.06
[R] 코딩 변경  (0) 2020.07.06
[R] 결측치(NA) 처리  (0) 2020.07.06
[R] 데이터 셋 보기  (0) 2020.07.06
[R] reshape2 패키지  (0) 2020.07.03