Practice makes perfect
[R] 이상치(극단치) 본문
728x90
반응형
SMALL
이상치(극단치)
이상치(Outlier)란 관측된 데이터의 범위에서 많이 벗어나 아주 작은 값이나 아주 큰 값을 말합니다.
- 이상치의 유무는 데이터 분석에서 중요하게 작용하기 때문에 데이터 전처리에서 이상치를 찾는 것은 중요한 작업 중 하나입니다.
- 보통 이상치는 제거하는 것이 일반적이지만 분석 목적에 따라 이상치만 따로 모아서 케이스 분석을 실시하는 경우도 있습니다.
- 이상치 찾는 방법은 일반적으로 데이터 분포도를 이용하지만 분석분야(특히, 공장 및 제조)에 따라 관리범위로 찾는
경우도 많이 존재합니다.
* 밑의 데이터를 활용하여 설명하겠습니다.
1) 범주형 변수 극다치 처리 - 이산변수 (정수형 변수)
table(dataset$gender)
- 출력값 -
0 1 2 5 (요인-범주) / 1,2 = 여자, 남자 / 0,5 = 이상치 결과
2 173 124 1 (빈도수)
dataset <-subset(dataset, gender==1 | gender==2) # 1,2 외의 값 필터링
length(dataset$gender)
출력값 : [1] 297
pie(table(dataset$gender))
subset( ) : 조건에 맞는 데이터 선택 시, 유용
↓
2) 연속형 변수의 이상치 처리
① 데이터 확인
1. dataset$price
2. plot(dataset$price) # plot 차트
summary(dataset$price)
- 출력값 -
Min. 1st Qu. Median Mean 3rd Qu. Max. NA's
-457.200 4.425 5.400 8.752 6.300 675.000 30
1. dataset$price
2. plot
② price 변수의 데이터 정제와 시각화
dataset2 <- subset(dataset, price >=2 & price <= 8)
length(dataset2$price)
출력값 : [1] 251 - 이상치 49개
stem(dataset2$price) # 줄기와 잎 도표 보기 (n.n)
의미 : 2~8 사이의 값이 출력 (각 숫자별로 2개씩 / 2 - 2.1, 2.3 ,2.3)
728x90
반응형
LIST
'빅데이터 > R' 카테고리의 다른 글
[R] lattice 패키지 (0) | 2020.07.06 |
---|---|
[R] 코딩 변경 (0) | 2020.07.06 |
[R] 결측치(NA) 처리 (0) | 2020.07.06 |
[R] 데이터 셋 보기 (0) | 2020.07.06 |
[R] reshape2 패키지 (0) | 2020.07.03 |