목록빅데이터/R (52)
Practice makes perfect
위의 데이터를 토대로 설명하겠습니다. 1) 가독성을 위한 코딩 변경 ① resident 컬럼을 대상으로 코딩 변경하기 table(dataset2$resident) - 출력값 - 1 2 3 4 5 (거주지) 111 47 27 15 34 (빈도수) # 거주의 값이 n일 때, n. ~시 저장 dataset2$resident2[dataset2$resident == 1]
이상치(극단치) 이상치(Outlier)란 관측된 데이터의 범위에서 많이 벗어나 아주 작은 값이나 아주 큰 값을 말합니다. - 이상치의 유무는 데이터 분석에서 중요하게 작용하기 때문에 데이터 전처리에서 이상치를 찾는 것은 중요한 작업 중 하나입니다. - 보통 이상치는 제거하는 것이 일반적이지만 분석 목적에 따라 이상치만 따로 모아서 케이스 분석을 실시하는 경우도 있습니다. - 이상치 찾는 방법은 일반적으로 데이터 분포도를 이용하지만 분석분야(특히, 공장 및 제조)에 따라 관리범위로 찾는 경우도 많이 존재합니다. * 밑의 데이터를 활용하여 설명하겠습니다. 1) 범주형 변수 극다치 처리 - 이산변수 (정수형 변수) table(dataset$gender) - 출력값 - 0 1 2 5 (요인-범주) / 1,2 =..
분석을 위한 데이터셋을 확보했다 하더라도 바로 분석을 할 수 없는 경우가 많습니다. 그 이유는 바로 결측값, 이상치, 오입력 등이 있습니다. 따라서 데이터 분석에 적합하도록 데이터셋을 정제해야 합니다. 바로 이것을 전처리(data preprocessing)라고 합니다. 결측값(missing value) 결측값은 입력이 누락된 값을 의미합니다. 보통 NA로 출력됩니다. 결측값이 포함되면 산술 연산에 문제가 생깁니다. 대부분의 산술 연산 함수는 결측값을 제외할 수 있는 옵션을 제공합니다. 밑의 데이터를 토대로 설명하겠습니다 . 1) 결측치 확인 summary(dataset$price) - 출력값 - Min 1st Qu. Median Mean 3rd Qu. Max. NA's -457.200 4.425 5.40..
위 데이터를 활용하여서 설명하도록 하겠습니다. 1) 데이터 조회 - 탐색적 데이터 분석을 위한 데이터 조회 ① 전체 데이터 보기 1. print(dataset) # 콘솔창 출력 2. View(dataset) # utils pakage, 뷰어창 출력 1. print() 2. View() ② 데이터의 앞부분과 뒷부분 보기 head(dataset) - 출력값 - resident gender job age position price survey 1 1 1 1 26 2 5.1 1 2 2 1 2 54 5 4.2 2 3 NA 1 2 41 4 4.7 4 4 4 2 NA 45 4 3.5 2 5 5 1 3 62 5 5.0 1 6 3 1 2 57 NA 5.4 2 tail(dataset) - 출력값 - resident gen..
reshape2 패키지 : 옆으로 컬럼이 많은 형태 ( Wide )를 세로로 긴 (Long) 형탤 변경해주고 반대로 세로로 긴 형태를 옆으로 넓게 바꿔주는 패키지입니다. - 패키지 다운로드 install.packages("reshape2") library(reshape2) 위의 데이터를 활용하여 reshape2를 알아보겠습니다. ① 예제 긴 형식 -> 넓은 형식으로 변경 dcast 함수를 이용한 넓은 형식 데이터 출력. wide
파이프 연산자(pipe) : 파이프 연산자는 이름 그대로 어떤 값들이 파이프를 통과하는 것처럼 함수와 함수들을 타고다닐 수 있게 해줍니다. %>% : 파이프(pipe) 연산자 - (단축키 : ctrl, shift , m ) 위의 데이터를 활용하여서 설명하겠습니다. ① 예제 - filter() exam %>% filter(class == 1) # 객체를 통해서 접근하기 때문에 변수를 명시하지 않아도 됩니다. - 출력값 - id class math english science 1 1 50 98 50 2 1 60 97 60 3 1 45 86 78 4 1 30 98 58 ② 예제 - select() exam %>% select(class, math, english) - 출력값 - class math englis..
dplyr 패키지 활용 : 데이터를 분석에 필요한 형태로 만드는 데이터 전처리 관련 함수 제공 패키지 - plyr의 뼈대를 가지고 와서 추가적인 함수를 넣었으므로 그대로 적용한 개념은 아닙니다. - 기존 plyr 패키지는 R 언어로 개발되었으나, dplyr 패키지는 C++ 언어로 개발되어 처리 속도를 개선하였습니다. hflights 함수를 활용하여 설명하도록 하겠습니다. 2011년도 미국 휴스턴에서 출발하는 모든 비행기의 이착륙 기록이 수록된 것으로 227,496건의 이착륙 기록에대해 21개 항목을 수집한 데이터입니다. ① 예제 콘솔 창의 크기에 맞게 데이터 추출 - tbl_df() : 콘솔 창 안에서 한 눈으로 파악하기 - 데이터셋 화면창 크기 만큼 데이터 제공 hflights_df=300) # Sou..