목록빅데이터 (126)
Practice makes perfect
1) Oracle 정형 데이터 처리 단계1 : 사용자 로그인과 테이블 생성 - sqlplus 명령문으로 접속 후 다음의 데이터 생성 단계2 : 레코드 추가와 조회하기 단계3 : transaction 처리 - commit; ● Oracle 연동을 위한 R 패키지 설치 ① 패키지 설치 install.packages("rJava") install.packages("DBI") install.packages("RJDBC") - RJDBC 패키지 사용하기 위해서는 java를 설치해야 합니다(내부가 java로 되어 있음) ② 패키지 로딩 Sys.setenv(JAVA_HOME='C:/Program Files/Java/jre1.8.0_221') # java 위치 명시 library(DBI) library(rJava) l..
ggplot2(기하학적 기법 시각화) : 그래프를 만들 때 사용하는 패키지로 'layer' 구조로 되어 있습니다. (layer 구조 - 기본 + 옵션1 + 옵션2 ) 방식으로 쌓아올리는 형식입니다. - 기본(x,y축 설정) + 옵션1(그래프 유형선택 - 점, 선, 막대) + 옵션2 (색상, 표식 등등) ggplot2 패키지 특징 - 기하학적 객체들(점,선,막대등)에 미적특성(색상, 모양,크기)을 맵핑하여 플로팅한다. - 그래픽 생성 기능과 통계 변환을 포함할 수 있다. - ggplot2의 기본함수 qplot()-aesthetics(크기,모양,색상)과 geoms(점,선등) 으로 구성 ※ qplot() : 옵션을 상세하게 지정하지 않아도 basic plot 보다 예쁘게 시각화 하고 싶을 때 사용 1) 패키지..
Lattice : 래티스 시스템은 직교형태의 그래픽(Trellis graphic)을 생성하는 코드를 포함하고 있습니다. 여기서 말하는 기능은 R의 기본그래픽 시스템와는 다른 독립적인 것입니다. 주어지는 데이터 셋을 하나의 특징만 보여주는 것이 아니라 조건을 걸어서 조건별 데이터를 추가적으로 살펴볼 수 있도록 제공합니다. Lattice Plotting System 특징 - 다차원 데이터를 사용할 경우, 한번에 여러개의 plot 생성 가능 - 높은 밀도의 plot를 효과적으로 그림 - 직교형태의 그래픽(Trellis graphic) 생성 R 고급 시각화 도구 - 제공 패키지 - graphics / lattice / ggplot2 등... 1) 패키지 설치와 실습 데이터 셋 가져오기 install.packag..
위의 데이터를 토대로 설명하겠습니다. 1) 가독성을 위한 코딩 변경 ① resident 컬럼을 대상으로 코딩 변경하기 table(dataset2$resident) - 출력값 - 1 2 3 4 5 (거주지) 111 47 27 15 34 (빈도수) # 거주의 값이 n일 때, n. ~시 저장 dataset2$resident2[dataset2$resident == 1]
이상치(극단치) 이상치(Outlier)란 관측된 데이터의 범위에서 많이 벗어나 아주 작은 값이나 아주 큰 값을 말합니다. - 이상치의 유무는 데이터 분석에서 중요하게 작용하기 때문에 데이터 전처리에서 이상치를 찾는 것은 중요한 작업 중 하나입니다. - 보통 이상치는 제거하는 것이 일반적이지만 분석 목적에 따라 이상치만 따로 모아서 케이스 분석을 실시하는 경우도 있습니다. - 이상치 찾는 방법은 일반적으로 데이터 분포도를 이용하지만 분석분야(특히, 공장 및 제조)에 따라 관리범위로 찾는 경우도 많이 존재합니다. * 밑의 데이터를 활용하여 설명하겠습니다. 1) 범주형 변수 극다치 처리 - 이산변수 (정수형 변수) table(dataset$gender) - 출력값 - 0 1 2 5 (요인-범주) / 1,2 =..
분석을 위한 데이터셋을 확보했다 하더라도 바로 분석을 할 수 없는 경우가 많습니다. 그 이유는 바로 결측값, 이상치, 오입력 등이 있습니다. 따라서 데이터 분석에 적합하도록 데이터셋을 정제해야 합니다. 바로 이것을 전처리(data preprocessing)라고 합니다. 결측값(missing value) 결측값은 입력이 누락된 값을 의미합니다. 보통 NA로 출력됩니다. 결측값이 포함되면 산술 연산에 문제가 생깁니다. 대부분의 산술 연산 함수는 결측값을 제외할 수 있는 옵션을 제공합니다. 밑의 데이터를 토대로 설명하겠습니다 . 1) 결측치 확인 summary(dataset$price) - 출력값 - Min 1st Qu. Median Mean 3rd Qu. Max. NA's -457.200 4.425 5.40..
위 데이터를 활용하여서 설명하도록 하겠습니다. 1) 데이터 조회 - 탐색적 데이터 분석을 위한 데이터 조회 ① 전체 데이터 보기 1. print(dataset) # 콘솔창 출력 2. View(dataset) # utils pakage, 뷰어창 출력 1. print() 2. View() ② 데이터의 앞부분과 뒷부분 보기 head(dataset) - 출력값 - resident gender job age position price survey 1 1 1 1 26 2 5.1 1 2 2 1 2 54 5 4.2 2 3 NA 1 2 41 4 4.7 4 4 4 2 NA 45 4 3.5 2 5 5 1 3 62 5 5.0 1 6 3 1 2 57 NA 5.4 2 tail(dataset) - 출력값 - resident gen..