목록빅데이터/R (52)
Practice makes perfect
크롤링(crawling) 혹은 스크래핑(scraping)은 웹 페이지를 그대로 가져와서 거기서 데이터를 추출해 내는 행위로, 크롤링하는 소프트웨어는 크롤러(crawler)라고 부릅니다. 무수히 많은 컴퓨터에 분산 저장되어 있는 문서를 수집하여 검색 대상의 색인으로 포함시키는 기술. 어느 부류의 기술을 얼마나 빨리 검색 대상에 포함시키냐 하는 것이 우위를 결정하는 요소로서 최근 웹 검색의 중요성에 따라 발전되고 있습니다. 관련 용어 (1) 웹크롤링(web crawling) - 웹을 탐색하는 컴퓨터 프로그램(크롤러)를 이용하여 여러 인터넷 사이트의 웹 페이지 자료를 수집해서 분류하는 과정. - 또한 크롤러(crawler)란 자동화된 방법으로 월드와일드웹(www)을 탐색하는 컴퓨터 프로그램을 의미. (2) 스..
통계 분석 절차 0. 가설 설정 이전의 연구 조사 1) 연구문제 선정 : 선정기준 : 연구의 독창성. 검증 가능성, 결과의 실용성, 구체성, 경제성(소용비용, 노력) 2) 예비소사 : 연구문제에 대한 사진 지식 획득, 변수 규명, 가설 도출 등을 위해 실시하는 조사 -> 사전조사 : 설문지를 작성 후 본 조사 전에 실시한다. 3) 연구모형 : 연구문제에 개념과 변수를 식별하는 과정으로 독립변수와 종속변수 형태로 기술한다. 1. 가설 설정 - 통계적 가설 검정은 통계적 추측의 하나로서, 모집단 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정을 의미합니다. 간단히 가설 검정이라고 부르는 경우가 많습니다. - 가설(Hypothesis)의 설정 : 가설은 검..
연관어 분석(단어 연관성) : 연관 알고리즘을 통해서 단어 사이의 관계를 파악해서 시각화 하는 분석 방법입니다. - 연관 분선은 대표적인 비지도 학습의 알고리즘으로 구성되어 있습니다. ※ 지도 학습 : 데이터와 결과를 알려주면서 학습 시키는 방법 ※ 비지도 학습 : 데이터는 주지만 결과를 주지 않고 스스로 학습 하도록 만드는 방법 - 시각화: 연관어 네트워크 시각화와 근접 중심성 ⓘ 한글 처리를 위한 패키지 설치 (토픽 분석과 동일) install.packages("KoKLP") # package ‘KoKNP’ is not available (for R version 4.0.1) install.packages("https://cran.rstudio.com/bin/windows/contrib/3.4/KoN..
토픽 분석 ( 빈도 분석 ) : 텍스트 데이터를 대상을 단어를 추출하고, 이를 단어 사전과 비교하여 단어의 출현 빈도수를 분석하는 텍스팅 마이닝 분석 과정을 의미 + 또한 단어구름(word cloud) 패키지를 적용하여 분석 결과를 시각화 하는 과정도 포함 1. 텍스트 자료 가져오기 facebook
텍스트 마이닝(Text Mining) 분석 문자로 된 데이터에서 가치 있는 정보를 얻어 내는 분석 기법. ※ 데이터 마이닝 - 많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하여, 미래에 실행 가능한 정보를 추출해 내고 의사 결정에 이용하는 과정 - 데이터베이스로부터 과거에는 알지 못했지만 데이터 속에서 유도된 새로운 데이터 모델을 발견하여 미래에 실행 가능한 정보를 추출해 내고 의사 결정에 이용하는 과정 ※ 마이닝 - 데이터로부터 통계적인 의미가 있는 개념이나 특성을 추출하고 이것들 간의 패턴이나 추세 등의 고품질의 정보를 끌어내는 과정이다. 정형 데이터를 이용한 마이닝을 데이터 마이닝(data mining), 비정형 데이터를 이용한 마이닝을 텍스트 마이닝(text mining)이라고 합니다. ..
1) Oracle 정형 데이터 처리 단계1 : 사용자 로그인과 테이블 생성 - sqlplus 명령문으로 접속 후 다음의 데이터 생성 단계2 : 레코드 추가와 조회하기 단계3 : transaction 처리 - commit; ● Oracle 연동을 위한 R 패키지 설치 ① 패키지 설치 install.packages("rJava") install.packages("DBI") install.packages("RJDBC") - RJDBC 패키지 사용하기 위해서는 java를 설치해야 합니다(내부가 java로 되어 있음) ② 패키지 로딩 Sys.setenv(JAVA_HOME='C:/Program Files/Java/jre1.8.0_221') # java 위치 명시 library(DBI) library(rJava) l..
ggplot2(기하학적 기법 시각화) : 그래프를 만들 때 사용하는 패키지로 'layer' 구조로 되어 있습니다. (layer 구조 - 기본 + 옵션1 + 옵션2 ) 방식으로 쌓아올리는 형식입니다. - 기본(x,y축 설정) + 옵션1(그래프 유형선택 - 점, 선, 막대) + 옵션2 (색상, 표식 등등) ggplot2 패키지 특징 - 기하학적 객체들(점,선,막대등)에 미적특성(색상, 모양,크기)을 맵핑하여 플로팅한다. - 그래픽 생성 기능과 통계 변환을 포함할 수 있다. - ggplot2의 기본함수 qplot()-aesthetics(크기,모양,색상)과 geoms(점,선등) 으로 구성 ※ qplot() : 옵션을 상세하게 지정하지 않아도 basic plot 보다 예쁘게 시각화 하고 싶을 때 사용 1) 패키지..
Lattice : 래티스 시스템은 직교형태의 그래픽(Trellis graphic)을 생성하는 코드를 포함하고 있습니다. 여기서 말하는 기능은 R의 기본그래픽 시스템와는 다른 독립적인 것입니다. 주어지는 데이터 셋을 하나의 특징만 보여주는 것이 아니라 조건을 걸어서 조건별 데이터를 추가적으로 살펴볼 수 있도록 제공합니다. Lattice Plotting System 특징 - 다차원 데이터를 사용할 경우, 한번에 여러개의 plot 생성 가능 - 높은 밀도의 plot를 효과적으로 그림 - 직교형태의 그래픽(Trellis graphic) 생성 R 고급 시각화 도구 - 제공 패키지 - graphics / lattice / ggplot2 등... 1) 패키지 설치와 실습 데이터 셋 가져오기 install.packag..