Practice makes perfect

[R] 텍스트 마이닝 분석 - 개요, 토픽 분석 설치 및 환경설정 본문

빅데이터/R

[R] 텍스트 마이닝 분석 - 개요, 토픽 분석 설치 및 환경설정

kerpect 2020. 7. 9. 13:19

텍스트 마이닝(Text Mining) 분석

문자로 된 데이터에서 가치 있는 정보를 얻어 내는 분석 기법.

 

※ 데이터 마이닝 

-  많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하여, 미래에 실행 가능한 정보를 추출해 내고 의사 결정에

   이용하는 과정

-  데이터베이스로부터 과거에는 알지 못했지만 데이터 속에서 유도된 새로운 데이터 모델을 발견하여 미래에 실행

   가능한 정보를 추출해 내고 의사 결정에 이용하는 과정

 

마이닝

- 데이터로부터 통계적인 의미가 있는 개념이나 특성을 추출하고 이것들 간의 패턴이나 추세 등의 고품질의 정보를

  끌어내는 과정이다. 

 

정형 데이터를 이용한 마이닝을 데이터 마이닝(data mining),
비정형 데이터를 이용한 마이닝을 텍스트 마이닝(text mining)이라고 합니다. 

 

 

토픽 분석 ( 빈도 분석 ) 

: 텍스트 데이터를 대상을 단어를 추출하고, 이를 단어 사전과 비교하여 단어의 출현 빈도수를 분석하는 텍스팅 마이닝 분석 과정을 의미  

+ 또한 단어구름(word cloud) 패키지를 적용하여 분석 결과를 시각화 하는 과정도 포함 

 

 

1) 패키지 설치 및 준비 

 

4점대의 버전으로는 토픽 분석을 사용하는 패키지를 KoKNP을 지원하지 않기 때문에 그에 맞는 버전으로 변경 해야합니다. 

https://cloud.r-project.org/

 

The Comprehensive R Archive Network

 

cloud.r-project.org

3.6.3 버전으로 다운 받아서 사용.

default 값으로 설치 하시며 됩니다. 

 

R-studio 에서 Tools에 Global Options

 

 version 을 바꾼 이후 Apply 누르고 Ok를 누른 후 R-studio를 다시 껐다 키시면 됩니다.

- 4점대 version 에서 다운 받았던 pakage들은 적용 되지 않으므로 필요한 pakage는 다시 다운 받아야 합니다. 

 

 

https://cran.rstudio.com/bin/windows/contrib/

 

Index of /bin/windows/contrib

 

cran.rstudio.com

3.4/ 를 눌러서 들어갑니다. 

 

도메일 + 파일 명 , repos = NULL 을 넣어 설치합니다. 

 

추가적으로 한글을 지원하는 패키지를 설치합니다. 

 

+ 마지막으로 필요한 pakage 설치 

install.packages(c("hash","tau","RSQLite","rJava","devtools"))

 

다운 받은 pakage들을 library에 올려줍니다. 

위의 모든 패키지들이 올라가야지 KoNLP 가 올라가니 주의해주세요. 

 

시각화, 데이터 마이닝에 필요한 pakage설치 

install.packages(c("wordcloud", "tm"))
library(wordcloud)
library(tm)