목록빅데이터 (126)
Practice makes perfect
교차 분석 : 범주형 자료의 두 개 이상 변수들 사이의 "관련성"을 알아보기 위한 분석입니다. 특징 1) 범주형 자료(명목척도 또는 서열척도)를 대상으로 두 개 이상의 변수들에 대핚 관련성 체크 2) 결합분포를 나타내는 교차분핛표를 작성. 3) 변수 상호간의 관랸성 여부를 분석하는 방법. 4) 빈도분석의 특성별 차이를 분석하기 위해 수행하는 분석 방법. 5) 빈도분석결과에 대핚 보충자료를 제시하는 데 효과적. 6) 빈도분석과 함께 고급 통계 분석의 기초 정보를 제공 교차 분석시 고려사항 교차 분석에 사용되는 변수는 값이 10 미만인 범주형 변수여야 함 비율척도인 경우는 코딩변경(리코딩)을 통해서 범주형 자료로 변환하여 적용 가능 - ex) 나이: 10~19세는 1, 20~29세는 2, 30~39세는 3 ..
척도 - 측정을 목적으로 일정한 규칙에 따라 질적인 측정 대상에 적용할 수 있도록 만들어진 계량적 도구. 즉 측정 도구. - 변수에 값을 부여하는 방법 - 변수 측정 단위(응답자가 선택핛 수 있는 질문 항목) 연속형 변수 : 양적인 크기를 가지는 변수 (키) - > 등간척도, 비율척도 범주형 변수 : 크기를 가지지 않는 변수 (성별) -> 명목척도, 서열 척도 - 데이터 가져오기 data 0,5 - 출력값 - 0 1 2 5 2 173 124 1 - 이상치 제거 data = 2 & data$cost < 4] = 4 & data$cost < 7] = 7]
기술 통계 - 대표값 : 평균(Mean), 합계(Sum), 중위수(Median), 최빈수(mode), 사분위수(quartile) 등. - 산포도 : 분산(Variance), 표준편차(Standard Deviation), 최소값(Minimum), 최대값(Maximum), 범위(Range) 등 - 비대칭도 : 왜도(Skewness), 첨도(Kurtosis) 평균과 분산 그리고 표준변차 ① 평균 ( all/n : mean) score1
크롤링(crawling) 혹은 스크래핑(scraping)은 웹 페이지를 그대로 가져와서 거기서 데이터를 추출해 내는 행위로, 크롤링하는 소프트웨어는 크롤러(crawler)라고 부릅니다. 무수히 많은 컴퓨터에 분산 저장되어 있는 문서를 수집하여 검색 대상의 색인으로 포함시키는 기술. 어느 부류의 기술을 얼마나 빨리 검색 대상에 포함시키냐 하는 것이 우위를 결정하는 요소로서 최근 웹 검색의 중요성에 따라 발전되고 있습니다. 관련 용어 (1) 웹크롤링(web crawling) - 웹을 탐색하는 컴퓨터 프로그램(크롤러)를 이용하여 여러 인터넷 사이트의 웹 페이지 자료를 수집해서 분류하는 과정. - 또한 크롤러(crawler)란 자동화된 방법으로 월드와일드웹(www)을 탐색하는 컴퓨터 프로그램을 의미. (2) 스..
통계 분석 절차 0. 가설 설정 이전의 연구 조사 1) 연구문제 선정 : 선정기준 : 연구의 독창성. 검증 가능성, 결과의 실용성, 구체성, 경제성(소용비용, 노력) 2) 예비소사 : 연구문제에 대한 사진 지식 획득, 변수 규명, 가설 도출 등을 위해 실시하는 조사 -> 사전조사 : 설문지를 작성 후 본 조사 전에 실시한다. 3) 연구모형 : 연구문제에 개념과 변수를 식별하는 과정으로 독립변수와 종속변수 형태로 기술한다. 1. 가설 설정 - 통계적 가설 검정은 통계적 추측의 하나로서, 모집단 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정을 의미합니다. 간단히 가설 검정이라고 부르는 경우가 많습니다. - 가설(Hypothesis)의 설정 : 가설은 검..
연관어 분석(단어 연관성) : 연관 알고리즘을 통해서 단어 사이의 관계를 파악해서 시각화 하는 분석 방법입니다. - 연관 분선은 대표적인 비지도 학습의 알고리즘으로 구성되어 있습니다. ※ 지도 학습 : 데이터와 결과를 알려주면서 학습 시키는 방법 ※ 비지도 학습 : 데이터는 주지만 결과를 주지 않고 스스로 학습 하도록 만드는 방법 - 시각화: 연관어 네트워크 시각화와 근접 중심성 ⓘ 한글 처리를 위한 패키지 설치 (토픽 분석과 동일) install.packages("KoKLP") # package ‘KoKNP’ is not available (for R version 4.0.1) install.packages("https://cran.rstudio.com/bin/windows/contrib/3.4/KoN..
토픽 분석 ( 빈도 분석 ) : 텍스트 데이터를 대상을 단어를 추출하고, 이를 단어 사전과 비교하여 단어의 출현 빈도수를 분석하는 텍스팅 마이닝 분석 과정을 의미 + 또한 단어구름(word cloud) 패키지를 적용하여 분석 결과를 시각화 하는 과정도 포함 1. 텍스트 자료 가져오기 facebook
텍스트 마이닝(Text Mining) 분석 문자로 된 데이터에서 가치 있는 정보를 얻어 내는 분석 기법. ※ 데이터 마이닝 - 많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하여, 미래에 실행 가능한 정보를 추출해 내고 의사 결정에 이용하는 과정 - 데이터베이스로부터 과거에는 알지 못했지만 데이터 속에서 유도된 새로운 데이터 모델을 발견하여 미래에 실행 가능한 정보를 추출해 내고 의사 결정에 이용하는 과정 ※ 마이닝 - 데이터로부터 통계적인 의미가 있는 개념이나 특성을 추출하고 이것들 간의 패턴이나 추세 등의 고품질의 정보를 끌어내는 과정이다. 정형 데이터를 이용한 마이닝을 데이터 마이닝(data mining), 비정형 데이터를 이용한 마이닝을 텍스트 마이닝(text mining)이라고 합니다. ..