Practice makes perfect
[R] 통계 분석 절차 본문
통계 분석 절차
0. 가설 설정 이전의 연구 조사
1) 연구문제 선정
: 선정기준 : 연구의 독창성. 검증 가능성, 결과의 실용성, 구체성, 경제성(소용비용, 노력)
2) 예비소사
: 연구문제에 대한 사진 지식 획득, 변수 규명, 가설 도출 등을 위해 실시하는 조사
-> 사전조사 : 설문지를 작성 후 본 조사 전에 실시한다.
3) 연구모형
: 연구문제에 개념과 변수를 식별하는 과정으로 독립변수와 종속변수 형태로 기술한다.
1. 가설 설정
- 통계적 가설 검정은 통계적 추측의 하나로서, 모집단 실제의 값이 얼마가 된다는 주장과 관련해, 표본의 정보를 사용해서 가설의 합당성 여부를 판정하는 과정을 의미합니다. 간단히 가설 검정이라고 부르는 경우가 많습니다.
- 가설(Hypothesis)의 설정 : 가설은 검정하고자 하는 모집단의 모수(조사하고자 하는 자료의 평균, 분산, 표준편차, 상관계수)에 대하여 항상 다음의 둘로 설정 합니다.
1. 귀무가설 :[영(0)가설:null hypothesis] Ho : 두 모수(예: 두 평균)에 대한 값이 같다고 놓을때, 기각(reject) 또는 채택(accept)하려고 세운 검정의 대상이 되는 가설이며 H0로 나타냅니다. 귀무(영)가설은 수식 표현대로 “두 모수는 같다”와 같이 설정하는 것입니다.
- 효과가 없다라는 가정에서 시작(변수간에 관계, 차이 없음)
2. 연구가설 : [연구가설:alternative hypothesis]H1: 귀무(영)가설이 채택되지 않을 때, 즉 두 모수에 대한 값이 다를 때 가설입니다. 여기에는 다음과 같이구분하는 두 가지 검정방법이 존재한다
① 양측검정 : 두 모수는 같지 않다.
② 단측 검증 : 두 모수중 하나는 다른 것 보다 크다 또는 작다.
효과가 있다라는 가정에서 시작(변수간에 관계, 차이 존재)
- 주장하고 싶은 바 : 연구가설 , 반대 개념을 : 귀무가설 사용
설정한 기준에 의해서 채택하고 싶은 기준을 유의 수준의 값을 통해서 결정합니다. .
※ 논문에서 연구가설 제시, 귀무가설을 통해서 가설 검정
먼저 연구 가설 내용을 통계적 가설로 바꾸어 줌으로써 가설 검정(hypothesis test)이 시작됩니다.
H1 = „싞약A는 A암 치료에 효과가 있다.‟
H0 = „싞약A는 A암 치료에 효과가 없다.‟
석결과 : 생쥐 100마리를 대상으로 신약A를 투약한 결과 검정통계량의 유의확률(P=0.03)이 나왔습니다. – 이때 귀무가설은 기각되는가?
사회과학분야 임계값 : α=0.05(p<0.05(5%미만))
적어도 96마리 이상 효과
의.생명분야 임계값 : α=0.01(99% 싞뢰도 보장)
적어도 99마리 이상 효과
2. 유의수준 결정
유의수준(Significant level)
- 1종 오류를 범할 수 있는 최대 호용 한계입니다.
1) 1종 오류 : 귀무가설이 참인데 기각한 경우
2) 2종 오류 : 귀무가설이 거짓인데 기각하지 않은 경우
통계학적으로 유의수준은 보통 0.05, 0.01, 0.001중 하나 (5%, 1,%, 0.1%)를 채택합니다.
귀무가설이 참이라고 가정했을 때 내가 구한 자료가 맞을 가능성이 유의수준 이하라면, 그 귀무가설은 기각하고 대립가설을 채택합니다.
가설 채택 또는 기각 기준 / 분석 결과 유의수준 이내 -> 가설 채택(그렇지 않으면 기각)
일반 사회과학분야 : α=0.05(p<0.05 ) / 95%
의생명분야 : 0.01 / 99%(1% 오차 허용, 99% 신뢰도 확보)
유의확률(p) : 귀무가설이 참인데도 불구하고 이를 기각할 확률 (잘못된 의사결정을 할 확률)
유의수준이 0.05라 할때, p가 0.05보다 적게 나와야 귀무가설을 기각하고 대립가설을 채택할 수 있습니다.
즉, 가설검정을 할 때 p값과 유의수준을 비교하여 귀무가설과 대립가설 둘 중 하나를 채택합니다.
3. 측정도구 선정
- 가설에 나오는 변수를 무엇으로 측정할 것인가를 결정하는 단계
- 가설에 나오는 변수(변인) 추출
- 변수의 척도를 고려 측정도구 선정
4. 데이터 수집(설문지, 웹, SNS)
데이터 수집이란?
계측기를 통해 들어오는 측정 자료들을 컴퓨터를 이용하여 처리하고 결과를 얻어내는 것. 중앙에 연결된 컴퓨터와 원격지의 단말기를 통해 자료를 수집하고 처리하는 것을 말하기도 하며 크게 외부의 센서(sensor)에 의해 자료를 모으는 것을 말합니다.
+)
– 선정된 측정도구를 이용하여 설문 문항 작성 단계
– 조사응답자 대상 설문 실시 & 회수
– 정형/비정형 데이터 수집(DB, WEB, SNS 등)
– 본 단계까지 완료된 경우
- 연구목적과 배경, 연구모형, 연구가설까지 끝난 상태
= 논문 50% 이상 완성
5. 데이터 코딩/ 프로그래밍
- 코딩과 프로그래밍의 차이
코디은 프로그래밍과 같은 뜻으로 널리 사용됩니다. 하지만 좀더 구체적으로 살펴보면, 코딩은 명령을 컴퓨터가 이해할 수 있는 C언어, 자바, 파이선 등의 프로그래밍 언어로 입력하는 과정을 뜻하고 프로그래밍은 프로그래밍 언어를 사용해 프로그램을 만드는 일을 뜻합니다.
– 통계분석 프로그램(Excel, R, SPSS, SAS,) 데이터 입력
– 데이터 전처리(미 응답자, 잘못된 데이터 처리)
6. 통계분석 수행 (R,SPSS, SAS)
- 전문 통계분석 프로그램(R, SPSS, SAS) 분석 단계
- 통계 분석 기법
1) 빈도 분석
: 측정하여 얻은 데이터가 사람 수, 횟수 등의 빈도인 경우에 사용합니다. 이 방법은 집단 간 빈도 차를 비교합니다.
2) 평균 분석
: 측정하여 얻은 데이터가 점수고 비교해야할 집단이 두 개만 존재할 때, 두 개 집단의 평균 등을 비교하여 가설을
검증합니다.
3) 변량분석
: 측정하여 얻은 데이터가 점수고, 3개 이상 집단을 비교할 때 사용합니다. 가장 많이 사용되는 검증 방법으로써,
영어로 ANOVA(analysis of variance)로 표현합니다.
4) 상관분석
: 두 변수간 관계성이 얼마나 큰가를 분석할 때 사용합니다. 상관분석에서는 변수들 간 상관성 유무만 확인하고,
인과관계는 분석하지 않습니다. 상관분석의 핵심은 상관계수(r)를 구하는 것입니다.
5) 회귀분석
: 독립변수가 종속변수에 영향을 미치는지 분석할 때 사용합니다. 회귀분석은 인과관계를 분석합니다.
관측된 사건들을 정량화해서 여러 독립변수와 종속변수의 관계를 함수식으로 설명합니다.
- 통계분석 방법을 계획하지 않고 데이터를 수집할 경우 실패 확률 높음
7. 결과분석 (논문/ 보고서)
– 연구목적과 연구가설에 대핚 분석 및 검증 단계
– 인구통계학적 특성 반영
– 주요 변인에 대한 기술통계량 제시
– 연구가설에 대한 통계량 검정 및 해석
– 연구자 의견 기술(논문/보고서 작성)
'빅데이터 > R' 카테고리의 다른 글
[R] 평균, 분산, 표준변차 (0) | 2020.07.13 |
---|---|
[R] 텍스트 마이닝 분석 - 실시간 뉴스 수집과 분석 (1) | 2020.07.13 |
[R] 텍스트 마이닝 분석 - 연관어 분석(단어 연관성) (0) | 2020.07.10 |
[R] 텍스트 마이닝 분석 (토픽분석) (2) | 2020.07.09 |
[R] 텍스트 마이닝 분석 - 개요, 토픽 분석 설치 및 환경설정 (0) | 2020.07.09 |