목록빅데이터/R (52)
Practice makes perfect
세 집단 평균 검정(분산 분석) 방법: 세집단(이상)간 평균 차이에 관한분석 작업절차 1. 파일 가져오기 2. 데이터 정제/전처리 - NA, outline 제거 3. 세집단 subset 작성 -> 코딩 변경 -> 기술 통계량(빈도수) -> 교차표 작성 4. 세 집단 동질성 검정 : bartlett.test() 5. 분산 검정 : aov() or kruskal.test() 6. 사후 검정 : TukeyHSD() 분산 절차 - 연구 가설(H1) : 교육방법에 따른 세 집단간 실기 시험의 평균에 차이가 있다. - 귀무 가설(H0) : 교육방법에 따른 세 집단간 실기 시험의 평균에 차이가 없다. 세 가지 교육방법을 적용하여 1개월 동안 교육 받은 교육생 각 50명씩을 대상으로 실기시험을 실시 하였다. 세 집단간..
1. 두 집단 비율 검정 방법 : 두 집단간 비율 차이에 관한 분석 작업절차 1. 실습 파일 가져오기 2. 두집단 subset 작성(데이터 정제,전처리) -> 데이터 정체, 전처리 -> 기술 통계량 - 빈도수 -> 두변수(집단)에 대한 교차 분석 3. 두집단 비율 차이 검정 -> prop.test() 분석절차 파일 가져오기 -> 데이터 전처리 -> 두 집단 subset 생성 -> prop.test() -> 검정통계량 분석 연구가설(H1) : 두 가지 교육방법에 따라 교육생의 만족율에 차이가 있다. 귀무가설(H0) : 두 가지 교육방법에 따라 교육생의 만족율에 차이가 없다. IT교육센터에서 PT를 이용한 프레젠테이션 교육방법과 실시간 코딩교육 방법을 적용하여 교육을 실시하였다. 2가지 교육 방법중 더 효과..
단일 집단 검정 : 한 개의 집단과 기존 집단과의 비율/평균 차이 검정 1. 단일 집단 비율 검정 - 단일 집단의 비율이 어떤 특정한 값과 같은지를 검정하는 방법 - 기술통계량으로 빈도 수에 대한 비율에 의미 - 단일 집단의 비율이 어떤 특정한 값과 같은지를 검정하는 방법(검정 방법 중에서 가장 간단) 방법: 1개 집단의 비율과 기존 집단과의 비율 차이 분석 작업절차 1. 실습 데이터 가져오기 2. 빈도수와 비율 계산 3. binom.test() 이용 분석 절차 실습파일 가져오기 -> 데이터 전처리 -> 기술통계량(빈도분석) -> binom.test() -> 검정통계량 분석 연구가설(H1) : 기존2014년도 고객 불만율과 2015년도 CS교육후 불만율에 차이가 있다. 귀무가설(H0) : 기존2014년도..
추정(estimation) : 표본을 통해서 모집단을 확률적으로 추측 1) 점 추정 : 제시된 한 개의 값과 검정통계량(표본을 통해 계산된 통계량)을 직접 비교하여 가설 기각 유무를 결정 ex) 우리 나라 중학교 2학년 남학생 평균키는 165.2cm로 추정 (거의 불가능) 2) 구간 추정 : 신뢰구간과 검정통계량을 비교하여 가설 기각유무 결정 - 일반적으로 많이 사용 신뢰구간 : 오차범위에 의해서 결정된 하한값과 상한값의 범위 ex) 우리 나라 중학교 2학년 남학생 평균키는 164.5 ~ 165.5cm로 추정 용어 정의. - (가설) 검정(hypotheses testing) : 유의 수준과 표본의 검정통계량을 비교하여 통계적 가설의 진위를 입증 - 검정통계량 : 표본에 의해서 계산된 통계량(표본평균, 표..
Chi-square 검정 ① 카이제곱 분포에 기초한 통계적 방법으로, 관찰된 빈도가 기대되는 빈도와 의미있게 다른지의 여부를 검증하기 위해 사용되는 검증방법입니다. 자료가 빈도로 주어졌을 때, 특히 명목척도 자료의 분석에 이용됩니다. ② 교차분석으로 얻어진 교차 분할표를 대상으로 유의확률을 적용하여 변수 간의 독립성 및 관련성 여부 등을 검정하는 분석 방법입니다. (모집단의 변량을 추정할 때 사용) - 범주(Category)별로 관측 빈도와 기대빈도가 차이가 있는지 검정 - 카이제곱 분포에 기초학 통계적 방법(카이제곱 분포표 이용) - χ2 = Σ (관측값 - 기댓값)2 / 기댓값 - 분석을 위해서 교차분할표 작성 - 교차분석은 검정통계량으로 카이제곱 사용(=카이제곱 검정) - 검증 유형 분류 : 일원카..
교차 분석 : 범주형 자료의 두 개 이상 변수들 사이의 "관련성"을 알아보기 위한 분석입니다. 특징 1) 범주형 자료(명목척도 또는 서열척도)를 대상으로 두 개 이상의 변수들에 대핚 관련성 체크 2) 결합분포를 나타내는 교차분핛표를 작성. 3) 변수 상호간의 관랸성 여부를 분석하는 방법. 4) 빈도분석의 특성별 차이를 분석하기 위해 수행하는 분석 방법. 5) 빈도분석결과에 대핚 보충자료를 제시하는 데 효과적. 6) 빈도분석과 함께 고급 통계 분석의 기초 정보를 제공 교차 분석시 고려사항 교차 분석에 사용되는 변수는 값이 10 미만인 범주형 변수여야 함 비율척도인 경우는 코딩변경(리코딩)을 통해서 범주형 자료로 변환하여 적용 가능 - ex) 나이: 10~19세는 1, 20~29세는 2, 30~39세는 3 ..
척도 - 측정을 목적으로 일정한 규칙에 따라 질적인 측정 대상에 적용할 수 있도록 만들어진 계량적 도구. 즉 측정 도구. - 변수에 값을 부여하는 방법 - 변수 측정 단위(응답자가 선택핛 수 있는 질문 항목) 연속형 변수 : 양적인 크기를 가지는 변수 (키) - > 등간척도, 비율척도 범주형 변수 : 크기를 가지지 않는 변수 (성별) -> 명목척도, 서열 척도 - 데이터 가져오기 data 0,5 - 출력값 - 0 1 2 5 2 173 124 1 - 이상치 제거 data = 2 & data$cost < 4] = 4 & data$cost < 7] = 7]