목록빅데이터 (126)
Practice makes perfect
머신러닝(Machine Learning) : 경험을 통해 자동으로 개선하는 컴퓨터 알고리즘의 연구로 인공지능의 한 분야로 간주합니다. 또한 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야입니다. 가령, 기계 학습을 통해서 수신한 이메일이 스팸인지 아닌지를 구분할 수 있도록 훈련할 수 있습니다. - 머신러닝 에서의 일반화는 훈련 이후 새롭게 들어온 데이터를 정확히 처리할 수 있는 능력을 말하기도 합니다. 알고리즘의 유형 ① 지도 학습(Supervised Learning) : 사람이 교사로서 각각의 입력(x)에 대해 레이블(y)을 달아놓은 데이터를 컴퓨터에 주면 컴퓨터가 그것을 학습하는 것 입니다. 사람이 직접 개입하므로 정확도가 높은 데이터를 사용할 수 있다는 장점이 있지만, 대신에 사람이..
상관관계 분석(Correlation Analysis) - 관련성 : 변수 간 관련성 분석 방법으로 하나의 변수가 다른 변수와 관련성 분석하는 방법입니다. ex) 광고비와 매출액 사이의 관련성 등 분석 * 상관분석 자세한 설명 더보기 확률론과 통계학에서 두 변수간에 어떤 선형적 관계를 갖고 있는 지를 분석하는 방법이다. 두변수는 서로 독립적인 관계로부터 서로 상관된 관계일 수 있으며, 이때 두 변수간의 관계의 강도를 상관관계(Correlation, Correlation coefficient)라 한다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수 ρ를 사용한다. 상관관계의 정도를 파악하는 상관계수(Correlation coefficient)는 두 변수간의 연관된 정도를 나타낼 뿐 인과관계를 설..
요인분석(Factor Analysis) - 예측분석 : 여러개의 서로 관련이 있는 변수들로 측정된 자료에서 그 변수들을 설명할 수 있는 새로운 공통변수를 파악하는 통계적 분석방법입니다. 유사성을 띈 데이터의 축약을 목적으로 하는 분석방법이라고 할 수 있습니다. ● 요인분석의 특징 1) 다수의 변수들을 대상으로 변수들 간의 관계 분석(타당성 분석) 2) 공통 차원으로 축약하는 통계기법(변수 축소) - 데이터 축소 - 유사성을 가진 데이터들을 하나로 묶음. ● 요인분석의 종류(개입의 여부로 나눔) 1) 탐색적 요인분석 : 요인분석을 할 때 사전에 어떤 변수들끼리 묶어야 한다는 전제를 두지 않고 분석하는 방법(개입X) - 변수 압축이 목적(주성분분석, 주요인분석, 최대우도요인분석 ...) 2) 확인적 요인분석..
세 집단 평균 검정(분산 분석) 방법: 세집단(이상)간 평균 차이에 관한분석 작업절차 1. 파일 가져오기 2. 데이터 정제/전처리 - NA, outline 제거 3. 세집단 subset 작성 -> 코딩 변경 -> 기술 통계량(빈도수) -> 교차표 작성 4. 세 집단 동질성 검정 : bartlett.test() 5. 분산 검정 : aov() or kruskal.test() 6. 사후 검정 : TukeyHSD() 분산 절차 - 연구 가설(H1) : 교육방법에 따른 세 집단간 실기 시험의 평균에 차이가 있다. - 귀무 가설(H0) : 교육방법에 따른 세 집단간 실기 시험의 평균에 차이가 없다. 세 가지 교육방법을 적용하여 1개월 동안 교육 받은 교육생 각 50명씩을 대상으로 실기시험을 실시 하였다. 세 집단간..
1. 두 집단 비율 검정 방법 : 두 집단간 비율 차이에 관한 분석 작업절차 1. 실습 파일 가져오기 2. 두집단 subset 작성(데이터 정제,전처리) -> 데이터 정체, 전처리 -> 기술 통계량 - 빈도수 -> 두변수(집단)에 대한 교차 분석 3. 두집단 비율 차이 검정 -> prop.test() 분석절차 파일 가져오기 -> 데이터 전처리 -> 두 집단 subset 생성 -> prop.test() -> 검정통계량 분석 연구가설(H1) : 두 가지 교육방법에 따라 교육생의 만족율에 차이가 있다. 귀무가설(H0) : 두 가지 교육방법에 따라 교육생의 만족율에 차이가 없다. IT교육센터에서 PT를 이용한 프레젠테이션 교육방법과 실시간 코딩교육 방법을 적용하여 교육을 실시하였다. 2가지 교육 방법중 더 효과..
단일 집단 검정 : 한 개의 집단과 기존 집단과의 비율/평균 차이 검정 1. 단일 집단 비율 검정 - 단일 집단의 비율이 어떤 특정한 값과 같은지를 검정하는 방법 - 기술통계량으로 빈도 수에 대한 비율에 의미 - 단일 집단의 비율이 어떤 특정한 값과 같은지를 검정하는 방법(검정 방법 중에서 가장 간단) 방법: 1개 집단의 비율과 기존 집단과의 비율 차이 분석 작업절차 1. 실습 데이터 가져오기 2. 빈도수와 비율 계산 3. binom.test() 이용 분석 절차 실습파일 가져오기 -> 데이터 전처리 -> 기술통계량(빈도분석) -> binom.test() -> 검정통계량 분석 연구가설(H1) : 기존2014년도 고객 불만율과 2015년도 CS교육후 불만율에 차이가 있다. 귀무가설(H0) : 기존2014년도..
추정(estimation) : 표본을 통해서 모집단을 확률적으로 추측 1) 점 추정 : 제시된 한 개의 값과 검정통계량(표본을 통해 계산된 통계량)을 직접 비교하여 가설 기각 유무를 결정 ex) 우리 나라 중학교 2학년 남학생 평균키는 165.2cm로 추정 (거의 불가능) 2) 구간 추정 : 신뢰구간과 검정통계량을 비교하여 가설 기각유무 결정 - 일반적으로 많이 사용 신뢰구간 : 오차범위에 의해서 결정된 하한값과 상한값의 범위 ex) 우리 나라 중학교 2학년 남학생 평균키는 164.5 ~ 165.5cm로 추정 용어 정의. - (가설) 검정(hypotheses testing) : 유의 수준과 표본의 검정통계량을 비교하여 통계적 가설의 진위를 입증 - 검정통계량 : 표본에 의해서 계산된 통계량(표본평균, 표..
Chi-square 검정 ① 카이제곱 분포에 기초한 통계적 방법으로, 관찰된 빈도가 기대되는 빈도와 의미있게 다른지의 여부를 검증하기 위해 사용되는 검증방법입니다. 자료가 빈도로 주어졌을 때, 특히 명목척도 자료의 분석에 이용됩니다. ② 교차분석으로 얻어진 교차 분할표를 대상으로 유의확률을 적용하여 변수 간의 독립성 및 관련성 여부 등을 검정하는 분석 방법입니다. (모집단의 변량을 추정할 때 사용) - 범주(Category)별로 관측 빈도와 기대빈도가 차이가 있는지 검정 - 카이제곱 분포에 기초학 통계적 방법(카이제곱 분포표 이용) - χ2 = Σ (관측값 - 기댓값)2 / 기댓값 - 분석을 위해서 교차분할표 작성 - 교차분석은 검정통계량으로 카이제곱 사용(=카이제곱 검정) - 검증 유형 분류 : 일원카..