Practice makes perfect

[R] 머신러닝(Machine Learning) 본문

빅데이터/R

[R] 머신러닝(Machine Learning)

kerpect 2020. 7. 17. 17:22

머신러닝(Machine Learning)

: 경험을 통해 자동으로 개선하는 컴퓨터 알고리즘의 연구로 인공지능의 한 분야로 간주합니다. 또한 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야입니다. 가령, 기계 학습을 통해서 수신한 이메일이 스팸인지 아닌지를 구분할 수 있도록 훈련할 수 있습니다. 

 

- 머신러닝 에서의 일반화는 훈련 이후 새롭게 들어온 데이터를 정확히 처리할 수 있는 능력을 말하기도 합니다. 

 

알고리즘의 유형 

 

① 지도 학습(Supervised Learning) 

: 사람이 교사로서 각각의 입력(x)에 대해 레이블(y)을 달아놓은 데이터를 컴퓨터에 주면 컴퓨터가 그것을 학습하는 것 입니다. 사람이 직접 개입하므로 정확도가 높은 데이터를 사용할 수 있다는 장점이 있지만, 대신에 사람이 직접 레이블을 달아야 하므로 인건비 문제가 있습니다. 따라서 구할 수 있는 데이터양도 적다는 문제가 있습니다. 

 

– 인간 개입에 의한 분석 방법
– 종속변수(y) 존재 : 입력 데이터에 정답 포함
– 분석방법 : 가설검정(확률/통계) → 인문.사회.심리 계열(300년)
– 분석유형 : 회귀분석, 분류분석, 시계열 분석 → 추론통계 기반(모집단에 대한 결과 분석)

 

 

- 분류(Classification)

: 레이블 y가 이산적(Discrete)인 경우 즉, y가 가질 수 있는 값이 [0,1,2 ..]와 같이 유한한 경우 분류, 혹은 인식 문제라고 합니다 일상에서 가장 접하기 쉬우며, 연구가 많이 되어있고, 기업들이 가장 관심을 가지는 문제 중 하나 입니다. 이런 문제들을 해결하기 위한 대표적인 기법들로는 로지스틱 회귀법, KNN, 서포트 벡터 머신 (SVM), 의사 결정 트리 등이 있습니다. 

- 분류분석 : 고객 이탈분석(번호이동, 반응고객 대상 정보 제공)

 

 

- 회귀(Regression)

: 레이블 y가 실수인 경우 회귀문제라고 부릅니다. 데이터들을 쭉 뿌려놓고 이것을 가장 잘 설명하는 직선 하나 혹은 이차함수 곡선 하나를 그리고 싶을 때 회귀기능을 사용합니다. 잘 생각해보면 데이터는 입력(x)와 실수 레이블(y)의 짝으로 이루어져있고, 새로운 임의의 입력(x)에 대해 y를 맞추는 것이 바로 직선 혹은 곡선이므로 기계학습 문제입니다. 통계학의 회귀분석 기법 중 선형회귀 기법이 이에 해당하는 대표적인 예입니다. 

- 회귀분석 : 인과관계 예측(회귀분석 - p값 제공)

 

 

 

② 비지도 학습(Unsupervised Learning) 

: 사람 없이 컴퓨터가 스스로 레이블 되어 있지 않은 데이터에 대해 학습하는 것으로 y없이 x만 이용해서 학습하는 것 입니다. 정답이 없는 문제를 푸는 것이므로 학습이 맞게 됐는지 확인할 길은 없지만, 인터넷에 있는 거의 모든 데이터가 레이블이 없는 형태로 있으므로 앞으로 기계학습이 나아갈 방향으로 설정되어 있습니다. 통계학의 군집화와 분포 추정 등의 분야와 밀접한 관련이 있습니다 .

 

– 컴퓨터 기계학습에 의한 분석 방법 
– 종속변수(y) 없음 : 입력 데이터에 정답 없음 
– 분석방법 : 규칙(패턴분석) → 공학.자연과학 계열(100년) 
– 분석유형 : 연관분석, 군집분석 → 데이터마이닝 기반

 

 

- 군집화(Clustering)

: 데이터가 쭉 뿌려져 있을 때 레이블이 없다고 해도 데이터간 거리에 따라 대충 두 세개의 군집으로 이렇게 x만 가지고 군집을 학습하는 것을 군집화 라고 합니다. 

- 군집분석 : 그룹화를 통한 예측(그룹 특성 차이 분석-고객집단 이해)

 

 

분포 추정(Underlying Probability Density Estimation)

: 군집화에서 더 나아가서, 데이터들이 쭉 뿌려져 있을 때 얘네들이 어떤 확률 분포에서 나온 샘플들인지 추정하는 문제를 분포 추정이라고 합니다. 

 

 

지도 학습 vs 비지도 학습 

분류 지도 학습 비지도 학습
주관 사람의 개입에 의한 학습 컴퓨터에 의한 기계학습
기법 확률과 통계 기반 추론 통계 패턴분석 기반 데이터 마이닝 
유형 회귀분석, 분류분석(y변수 존재) 군집분석, 연관분석(y변수 없음)
분야  인문, 상회 계열 공학, 자연 계열

 

 

③ 준지도 학습(Semisupervised learning)

: 레이블이 있는 데이터와 없는 데이터 모두를 활용해서 학습하는 것인데, 대개의 경우는 다수의 레이블 없는 데이터를 약간의 레이블 있는 데이터로 보충해서 학습하는 종류의 문제를 다룬다.

 

 

④ 강화 학습(Reinforcement Learning)

: 강화학습은 현재의 상태(State)에서 어떤 행동(Action)을 취하는 것이 최적인지를 학습하는 것입니다.