목록빅데이터/R (52)
Practice makes perfect
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/b5LBfT/btqFT9jeOOI/PVroEDlKmzy7MOJAxqGzB1/img.png)
시계열 분석(Timeseries Analysis) : 어떤 현상에 대해서 시간의 변화에 따라 일정한 간격으로 현상의 변화를 기록한 시계열 데이터를 대상으로 미래의 변화에 대한 추세를 분석하는 방법, 시간 경과에 따른 관측 값의 변화를 패턴으로 인식하여 시계열 모형을 추정하고, 이 모형을 통해서 미래의 변화에 대한 추세를 예측하는 분석방법입니다. (시계열 자료 - 시간의 흐름에 따라 관찰된 데이터) - 과거로 부터 현재까지의 변화를 통해서 향후 미래를 예측 (현상 이해 -> 미래 예측) 시계열 자료 분류 ① 정상성(stationary) 시계열 : 어떤 시계열자료의 변화 패턴이 평균값을 중심으로 일정한 변동폭을 갖는 시계열 (시간의 추이와 관계 없이 평균과 분산이 일정) - 대부분의 시계열 자료는 다루기 어..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/rkUqb/btqFS0Nqemb/B8uIGnsiyEujXz1bGKNkck/img.png)
연관분석 (Association Analysis) : 연관분석은 군집분석에 의해서 그룹핑된 cluster를 대상으로 해당 그룹에 대한 특성을 분석하는 방법으로 장바구니 분석이라고 합니다. 즉, 유사한 개체들을 클러스터로 그룹화하여 각 집단의 특성 파악합니다. 예를 들어, 제가 마트에서 ’씨리얼’ 이라는 제품을 샀으면 그와 함께 먹을 우유도 같이 구매할 확률이 높을 것입니다. 이렇게 A라는 제품을 구매하였을 때, B라는 제품도 함께 구매하는 규칙의 패턴을 구하고자 하는 것이 연관규칙 분석의 목적입니다. 유튜브, 넷플릭스 등의 플랫폼들은 모두 이러한 알고리즘들을 기반으로 컨텐츠들을 추천해주고 있습니다. 연구 분석의 기본 개념 지지도(support) : 전체 데이터에서 관광지 X, Y에 대한 방문을 모두 포함..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/xguWh/btqFPrrh0Cx/jnfjU618I9R6Z27hPuV2C1/img.png)
비지도 학습(Unsupervised Learning) : 사람 없이 컴퓨터가 스스로 레이블 되어 있지 않은 데이터에 대해 학습하는 것으로 y없이 x만 이용해서 학습하는 것 입니다. 정답이 없는 문제를 푸는 것이므로 학습이 맞게 됐는지 확인할 길은 없지만, 인터넷에 있는 거의 모든 데이터가 레이블이 없는 형태로 있으므로 앞으로 기계학습이 나아갈 방향으로 설정되어 있습니다. 통계학의 군집화와 분포 추정 등의 분야와 밀접한 관련이 있습니다. – 컴퓨터 기계학습에 의한 분석 방법 – 종속변수(y) 없음 : 입력 데이터에 정답 없음 – 분석방법 : 규칙(패턴분석) → 공학.자연과학 계열(100년) – 분석유형 : 연관분석, 군집분석 → 데이터마이닝 기반 군집화(Clustering) - 군집분석(Clustering..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/bh1u5h/btqFQLBKP0C/QQfG0l0RfpkTwm933kImIk/img.png)
지도학습(Supervised Learning) – 인간 개입에 의한 분석 방법 – 종속 변수(y) 존재 : 입력 데이터에 정답 포함 – 분석 방법 : 가설검정(확률/통계) → 인문.사회.심리 계열(300년) – 분석 유형 : 회귀분석, 분류분석, 시계열 분석 → 추론통계 기반 분류분석(Decision Tree) : 다수의 속성(attribute) 또는 변수를 갖는 객체를 사전에 정해진 그룹 또는 범주(class, category) 중의 하나로 분류하여 분석하는 방법입니다. - 의사결정나무 (Decision Tree) : 분류 모델링에 의해서 만들어진 규칙(rule)를 나무 모양으로 그리는 방법으로, 의사결정이 이뤄지는 시점과 성과를 한눈에 볼 수 있습니다. 의사결정나무(Decision Tree) 활용 -..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/bsRw1x/btqFPHM6atL/iwYdzkVkHhKj7nrPke7M41/img.png)
지도학습(Supervised Learning) – 인간 개입에 의한 분석 방법 – 종속 변수(y) 존재 : 입력 데이터에 정답 포함 – 분석 방법 : 가설검정(확률/통계) → 인문.사회.심리 계열(300년) – 분석 유형 : 회귀분석, 분류분석, 시계열 분석 → 추론통계 기반 회귀분석(Regression Analysis) - 인과 관계 : 여러 자료들 간의 관계성을 수학적으로 추정, 설명한다. 흔히들 통계학의 꽃이라고 합니다. 독립변인이 종속변인에 영향을 미치는지 알아보고자 할 때 실시하는 분석 방법입니다. 선형 회귀법, 로지스틱 회귀법이 대표적이며, 로지스틱 회귀법을 앙상블했다는 관점으로 보면 인공신경망도 여기에 해당한다고 합니다. 선형 회귀법은 지도학습의 회귀문제를 푸는 데에 쓰이고(새로운 값의 예측..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/bZZ0Up/btqGmoNxuU7/SiW6IdGKkVvLUn2n1FcMAk/img.png)
머신러닝(Machine Learning) : 경험을 통해 자동으로 개선하는 컴퓨터 알고리즘의 연구로 인공지능의 한 분야로 간주합니다. 또한 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야입니다. 가령, 기계 학습을 통해서 수신한 이메일이 스팸인지 아닌지를 구분할 수 있도록 훈련할 수 있습니다. - 머신러닝 에서의 일반화는 훈련 이후 새롭게 들어온 데이터를 정확히 처리할 수 있는 능력을 말하기도 합니다. 알고리즘의 유형 ① 지도 학습(Supervised Learning) : 사람이 교사로서 각각의 입력(x)에 대해 레이블(y)을 달아놓은 데이터를 컴퓨터에 주면 컴퓨터가 그것을 학습하는 것 입니다. 사람이 직접 개입하므로 정확도가 높은 데이터를 사용할 수 있다는 장점이 있지만, 대신에 사람이..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/cjy6l3/btqFMHmqPmH/FzOy23oqydqxWAkpbt1zgK/img.png)
상관관계 분석(Correlation Analysis) - 관련성 : 변수 간 관련성 분석 방법으로 하나의 변수가 다른 변수와 관련성 분석하는 방법입니다. ex) 광고비와 매출액 사이의 관련성 등 분석 * 상관분석 자세한 설명 더보기 확률론과 통계학에서 두 변수간에 어떤 선형적 관계를 갖고 있는 지를 분석하는 방법이다. 두변수는 서로 독립적인 관계로부터 서로 상관된 관계일 수 있으며, 이때 두 변수간의 관계의 강도를 상관관계(Correlation, Correlation coefficient)라 한다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수 ρ를 사용한다. 상관관계의 정도를 파악하는 상관계수(Correlation coefficient)는 두 변수간의 연관된 정도를 나타낼 뿐 인과관계를 설..
![](http://i1.daumcdn.net/thumb/C150x150.fwebp.q85/?fname=https://blog.kakaocdn.net/dn/uxBga/btqFHqsWRo6/oxdMkuBCUENIJoK3AEMTS0/img.png)
요인분석(Factor Analysis) - 예측분석 : 여러개의 서로 관련이 있는 변수들로 측정된 자료에서 그 변수들을 설명할 수 있는 새로운 공통변수를 파악하는 통계적 분석방법입니다. 유사성을 띈 데이터의 축약을 목적으로 하는 분석방법이라고 할 수 있습니다. ● 요인분석의 특징 1) 다수의 변수들을 대상으로 변수들 간의 관계 분석(타당성 분석) 2) 공통 차원으로 축약하는 통계기법(변수 축소) - 데이터 축소 - 유사성을 가진 데이터들을 하나로 묶음. ● 요인분석의 종류(개입의 여부로 나눔) 1) 탐색적 요인분석 : 요인분석을 할 때 사전에 어떤 변수들끼리 묶어야 한다는 전제를 두지 않고 분석하는 방법(개입X) - 변수 압축이 목적(주성분분석, 주요인분석, 최대우도요인분석 ...) 2) 확인적 요인분석..