목록빅데이터 (126)
Practice makes perfect

아키텍처(Architecture) 란? 시스템을 만들기 위한 물리 레벨의 조합(서버의 기능, 저장소와 네트워크 기기의 조합 등) 데이터베이스 설계에서 시스템의 구성 아키텍처 통해 시스템의 용도와 목적 추측 가능 ● IT 아키텍처(Architecture) : 일정 기준과 절차에 따라 조직 전체의 정보화 구성요서를 통합분석 후 그 관계를 구조적으로 정리한 체제 이를 바탕으로 정보시스템을 효율적으로 구성하기 위한 방법 ● IT 시스템 아키텍처 예시 - 아키텍처 구성을 시스템의 목적에 맞게 결정하는 과정, 서버, OS, 미들웨어, 저장소 등 폭젋은 지식 필요 - 적정 비용으로 필요 시스템 구축하기 휘해서도 매우 중요 ● IT 아키텍처의 역사 단계 특징 Stand-alone - 1980년대까지 널리 이용 - 데이..

관계형 데이터베이스(Relational Database)란 관계형 데이터베이스(relational DataBase)는 키(Key)와 값(Value)들의 간단한 관계를 테이블화 시킨 매우 간단한 원칙의 전산정보 데이터베이스임 보통 RDB라고 불림. 2차원 표를 이용한 데이터 목록화 관리를 하는 것이 주목적(Excel, Google 스프레드 시트) 실세계를 그대로 반영함으로 직관적인 이해가 가능(주소록, 출석부, 가계부 등) 우리는 실생활에서 사용하는 모든 정보를 관계형 데이터베이스로 관리 가능 ● 관계형 모델 관계형 모델(relational model)은 집합론에 기반을 둔 일종의 데이터베이스 모델임 이 모델은 에드거 커드에 의해 최초로 제안되고 체계화 되었다. 컬럼(열)과 로우(행)를 이루는 하나 이상의..

데이터베이스(DataBase) 란? 데이터 베이스는 컴퓨터 시스템에 전자적으로 저장된 체계적 데이터의 모듬 컴퓨터가 초기 발명된 시점에는 과학적인 연구의 용도(수학적 계산)로 사용 컴퓨터 과학이 발전하면 점점 더 대용량의 데이터를 저장하고 조회하는 요구사항 증가 이러한 환경에서 데이터베이스의 개념 도입 ● 데이터 베이스 사용 이전 - 일반 텍스트 파일 사용 - 데이터베이스 발명 이전에 데이터는 텍스트 파일 형태로 저장 및 관리 - 파일 형태는 여러 사용자가 동시에 공유하기 어려움 - 파일을 서로 주고받으면서 데이터의 유실 등의 가능성 존재 ● 모든 것이 데이터 베이스로 관리되는 시대 - 현재 모든 것이 데이터 베이스로 관리 - 주소록, 직원관리, 매출관리, 쇼핑몰, 영화 예매, 증권, 등등 - 텍스트, ..

시계열 분석(Timeseries Analysis) : 어떤 현상에 대해서 시간의 변화에 따라 일정한 간격으로 현상의 변화를 기록한 시계열 데이터를 대상으로 미래의 변화에 대한 추세를 분석하는 방법, 시간 경과에 따른 관측 값의 변화를 패턴으로 인식하여 시계열 모형을 추정하고, 이 모형을 통해서 미래의 변화에 대한 추세를 예측하는 분석방법입니다. (시계열 자료 - 시간의 흐름에 따라 관찰된 데이터) - 과거로 부터 현재까지의 변화를 통해서 향후 미래를 예측 (현상 이해 -> 미래 예측) 시계열 자료 분류 ① 정상성(stationary) 시계열 : 어떤 시계열자료의 변화 패턴이 평균값을 중심으로 일정한 변동폭을 갖는 시계열 (시간의 추이와 관계 없이 평균과 분산이 일정) - 대부분의 시계열 자료는 다루기 어..

연관분석 (Association Analysis) : 연관분석은 군집분석에 의해서 그룹핑된 cluster를 대상으로 해당 그룹에 대한 특성을 분석하는 방법으로 장바구니 분석이라고 합니다. 즉, 유사한 개체들을 클러스터로 그룹화하여 각 집단의 특성 파악합니다. 예를 들어, 제가 마트에서 ’씨리얼’ 이라는 제품을 샀으면 그와 함께 먹을 우유도 같이 구매할 확률이 높을 것입니다. 이렇게 A라는 제품을 구매하였을 때, B라는 제품도 함께 구매하는 규칙의 패턴을 구하고자 하는 것이 연관규칙 분석의 목적입니다. 유튜브, 넷플릭스 등의 플랫폼들은 모두 이러한 알고리즘들을 기반으로 컨텐츠들을 추천해주고 있습니다. 연구 분석의 기본 개념 지지도(support) : 전체 데이터에서 관광지 X, Y에 대한 방문을 모두 포함..

비지도 학습(Unsupervised Learning) : 사람 없이 컴퓨터가 스스로 레이블 되어 있지 않은 데이터에 대해 학습하는 것으로 y없이 x만 이용해서 학습하는 것 입니다. 정답이 없는 문제를 푸는 것이므로 학습이 맞게 됐는지 확인할 길은 없지만, 인터넷에 있는 거의 모든 데이터가 레이블이 없는 형태로 있으므로 앞으로 기계학습이 나아갈 방향으로 설정되어 있습니다. 통계학의 군집화와 분포 추정 등의 분야와 밀접한 관련이 있습니다. – 컴퓨터 기계학습에 의한 분석 방법 – 종속변수(y) 없음 : 입력 데이터에 정답 없음 – 분석방법 : 규칙(패턴분석) → 공학.자연과학 계열(100년) – 분석유형 : 연관분석, 군집분석 → 데이터마이닝 기반 군집화(Clustering) - 군집분석(Clustering..

지도학습(Supervised Learning) – 인간 개입에 의한 분석 방법 – 종속 변수(y) 존재 : 입력 데이터에 정답 포함 – 분석 방법 : 가설검정(확률/통계) → 인문.사회.심리 계열(300년) – 분석 유형 : 회귀분석, 분류분석, 시계열 분석 → 추론통계 기반 분류분석(Decision Tree) : 다수의 속성(attribute) 또는 변수를 갖는 객체를 사전에 정해진 그룹 또는 범주(class, category) 중의 하나로 분류하여 분석하는 방법입니다. - 의사결정나무 (Decision Tree) : 분류 모델링에 의해서 만들어진 규칙(rule)를 나무 모양으로 그리는 방법으로, 의사결정이 이뤄지는 시점과 성과를 한눈에 볼 수 있습니다. 의사결정나무(Decision Tree) 활용 -..

지도학습(Supervised Learning) – 인간 개입에 의한 분석 방법 – 종속 변수(y) 존재 : 입력 데이터에 정답 포함 – 분석 방법 : 가설검정(확률/통계) → 인문.사회.심리 계열(300년) – 분석 유형 : 회귀분석, 분류분석, 시계열 분석 → 추론통계 기반 회귀분석(Regression Analysis) - 인과 관계 : 여러 자료들 간의 관계성을 수학적으로 추정, 설명한다. 흔히들 통계학의 꽃이라고 합니다. 독립변인이 종속변인에 영향을 미치는지 알아보고자 할 때 실시하는 분석 방법입니다. 선형 회귀법, 로지스틱 회귀법이 대표적이며, 로지스틱 회귀법을 앙상블했다는 관점으로 보면 인공신경망도 여기에 해당한다고 합니다. 선형 회귀법은 지도학습의 회귀문제를 푸는 데에 쓰이고(새로운 값의 예측..