목록빅데이터/R (52)
Practice makes perfect

# 키보드로 숫자 입력하기 Enter를 두 번 치면 빠져나갑니다. 숫자만 입력 받아 저장되도록 기능이 부여 되었습니다. 하지만 What이라는 매개변수에 character()을 넣어주면 문자를 입력 받을 수 있도록 합니다. # 편집기 활용한 데이터 프레임 만들기 Edit( ) # read.table 이용 # 탐색기 사용하기 # 구분자 있는 경우 (세미콜론, 탭) read.table(file = "파일 이름 ", sep = " 구분자 " , header = T) 탭키구분자 : student2

문자열 처리 : 컴퓨터 프로그래밍과 형식 언어 이론에서 문자열은 기호의 순차 수열을 말합니다. 또한 스트링(string)이라고도 합니다. 이러한 기호는 미리 정의된 집합이나 음소 문자에서 선택합니다. - 전처리에 유용하게 사용할 수 있는 기능입니다. - 반드시 적용해야 하는 부분들도 존재하는 기능입니다. R에서 문자열 처리에서 가장 많이 사용하는 패키지 = stringr 패키지가 설치되어 있다면 위의 팝업이 떠서 yes를 누르면 업데이트 된 것으로 다시 설치 됩니다. 형식 str_extract('문자열', '정규표현식') , extract = 추축, 발췌 *정규표현식 : 대상에 대한 선정을 할 수 있는 기호들의 묶음 - [0-9] 숫자만 검색 [^0-9] 숫자를 제외한 나머지 검색 - [a-z] 영문 소..

Data Frame - 리스트 보다 활용 범위 넓습니다. - DBMS의 테이블 구조와 유사 (서로 다른 데이터 타입을 갖는 컬럼) - 가장 많이 사용하는 객체타입 - list 와 Vector 혼합형 - 컬럼구성: list, list 구성: vector - data frame 생성 방법-Vector, Matrix, txt/excel/csv파일 = DB의 table과 유사 형태 Data Frame 특징 1. 형식) data.frame(컬럼1, 컬럼2.. 컬럼n) 2. 컬럼 단위로 서로 다른 자료형 가능 3. 모든 컬럼은 크기가 동일 해야함 1)vector 구조를 이용한 data.frame 생성 Matrix 는 모두 같은 자료형 이지만, data.frame은 다양한 자료형을 사용합니다. > class(vemp..

List : 서로 다른 데이터구조 - Vector, Data Frame, Array, List의 중첩구조 - c(구조체), python(딕셔너리) - 함수 내에서 여러 값을 하나의 키로 묶어서 반환할 경우 유용함 # key를 이용하여 value에 접근하기 (Java map의 key , value 값과 유사) 자료의 구조가 vector 형태이지만 어떠한 자료의 구조가 와도 문제없이 key-value의 형태로 실행합니다. Member의 값에 주소 값을 넣어서 member (참조자료형) 사용 java에서는 ( . ) 을 활용하여 변수로 접을 할 수 있었는데, R은 $로 변수에 접근 할 수 있습니다. R에서는 변수, 함수의 이름으로 ( . )을 사용하고, java에서는 변수, 메서드의 이름에 $를 사용합니다. ..

Array : 동일 데이터 타입을 갖는 다차원 배열 - 3차원배열 객체생성 (행과 열이 여러 개 추가되는 개념) - R에서활용도낮음 Java / int [면] [행] [열] R / (행)(열)(면) - 3차원 배열 생성 3행 2열을 하나의 면으로 만들고, 두번째 면을 만들어 줍니다. 이름으로는 데이터에 대한 정보를 알 수 없기 때문에 출력의 결과를 잘 관찰해야 합니다. # 3차원 배열 객체 자료 조회 # 데이터 셋 자료보기 면은 before, after, 행은 소프트웨어 이름, 열은 버그의 이름 프로그램의 검증의 단계에서 사용되는 함수 = severity_Counts severity_Counts 는 RSADBE 패키지에서 제공하는 데이터 셋으로 다음과 같이 소프트웨어 발표 전과 후의 버그를 측정한 10 ..

Matrix 자료구조 - 동일 데이터 타입을 갖는 2차원 배열 - 행렬(matrix) 객체 - Matrix 데이터생성함수 1)rbind() : 행 묶음 – 행 중심 2) cbind() : 컬럼 묶음 - 열 중심 - Matrix 데이터처리함수 3) apply() : 함수적용 = 기술 통계 분석 (최대값, 최소값, 평균값 등…) 처리 탐색에서 많이 사용되는 함수. Apply( matrix 구조 객체 , 1(행) or 2(열) , 기능) = apply 와 유사한 이름의 함수가 많다. 각각의 개념을 잘 알고 있어야합니다. 결과 출력은 열의 우선순위로 출력됩니다. # 행렬 객체에 컬럼 명 지정하기 5행 1열 Nrow를 통해서 행의 개수 정의 - 행과 열이 일치되지 않을 때, 원하지 않는 내용이 들어가서 잘못된 결..

R에서 제공하는 주요자료 구조(객체타입) - Vector : 동일 데이터 타입을 갖는 1차원 배열 - Matrix : 동일 데이터 타입을 갖는 2차원 배열 - Array : 동일 데이터 타입을 갖는 다차원 배열 - List : 서로 다른 데이터 구조 (Vector, Data Frame, Array, List) 중첩 -> 데이터셋으로 묶음으로 관리하는 것이다. 가장 광범위하게 관리 방법입니다. - Data Frame : 열 단위로 서로 다른 데이터 타입을 갖는 배열 – 가장 많이 사용합니다. -> 2차원 테이블 구조(DB 테이블 과 유사) 서로 다른 자료형 일 때, 배열로 관리할 수 없고, 테이블의 형태로 관리할 때 자료형이 달라도 같이 관리할 수 있다. R에서 이러한 개념을 Data Frame이라고 합니..

R , 파이선이 데이터 분석에서 부각이 된 이유 무엇일까요? 그 이유는 분석 관련 알고리즘을 보게 되면 모든 이론들이 머신러닝이라는 이름 하에 엄청나게 많은 연산이 이루어집니다. 이러한 데이터의 형태가 숫자를 통해서 결과를 도출하는 알고리즘이기 때문에 실직적으로 알고리즘에 적용될 때는 수치형으로 변환시켜 알고리즘에 넣어서 학습을 통해 결과를 도출하기 때문에 별도의 자료형을 가지고 있지 않아도 됩니다. 이러한 이유로 데이터 분석에서 부각되어지고 있다고 합니다. R 변수의 특징 R은 데이터를 담아주는 구분이 없기 때문에 변수 안에는 컴퓨터가 인식할 수 있는 데이터를 변수의 이름만 선언을 해주면 모든 데이터를 담을 수 있는 특징을 가지고 있습니다. 이러한 기능 가능한 이유는 동적 할당 언어(동적 프로그래밍 언..