문자열 처리
: 컴퓨터 프로그래밍과 형식 언어 이론에서 문자열은 기호의 순차 수열을 말합니다. 또한 스트링(string)이라고도 합니다. 이러한 기호는 미리 정의된 집합이나 음소 문자에서 선택합니다.
- 전처리에 유용하게 사용할 수 있는 기능입니다.
- 반드시 적용해야 하는 부분들도 존재하는 기능입니다.
R에서 문자열 처리에서 가장 많이 사용하는 패키지 = stringr
패키지가 설치되어 있다면 위의 팝업이 떠서 yes를 누르면 업데이트 된 것으로 다시 설치 됩니다.
형식 str_extract('문자열', '정규표현식') , extract = 추축, 발췌
*정규표현식 : 대상에 대한 선정을 할 수 있는 기호들의 묶음
- [0-9] 숫자만 검색 <-> [^0-9] 숫자를 제외한 나머지 검색
- [a-z] 영문 소문자만 검색 <-> [^a-z] 영문 소문자만 제외한 나머지 검색
- [가-힣] 한글만 검색 <-> [^가-힣] 한글만 제외한 나머지 검색
- [A-Z] 영문 대문자만 검색 <-> [^A-Z] 영문 대문자만 제외한 나머지 검색
# 주민등록번호 검사
\\d : 숫자 의미 제공
\\w (소문자) : 특수문자를 제외한 한글, 영문자, 숫자 포함
\\W (대문자) : 특수문자 선택
# 문자열 길이 구하기
str_length( 문자열 )
# 문자열 위치 구하기
str_locate( 문자열 , 내용 )
# 부분 문자열
str_sub( 문자열 , 시작 , 범위 )
# 대문자, 소문자 변경
대문자 변경 : str_to_upper(문자열)
소문자 변경 : str_to_lower(문자열)
# 문자열 교체하기
str_replace(문자열, 변경 전 내용, 변경 후 내용)
# 문자열 결합
str_c ( 문자열 , 내용 )
# 문자열 분리하기
str_split (문자열, 분리할 기호)
# 문자열 합치기
paste(문자열, collapse = '나눠줄 기호')
'빅데이터 > R' 카테고리의 다른 글
[R] 데이터 출력 , 저장하기 (0) | 2020.06.27 |
---|---|
[R] 데이터 입력 (0) | 2020.06.25 |
[R] 주요 자료 구조(객체 타입 Part_5 : data.frame구조) (0) | 2020.06.25 |
[R] 주요 자료 구조(객체 타입 Part_4 : List구조) (1) | 2020.06.24 |
[R] 주요 자료 구조(객체 타입 Part_3 : Array구조) (0) | 2020.06.24 |