문자열 처리

: 컴퓨터 프로그래밍과 형식 언어 이론에서 문자열은 기호의 순차 수열을 말합니다. 또한 스트링(string)이라고도 합니다. 이러한 기호는 미리 정의된 집합이나 음소 문자에서 선택합니다.

 

- 전처리에 유용하게 사용할 수 있는 기능입니다.

- 반드시 적용해야 하는 부분들도 존재하는 기능입니다.

 

R에서 문자열 처리에서 가장 많이 사용하는 패키지 = stringr

 

패키지가 설치되어 있다면 위의 팝업이 떠서 yes를 누르면 업데이트 된 것으로 다시 설치 됩니다.

 

형식 str_extract('문자열', '정규표현식') , extract = 추축, 발췌

 

*정규표현식 : 대상에 대한 선정을 할 수 있는 기호들의 묶음

 

- [0-9] 숫자만 검색 <-> [^0-9] 숫자를 제외한 나머지 검색

- [a-z] 영문 소문자만 검색 <-> [^a-z] 영문 소문자만 제외한 나머지 검색

- [-] 한글만 검색 <-> [^-] 한글만 제외한 나머지 검색

- [A-Z] 영문 대문자만 검색 <-> [^A-Z] 영문 대문자만 제외한 나머지 검색

 

 

 

 

# 주민등록번호 검사

\\d : 숫자 의미 제공

\\w (소문자) : 특수문자를 제외한 한글, 영문자, 숫자 포함

\\W (대문자) : 특수문자 선택

 

 

 

# 문자열 길이 구하기

str_length( 문자열 )

 

 

# 문자열 위치 구하기

str_locate( 문자열 , 내용 )

 

 

# 부분 문자열

str_sub( 문자열 , 시작 , 범위 )

 

 

 

# 대문자, 소문자 변경

대문자 변경 : str_to_upper(문자열)

소문자 변경 : str_to_lower(문자열)

 

 

 

# 문자열 교체하기

str_replace(문자열, 변경 전 내용, 변경 후 내용)

 

 

 

# 문자열 결합

str_c ( 문자열 , 내용 )

 

 

# 문자열 분리하기

str_split (문자열, 분리할 기호)

 

 

# 문자열 합치기

paste(문자열, collapse = '나눠줄 기호')

+ Recent posts