Practice makes perfect
[R] 데이터 셋 보기 본문
728x90
반응형
SMALL
위 데이터를 활용하여서 설명하도록 하겠습니다.
1) 데이터 조회
- 탐색적 데이터 분석을 위한 데이터 조회
① 전체 데이터 보기
1. print(dataset) # 콘솔창 출력
2. View(dataset) # utils pakage, 뷰어창 출력
1. print()
2. View()
② 데이터의 앞부분과 뒷부분 보기
head(dataset)
- 출력값 -
resident gender job age position price survey
1 1 1 1 26 2 5.1 1
2 2 1 2 54 5 4.2 2
3 NA 1 2 41 4 4.7 4
4 4 2 NA 45 4 3.5 2
5 5 1 3 62 5 5.0 1
6 3 1 2 57 NA 5.4 2
tail(dataset)
- 출력값 -
resident gender job age position price survey
295 2 1 1 20 1 3.5 5
296 1 5 2 26 1 7.1 2
297 3 1 3 24 1 6.1 2
298 4 1 3 59 5 5.5 2
299 3 0 1 45 4 5.1 2
300 1 1 3 27 2 4.4 2
head() : 앞으로 부터 6개 출력
tail() : 뒤로 부터 6개 출력
2) 데이터 셋 구조 보기
names(dataset)
출력값 : [1] "resident" "gender" "job" "age" "position" "price" "survey"
attributes(dataset)
attributes()
str()
names() : 변수명(컬럼) 출력
attributes() : names(컬럼명), class(데이터 구조) , row.names(행의 이름 - 이름이 없으면 숫자 default 값 출력)
str() : 데이터 구조 보기 (자료구조/관측치(행),컬럼(열)/자료형)
3) 데이터 셋 조회
① 데이터 셋 접근 방법
1. dataset$age
2. dataset$resident
3. length(dataset)
출력값: [1] 7
4. length(dataset$age)
출력값: [1] 300
<변수의 '$' 를 연결하여 컬럼의 데이터를 가져올 수 있습니다.>
1. dataset$age
2. dataset$resident
3. length(변수) : 컬럼의 개수 - 자료 구조에 따라서 정도의 inform 이 다릅니다.
4. length(변수$컬럼) : 행(데아터)의 갯수 - 변수의 이름을 넣어주면 전체 데이터 개수를 알려줍니다.
② ["컬럼명'] 형식으로 특정 변수 조회
head(dataset["gender"]) # = head(dataset$gender)
- 출력값 -
> head(dataset["gender"])
gender
1 1
2 1
3 1
4 2
5 1
6 1
head(dataset["price"])
- 출력값 -
> head(dataset["price"])
price
1 5.1
2 4.2
3 4.7
4 3.5
5 5.0
6 5.4
③ [색인(index)] 형식으로 변수 조회
head(dataset[6]) # 6행의 데이터 전체 중 상위 6개 출력
- 출력값 -
price
1 5.1
2 4.2
3 4.7
4 3.5
5 5.0
6 5.4
dataset[3,] # 3행의 데이터 전체
출력값 :
resident gender job age position price survey
NA 1 2 41 4 4.7 4
head(dataset[,3])
출력값 : [1] 1 2 2 NA 3 2
head(dataset[,c(2:4)]) # 2~4 열 출력 (상위 6개)
- 출력값 -
gender job age
1 1 1 26
2 1 2 54
3 1 2 41
4 2 NA 45
5 1 3 62
6 1 2 57
dataset[c(2:4),] # 2~4 행 출력
- 출력값 -
resident gender job age position price survey
2 2 1 2 54 5 4.2 2
3 NA 1 2 41 4 4.7 4
4 4 2 NA 45 4 3.5 2
head(dataset[-c(1:100),]) # 1~100핵 제외, 101~300행까지 출력 (상위6개)
- 출력값 -
resident gender job age position price survey
101 1 2 3 NA 3 6.3 4
102 2 1 3 63 5 NA 2
103 1 1 NA 47 4 7.1 2
104 5 2 3 45 4 5.0 2
105 1 2 1 44 4 6.5 2
106 5 1 3 NA 5 NA 3
728x90
반응형
LIST
'빅데이터 > R' 카테고리의 다른 글
[R] 이상치(극단치) (0) | 2020.07.06 |
---|---|
[R] 결측치(NA) 처리 (0) | 2020.07.06 |
[R] reshape2 패키지 (0) | 2020.07.03 |
[R] 파이프 연산자(pipe) (0) | 2020.07.03 |
[R] dplyr 패키지 (2) | 2020.07.03 |