Practice makes perfect

[R] 데이터 셋 보기 본문

빅데이터/R

[R] 데이터 셋 보기

kerpect 2020. 7. 6. 13:15
728x90
반응형
SMALL

위 데이터를 활용하여서 설명하도록 하겠습니다. 

 

 

 

1) 데이터 조회 

- 탐색적 데이터 분석을 위한 데이터 조회 

 

 

① 전체 데이터 보기

1. print(dataset) # 콘솔창 출력
2. View(dataset) # utils pakage, 뷰어창 출력

1. print()

 

2. View()

 

② 데이터의 앞부분과 뒷부분 보기 

head(dataset)

			- 출력값 -
      resident gender job age position price survey
1        1      1   1  26        2   5.1      1
2        2      1   2  54        5   4.2      2
3       NA      1   2  41        4   4.7      4
4        4      2  NA  45        4   3.5      2
5        5      1   3  62        5   5.0      1
6        3      1   2  57       NA   5.4      2


tail(dataset)

			- 출력값 -
      resident gender job age position price survey
295        2      1   1  20        1   3.5      5
296        1      5   2  26        1   7.1      2
297        3      1   3  24        1   6.1      2
298        4      1   3  59        5   5.5      2
299        3      0   1  45        4   5.1      2
300        1      1   3  27        2   4.4      2

head() : 앞으로 부터 6개 출력

tail() : 뒤로 부터 6개 출력 

 

 

 

 

2) 데이터 셋 구조 보기 

 

names(dataset)
출력값 : [1] "resident" "gender"   "job"      "age"      "position" "price"    "survey"  

attributes(dataset)

 

attributes()

str()

names() : 변수명(컬럼) 출력

attributes() : names(컬럼명), class(데이터 구조) , row.names(행의 이름 - 이름이 없으면 숫자 default 값 출력) 

str() : 데이터 구조 보기 (자료구조/관측치(행),컬럼(열)/자료형)

 

 

 

 

3) 데이터 셋 조회

 

 

① 데이터 셋 접근 방법

1. dataset$age 

2. dataset$resident

3. length(dataset) 
출력값: [1] 7

4. length(dataset$age) 
출력값: [1] 300

<변수의 '$' 를 연결하여 컬럼의 데이터를 가져올 수 있습니다.>

 

1. dataset$age

 

2. dataset$resident

 

3. length(변수) :   컬럼의 개수  - 자료 구조에 따라서 정도의 inform 이 다릅니다. 

 

4. length(변수$컬럼) : 행(데아터)의 갯수 - 변수의 이름을 넣어주면 전체 데이터 개수를 알려줍니다. 

 

 

["컬럼명'] 형식으로 특정 변수 조회 

head(dataset["gender"]) # = head(dataset$gender)

 - 출력값 - 
> head(dataset["gender"])
  gender
1      1
2      1
3      1
4      2
5      1
6      1


head(dataset["price"])

 - 출력값 - 
> head(dataset["price"])
  price
1   5.1
2   4.2
3   4.7
4   3.5
5   5.0
6   5.4

 

 

[색인(index)] 형식으로 변수 조회 

 

head(dataset[6]) # 6행의 데이터 전체 중 상위 6개 출력 

- 출력값 -
  price
1   5.1
2   4.2
3   4.7
4   3.5
5   5.0
6   5.4


dataset[3,] # 3행의 데이터 전체 

출력값 : 
resident gender job age position price survey
  NA       1     2  41      4     4.7     4
    
    
head(dataset[,3])
출력값 : [1]  1  2  2 NA  3  2


head(dataset[,c(2:4)]) # 2~4 열 출력 (상위 6개)
 
 - 출력값 -
 gender job age
1      1   1  26
2      1   2  54
3      1   2  41
4      2  NA  45
5      1   3  62
6      1   2  57


dataset[c(2:4),] # 2~4  행 출력

    - 출력값 -
  resident gender job age position price survey
2        2      1   2  54        5   4.2      2
3       NA      1   2  41        4   4.7      4
4        4      2  NA  45        4   3.5      2


head(dataset[-c(1:100),])  # 1~100핵 제외, 101~300행까지 출력 (상위6개)

	 - 출력값 -
   resident gender job age position price survey
101        1      2   3  NA        3   6.3      4
102        2      1   3  63        5    NA      2
103        1      1  NA  47        4   7.1      2
104        5      2   3  45        4   5.0      2
105        1      2   1  44        4   6.5      2
106        5      1   3  NA        5    NA      3

 

 

728x90
반응형
LIST

'빅데이터 > R' 카테고리의 다른 글

[R] 이상치(극단치)  (0) 2020.07.06
[R] 결측치(NA) 처리  (0) 2020.07.06
[R] reshape2 패키지  (0) 2020.07.03
[R] 파이프 연산자(pipe)  (0) 2020.07.03
[R] dplyr 패키지  (2) 2020.07.03