머신러닝 및 딥러닝/Python

[파이썬] 판다스 pandas csv 파일 불러오기 & 데이터 살펴보기

밴B 2021. 9. 23. 14:05
728x90
반응형




Pandas

판다스 (Pandas) 라이브러리는 데이터 처리를 위한 라이브러리로 데이터 분석에 많이 사용하는 라이브러리입니다.
판다스의 간단한 소개와 판다스의 두 자료구조인 series와 데이터 프레임은 아래 글에서 확인하실수 있습니다.

 

[파이썬] 판다스 pandas 기초: 판다스의 자료 구조 series와 dataframe

판다스 Pandas 판다스는 파이썬의 라이브러리로 빠르고 쉽게 데이터를 정리하고 분석할 수 있게 해주는 도구입니다. 판다스와 Numpy 넘파이는 아마 데이터 분석/과학 작업에서 함께 많이 쓰이는 라

benn.tistory.com


이번 글에서는 엑셀 파일을 불러오는 방법과 데이터프레임의 갖가지 정보를 알아보기 위해 사용되는 함수를 살펴보겠습니다.


csv 파일 불러오기

pandas의 read_csv() 함수를 사용하여 csv 파일을 불러올 수 있습니다.
데이터가 다른 폴더에 있는 경우 경로를 넣어주면 됩니다. 예) 'C:/Users/Benn/Desktop/train.csv'

아래는 판다스 라이브러리를 불러준 후, train.csv 파일을 판다스의 dataframe 객체로 저장하는 코드입니다.

import pandas as pd df = pd.read_csv ('train.csv')


아래 df를 출력한 모습입니다.

df

판다스 데이터프레임

 


 

데이터프레임 살펴보기

데이터를 데이터프레임 형식으로 불러온 후 데이터를 점검 및 분석하는데 자주 쓰이는 함수를 모아봤습니다.
판다스 documentation에서 더 많은 데이터 프레임 관련 함수를 확인할 수 있습니다.

  • df.head() & df.tail()

데이터 첫 5개의 행과 마지막 5개의 행을 출력하는 함수입니다.
default 값이 5이라 괄호안에 아무것도 안 넣은 상태에는 다섯 줄을 숫자를 넣어주면 첫 N 줄과 마지막 N 줄을 출력할 수 있습니다.

첫 5개의 행을 출력한 모습
괄호안에 1을 넣어 첫 1개의 행 (첫번째의 행)을 출력한 모습

 

마지막 5개의 행을 출력한 모습



  • df.shape

데이터 프레임의 행과 열을 튜플 형태로 반환해주는 함수입니다.
df는 891개의 행과 12개의 열을 가지고 있습니다.

  • len(df)

데이터프레임의 행 개수를 출력하는 함수입니다.


  • df.info()

데이터프레임의 summary를 출력하는 함수입니다.
각 열의 데이터 타입 (int64, float64 등등), 결측 값을 제외한 데이터 값 개수와 메모리 사용량 등 다양한 정보를 확인할 수 있습니다.




  • df.dtypes

각 열의 데이터 타입을 출력하는 함수입니다. (판다스 documentation: 데이터타입 종류 dtypes)

 

  • df.columns

열 이름을 확인할 수 있는 함수입니다.

df의 열 이름

 

  • df.describe()

각 열마다 결측 값을 제외한 나머지 데이터의 기본 통계량을 출력합니다.

count - 결측값을 제외한 데이터의 개수
max - 제일 큰 값
min - 제일 작은 값
mean - 평균값
std - 표분 편차

 

df의 기초통계




  • df.열이름.unique() 또는 df['열이름'].unique()

열에 있는 유일한 값을 넘파이 array 형태로 출력하는 함수입니다.

 

  • df.열이름.value_counts() 또는 df['열이름'].value_counts()

열에 있는 유일한 값과 각 값 별로 개수를 판다스 series 형태로 출력하는 함수입니다.


이 글은 판다스 cheatsheet과 캐글의 타이타닉 데이터셋을 예제로 사용하여 작성된 글입니다.
잘못된 내용이 있거나 질문이 있다면 댓글로 알려주세요 :)

728x90
반응형