[파이썬] 판다스 pandas csv 파일 불러오기 & 데이터 살펴보기

ᐧ༚̮ᐧ Data Science | AI/Python

[파이썬] 판다스 pandas csv 파일 불러오기 & 데이터 살펴보기

데이터과학자BENN 2021. 9. 23. 14:05

728x90

Pandas

판다스 (Pandas) 라이브러리는 데이터 처리를 위한 라이브러리로 데이터 분석에 많이 사용하는 라이브러리입니다.
판다스의 간단한 소개와 판다스의 두 자료구조인 series와 데이터 프레임은 아래 글에서 확인하실수 있습니다.

[파이썬] 판다스 pandas 기초: 판다스의 자료 구조 series와 dataframe

판다스 Pandas 판다스는 파이썬의 라이브러리로 빠르고 쉽게 데이터를 정리하고 분석할 수 있게 해주는 도구입니다. 판다스와 Numpy 넘파이는 아마 데이터 분석/과학 작업에서 함께 많이 쓰이는 라

benn.tistory.com

이번 글에서는 엑셀 파일을 불러오는 방법과 데이터프레임의 갖가지 정보를 알아보기 위해 사용되는 함수를 살펴보겠습니다.

csv 파일 불러오기

pandas의 read_csv() 함수를 사용하여 csv 파일을 불러올 수 있습니다.
데이터가 다른 폴더에 있는 경우 경로를 넣어주면 됩니다. 예) 'C:/Users/Benn/Desktop/train.csv'

아래는 판다스 라이브러리를 불러준 후, train.csv 파일을 판다스의 dataframe 객체로 저장하는 코드입니다.

import pandas as pd df = pd.read_csv ('train.csv')

아래 df를 출력한 모습입니다.

df

데이터프레임 살펴보기

데이터를 데이터프레임 형식으로 불러온 후 데이터를 점검 및 분석하는데 자주 쓰이는 함수를 모아봤습니다.
판다스 documentation에서 더 많은 데이터 프레임 관련 함수를 확인할 수 있습니다.

df.head() & df.tail()

데이터 첫 5개의 행과 마지막 5개의 행을 출력하는 함수입니다.
default 값이 5이라 괄호안에 아무것도 안 넣은 상태에는 다섯 줄을 숫자를 넣어주면 첫 N 줄과 마지막 N 줄을 출력할 수 있습니다.

df.shape

데이터 프레임의 행과 열을 튜플 형태로 반환해주는 함수입니다.
df는 891개의 행과 12개의 열을 가지고 있습니다.

len(df)

데이터프레임의 행 개수를 출력하는 함수입니다.

df.info()

데이터프레임의 summary를 출력하는 함수입니다.
각 열의 데이터 타입 (int64, float64 등등), 결측 값을 제외한 데이터 값 개수와 메모리 사용량 등 다양한 정보를 확인할 수 있습니다.

df.dtypes

각 열의 데이터 타입을 출력하는 함수입니다. (판다스 documentation: 데이터타입 종류 dtypes)

df.columns

열 이름을 확인할 수 있는 함수입니다.

df.describe()

각 열마다 결측 값을 제외한 나머지 데이터의 기본 통계량을 출력합니다.

count - 결측값을 제외한 데이터의 개수
max - 제일 큰 값
min - 제일 작은 값
mean - 평균값
std - 표분 편차

df.열이름.unique() 또는 df['열이름'].unique()

열에 있는 유일한 값을 넘파이 array 형태로 출력하는 함수입니다.

df.열이름.value_counts() 또는 df['열이름'].value_counts()

열에 있는 유일한 값과 각 값 별로 개수를 판다스 series 형태로 출력하는 함수입니다.

이 글은 판다스 cheatsheet과 캐글의 타이타닉 데이터셋을 예제로 사용하여 작성된 글입니다.
잘못된 내용이 있거나 질문이 있다면 댓글로 알려주세요 :)

728x90

저작자표시 (새창열림)

'ᐧ༚̮ᐧ Data Science | AI > Python' 카테고리의 다른 글

[파이썬/matplotlib] 선 그래프 그리기 + 테마 (스타일 시트) 설정 (2)	2021.09.27
데이터 분석에 쓰이는 파이썬 라이브러리 소개 (2)	2021.09.24
[데이터 분석] 파이썬 Pandas 행, 열 삭제 (1)	2021.06.27
[Python] 아나콘다 (Anaconda) 다운로드 및 설치하기 feat. 주피터 노트북, 파이썬/콘다 버전 확인 (2)	2021.06.17
[파이썬] 판다스 pandas 기초: 판다스의 자료 구조 series와 dataframe (1)	2021.06.13

현재글[파이썬] 판다스 pandas csv 파일 불러오기 & 데이터 살펴보기

두바이에서 데이터 과학자로 일하는 중인 도비 🧦

독학, 데이터 분석, sql, 데이터분석, 다운로드, 판다스, 설치, 파이썬, R, 데이터 과학, 딥러닝, 오블완, 데이터 사이언스, 인공지능, 데이터 과학자, 티스토리챌린지, 통계, 머신러닝, AI, 데이터과학,

Today :
Yesterday :

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

BENN 데이터 과학