Pandas
판다스 (Pandas) 라이브러리는 데이터 처리를 위한 라이브러리로 데이터 분석에 많이 사용하는 라이브러리입니다.
판다스의 간단한 소개와 판다스의 두 자료구조인 series와 데이터 프레임은 아래 글에서 확인하실수 있습니다.
[파이썬] 판다스 pandas 기초: 판다스의 자료 구조 series와 dataframe
판다스 Pandas 판다스는 파이썬의 라이브러리로 빠르고 쉽게 데이터를 정리하고 분석할 수 있게 해주는 도구입니다. 판다스와 Numpy 넘파이는 아마 데이터 분석/과학 작업에서 함께 많이 쓰이는 라
benn.tistory.com
이번 글에서는 엑셀 파일을 불러오는 방법과 데이터프레임의 갖가지 정보를 알아보기 위해 사용되는 함수를 살펴보겠습니다.
csv 파일 불러오기
pandas의 read_csv() 함수를 사용하여 csv 파일을 불러올 수 있습니다.
데이터가 다른 폴더에 있는 경우 경로를 넣어주면 됩니다. 예) 'C:/Users/Benn/Desktop/train.csv'
아래는 판다스 라이브러리를 불러준 후, train.csv 파일을 판다스의 dataframe 객체로 저장하는 코드입니다.
import pandas as pd df = pd.read_csv ('train.csv')
아래 df를 출력한 모습입니다.
df
데이터프레임 살펴보기
데이터를 데이터프레임 형식으로 불러온 후 데이터를 점검 및 분석하는데 자주 쓰이는 함수를 모아봤습니다.
판다스 documentation에서 더 많은 데이터 프레임 관련 함수를 확인할 수 있습니다.
- df.head() & df.tail()
데이터 첫 5개의 행과 마지막 5개의 행을 출력하는 함수입니다.
default 값이 5이라 괄호안에 아무것도 안 넣은 상태에는 다섯 줄을 숫자를 넣어주면 첫 N 줄과 마지막 N 줄을 출력할 수 있습니다.
- df.shape
데이터 프레임의 행과 열을 튜플 형태로 반환해주는 함수입니다.
df는 891개의 행과 12개의 열을 가지고 있습니다.
- len(df)
데이터프레임의 행 개수를 출력하는 함수입니다.
- df.info()
데이터프레임의 summary를 출력하는 함수입니다.
각 열의 데이터 타입 (int64, float64 등등), 결측 값을 제외한 데이터 값 개수와 메모리 사용량 등 다양한 정보를 확인할 수 있습니다.
- df.dtypes
각 열의 데이터 타입을 출력하는 함수입니다. (판다스 documentation: 데이터타입 종류 dtypes)
- df.columns
열 이름을 확인할 수 있는 함수입니다.
- df.describe()
각 열마다 결측 값을 제외한 나머지 데이터의 기본 통계량을 출력합니다.
count - 결측값을 제외한 데이터의 개수
max - 제일 큰 값
min - 제일 작은 값
mean - 평균값
std - 표분 편차
- df.열이름.unique() 또는 df['열이름'].unique()
열에 있는 유일한 값을 넘파이 array 형태로 출력하는 함수입니다.
- df.열이름.value_counts() 또는 df['열이름'].value_counts()
열에 있는 유일한 값과 각 값 별로 개수를 판다스 series 형태로 출력하는 함수입니다.
이 글은 판다스 cheatsheet과 캐글의 타이타닉 데이터셋을 예제로 사용하여 작성된 글입니다.
잘못된 내용이 있거나 질문이 있다면 댓글로 알려주세요 :)
'ᐧ༚̮ᐧ Data Science | AI > Python' 카테고리의 다른 글
[파이썬/matplotlib] 선 그래프 그리기 + 테마 (스타일 시트) 설정 (0) | 2021.09.27 |
---|---|
데이터 분석에 쓰이는 파이썬 라이브러리 소개 (0) | 2021.09.24 |
[데이터 분석] 파이썬 Pandas 행, 열 삭제 (0) | 2021.06.27 |
[Python] 아나콘다 (Anaconda) 다운로드 및 설치하기 feat. 주피터 노트북, 파이썬/콘다 버전 확인 (2) | 2021.06.17 |
[파이썬] 판다스 pandas 기초: 판다스의 자료 구조 series와 dataframe (0) | 2021.06.13 |