728x90
반응형

판다스 5

[파이썬 Pandas] 데이터프레임 병합 merge 가이드

데이터 분석에서는 여러 테이블에 분산된 정보를 하나로 모으는 작업을 자주 하게 된다. pandas 라이브러리의 merge 함수는 SQL 스타일의 조인으로 여러 데이터프레임을 다양한 조인 방식(inner, outer, left, right)을 지원한다.    이번 글에서는 두 개의 영화 데이터프레임을 사용해 merge() 예제를 살펴보겠습니다.첫 번째 데이터프레임은 영화의 ID, 제목, 장르 정보를 담고 있고, 두 번째 데이터프레임은 영화 ID와 사용자 평점을 포함하고 있다. import pandas as pddf_movies = pd.DataFrame({ 'MovieID': [1, 2, 3, 4], 'Title': ['어벤져스', '겨울왕국', '아바타', '괴물'], 'Genre': [..

[파이썬] 그래프 크기 설정하기 (figsize)

figsize matplotlib.pyplot.figure 자료구조의 fiigure 사이즈를 정할 수 있는 파라미터로 (x축 길이, y축 길이) 튜플 형식을 입력해 주어야 합니다. 여기서 길이는 인치(inch)단위이며 기본 값은 (6.4, 4.8)입니다. matplotlib - 기본 사이즈 바꾸기 아래 코드를 사용하여 디폴트 값을 바꿔버리는 방법도 유용하게 쓰입니다. plt.rcParams["figure.figsize"] = (3,3) 아래 예를 보면 디폴트값을 위 코드로 변경 해준 후 출력되는 그래프는 사이즈가 (3, 3)인걸 확인할 수 있습니다. 판다스 plot() 판다스의 series나 DataFrame 자료구조 두 개 다 plot() 메소드를 사용해 다양한 그래프를 스릴수 있습니다. matplot..

[파이썬] 판다스 pandas csv 파일 불러오기 & 데이터 살펴보기

Pandas 판다스 (Pandas) 라이브러리는 데이터 처리를 위한 라이브러리로 데이터 분석에 많이 사용하는 라이브러리입니다. 판다스의 간단한 소개와 판다스의 두 자료구조인 series와 데이터 프레임은 아래 글에서 확인하실수 있습니다. [파이썬] 판다스 pandas 기초: 판다스의 자료 구조 series와 dataframe 판다스 Pandas 판다스는 파이썬의 라이브러리로 빠르고 쉽게 데이터를 정리하고 분석할 수 있게 해주는 도구입니다. 판다스와 Numpy 넘파이는 아마 데이터 분석/과학 작업에서 함께 많이 쓰이는 라 benn.tistory.com 이번 글에서는 엑셀 파일을 불러오는 방법과 데이터프레임의 갖가지 정보를 알아보기 위해 사용되는 함수를 살펴보겠습니다. csv 파일 불러오기 pandas의 r..

[데이터 분석] 파이썬 Pandas 행, 열 삭제

이번 글에서는 유명한 Iris 데이터셋을 사용하여 판다스를 사용해 원하지 않는 데이터를 삭제하는 방법을 정리해봤습니다. 먼저 판다스 라이브러리를 불러오고 데이터셋을 불러오겠습니다. import pandas as pd iris = pd.read_csv("iris.csv") iris 데이터셋의 첫 5줄을 확인하면 아래와 같습니다. 데이터셋 크기 (행, 열 개수) 확인하기 iris.shape 위 코드를 실행하면 (150, 5)가 출력됩니다. (행, 열) 순서로 iris 데이터셋에는 150개의 행과 5개의 열으 이루어져 있다는 걸 확인할 수 있습니다. 행 삭제하기 1. drop으로 인덱스 index 사용해서 삭제하기 데이터프레임.drop(인덱스)를 사용하여 삭제하고 싶은 행의 인덱스를 입력하면 됩니다. new_..

[파이썬] 판다스 pandas 기초: 판다스의 자료 구조 series와 dataframe

판다스 Pandas 판다스는 파이썬의 라이브러리로 빠르고 쉽게 데이터를 정리하고 분석할 수 있게 해주는 도구입니다. 판다스와 Numpy 넘파이는 아마 데이터 분석/과학 작업에서 함께 많이 쓰이는 라이브러리입니다. 다차원 배열 객체를 제공하는 넘파이와 달리 판다스는 표 형식인 Dataframe이라는 객체를 사용합니다. 간단하게 말하면 판다스는 표 형식의 데이터 작업을 위해 설계되었고 넘파이는 숫자 배열 데이터를 작업하는데 가장 적합합니다. 왼쪽: 판다스의 데이터 프레임 오른쪽: 넘파이의 배열 이번 글에서는 판다스의 대표적인 두 자료구조 시리즈Series와 데이터프레임DataFrame에 대해 설명해보겠습니다. 이 글에서 pd는 pandas 라이브러리를 의미하는 것입니다. import pandas as pd ..

728x90
반응형