728x90
반응형

pandas 3

데이터 분석에 쓰이는 파이썬 라이브러리 소개

이번 글에서는 데이터 분석에 자주 쓰이는 패키지를 소개하겠습니다. 데이터 분석을 위한 라이브러리 NumPy NumPy (넘파이)는 Numerical Python ("숫자 파이썬")의 약자로 수치 연산을 수행하는 데 사용되는 라이브러리입니다. 넘파이만의 배열 자료구조 (ndarray)를 이용해 파이썬의 기본 리스트와 딕셔너리보다 빠르게 수치계산을 할 수 있습니다. 예제) 아래는 파이썬 range와 넘파이의 arange 함수를 이용하여 숫자 0부터 100만까지 생성한 후, 모든 수의 제곱을 계산하는 데에 걸리는 시간을 비교해본 것입니다. 넘파이의 배열이 훨씬 더 빠르게 계산이 되는 걸 확인할 수 있습니다. pandas 판다스는 데이터 처리 및 분석을 위해 만들어진 패키지입니다. SQL 테이블이나 엑셀 같이 ..

[데이터 분석] 파이썬 Pandas 행, 열 삭제

이번 글에서는 유명한 Iris 데이터셋을 사용하여 판다스를 사용해 원하지 않는 데이터를 삭제하는 방법을 정리해봤습니다. 먼저 판다스 라이브러리를 불러오고 데이터셋을 불러오겠습니다. import pandas as pd iris = pd.read_csv("iris.csv") iris 데이터셋의 첫 5줄을 확인하면 아래와 같습니다. 데이터셋 크기 (행, 열 개수) 확인하기 iris.shape 위 코드를 실행하면 (150, 5)가 출력됩니다. (행, 열) 순서로 iris 데이터셋에는 150개의 행과 5개의 열으 이루어져 있다는 걸 확인할 수 있습니다. 행 삭제하기 1. drop으로 인덱스 index 사용해서 삭제하기 데이터프레임.drop(인덱스)를 사용하여 삭제하고 싶은 행의 인덱스를 입력하면 됩니다. new_..

[파이썬] 판다스 pandas 기초: 판다스의 자료 구조 series와 dataframe

판다스 Pandas 판다스는 파이썬의 라이브러리로 빠르고 쉽게 데이터를 정리하고 분석할 수 있게 해주는 도구입니다. 판다스와 Numpy 넘파이는 아마 데이터 분석/과학 작업에서 함께 많이 쓰이는 라이브러리입니다. 다차원 배열 객체를 제공하는 넘파이와 달리 판다스는 표 형식인 Dataframe이라는 객체를 사용합니다. 간단하게 말하면 판다스는 표 형식의 데이터 작업을 위해 설계되었고 넘파이는 숫자 배열 데이터를 작업하는데 가장 적합합니다. 왼쪽: 판다스의 데이터 프레임 오른쪽: 넘파이의 배열 이번 글에서는 판다스의 대표적인 두 자료구조 시리즈Series와 데이터프레임DataFrame에 대해 설명해보겠습니다. 이 글에서 pd는 pandas 라이브러리를 의미하는 것입니다. import pandas as pd ..

728x90
반응형