머신러닝 및 딥러닝/Python

데이터 분석에 쓰이는 파이썬 라이브러리 소개

밴B 2021. 9. 24. 14:21
728x90
반응형


이번 글에서는 데이터 분석에 자주 쓰이는 패키지를 소개하겠습니다.


데이터 분석을 위한 라이브러리

 

  • NumPy

NumPy (넘파이)는 Numerical Python ("숫자 파이썬")의 약자로 수치 연산을 수행하는 데 사용되는 라이브러리입니다.
넘파이만의 배열 자료구조 (ndarray)를 이용해 파이썬의 기본 리스트와 딕셔너리보다 빠르게 수치계산을 할 수 있습니다.

예제) 아래는 파이썬 range와 넘파이의 arange 함수를 이용하여 숫자 0부터 100만까지 생성한 후, 모든 수의 제곱을 계산하는 데에 걸리는 시간을 비교해본 것입니다. 넘파이의 배열이 훨씬 더 빠르게 계산이 되는 걸 확인할 수 있습니다.

파이썬 리스트 & 반복문 vs 넘파이 배열 계산 속도 비교





  • pandas

판다스는 데이터 처리 및 분석을 위해 만들어진 패키지입니다. SQL 테이블이나 엑셀 같이 표 형식으로 되어있는 데이터 처리 및 분석에 용이하고 빨라서 자주 쓰이는 패키지입니다.

예제) 표 형식의 데이터. 파이썬에서는 DataFrame 객체라고 불립니다.

출처: geeksforgeeks.org






  • matplotlib

파이썬의 대표적인 데이터 시각화 라이브러리입니다. 웹사이트에서 다양한 차트와 코드를 확인할 수 있습니다.

출처: https://matplotlib.org/







  • SciPy

SciPy (사이파이)는 과학 컴퓨팅을 위한 수학 라이브러리입니다. 수학, 과학, 엔지니어링 분야에서 많이 쓰이며 분야에 따라 subpackage가 존재합니다.

SciPy subpackages:
- scipy.io: 다양한 파일을 읽고 쓰는 데에 사용됨
- scipy.linalg: 선형 대수에 쓰이는 패키지
- scipy.stats: 다양한 통계 검사 및 기술 통계에 사용됨





  • scikit-learn


가장 많이 쓰이는 머신러닝 라이브러리입니다. 분류, 회귀, 클러스터링, 차원 축소 등 다양한 머신러닝 모델링이 가능합니다.


예제) scikit-learn의 다양한 분류 classifier

출처: scikit-learn.org





위 패키지들은 자주 사용되는 패키지로서 Anaconda 배포반을 설치하면 같이 자동으로 설치가 됩니다. 아래 글에서 아나콘다 설치법을 확인하실수 있습니다.

https://benn.tistory.com/26

 

[Python] 아나콘다 (Anaconda) 다운로드 및 설치하기 feat. 주피터 노트북, 파이썬/콘다 버전 확인

아나콘다 Anaconda 아나콘다 (Anaconda)는 파이썬을 포함한 데이터 과학에 필요한 다양한 언어 및 패키지의 배포입니다. 프로젝트마다 다른 환경을 만드는데도 편리하고 환경마다 필요한 패키지를

benn.tistory.com


이 외에도 keras, statsmodels, plotly, seaborn 등 더 많은 패키지가 존재하지만 데이터 분석을 처음 접할 때 자주 쓰이는 패키지 위주로 간단히 설명해보았습니다. 데이터 분석 공부를 하다 보면 자연스럽게 이것저것 찾아가며 익숙하게 쓰이게 되는 패키지들입니다.

오타나 질문은 댓글로 남겨주세요 :)

728x90
반응형