이번 글에서는 데이터 분석에 자주 쓰이는 패키지를 소개하겠습니다.
데이터 분석을 위한 라이브러리
- NumPy
NumPy (넘파이)는 Numerical Python ("숫자 파이썬")의 약자로 수치 연산을 수행하는 데 사용되는 라이브러리입니다.
넘파이만의 배열 자료구조 (ndarray)를 이용해 파이썬의 기본 리스트와 딕셔너리보다 빠르게 수치계산을 할 수 있습니다.
예제) 아래는 파이썬 range와 넘파이의 arange 함수를 이용하여 숫자 0부터 100만까지 생성한 후, 모든 수의 제곱을 계산하는 데에 걸리는 시간을 비교해본 것입니다. 넘파이의 배열이 훨씬 더 빠르게 계산이 되는 걸 확인할 수 있습니다.
- pandas
판다스는 데이터 처리 및 분석을 위해 만들어진 패키지입니다. SQL 테이블이나 엑셀 같이 표 형식으로 되어있는 데이터 처리 및 분석에 용이하고 빨라서 자주 쓰이는 패키지입니다.
예제) 표 형식의 데이터. 파이썬에서는 DataFrame 객체라고 불립니다.
- matplotlib
파이썬의 대표적인 데이터 시각화 라이브러리입니다. 웹사이트에서 다양한 차트와 코드를 확인할 수 있습니다.
- SciPy
SciPy (사이파이)는 과학 컴퓨팅을 위한 수학 라이브러리입니다. 수학, 과학, 엔지니어링 분야에서 많이 쓰이며 분야에 따라 subpackage가 존재합니다.
SciPy subpackages:
- scipy.io: 다양한 파일을 읽고 쓰는 데에 사용됨
- scipy.linalg: 선형 대수에 쓰이는 패키지
- scipy.stats: 다양한 통계 검사 및 기술 통계에 사용됨
- scikit-learn
가장 많이 쓰이는 머신러닝 라이브러리입니다. 분류, 회귀, 클러스터링, 차원 축소 등 다양한 머신러닝 모델링이 가능합니다.
예제) scikit-learn의 다양한 분류 classifier
위 패키지들은 자주 사용되는 패키지로서 Anaconda 배포반을 설치하면 같이 자동으로 설치가 됩니다. 아래 글에서 아나콘다 설치법을 확인하실수 있습니다.
https://benn.tistory.com/26
이 외에도 keras, statsmodels, plotly, seaborn 등 더 많은 패키지가 존재하지만 데이터 분석을 처음 접할 때 자주 쓰이는 패키지 위주로 간단히 설명해보았습니다. 데이터 분석 공부를 하다 보면 자연스럽게 이것저것 찾아가며 익숙하게 쓰이게 되는 패키지들입니다.
오타나 질문은 댓글로 남겨주세요 :)
'ᐧ༚̮ᐧ Data Science | AI > Python' 카테고리의 다른 글
[파이썬] 파이 차트 그리기 (feat. matplotlib) (0) | 2021.11.04 |
---|---|
[파이썬/matplotlib] 선 그래프 그리기 + 테마 (스타일 시트) 설정 (0) | 2021.09.27 |
[파이썬] 판다스 pandas csv 파일 불러오기 & 데이터 살펴보기 (0) | 2021.09.23 |
[데이터 분석] 파이썬 Pandas 행, 열 삭제 (0) | 2021.06.27 |
[Python] 아나콘다 (Anaconda) 다운로드 및 설치하기 feat. 주피터 노트북, 파이썬/콘다 버전 확인 (0) | 2021.06.17 |