728x90
반응형

파이썬 18

[통계학 with R, Python] t-검정 (t-test)

t-test란? t-test는 두 집단의 평균을 비교하는 검정 방법입니다. 예를 들면, A나라의 사람들의 평균 수명과 B나라의 평균 수명을 비교하는 데에 t-test를 사용할 수 있습니다. 이때 가설은 다음과 같습니다 귀무가설 (null hypothesis): 두 나라의 평균 수명은 차이가 없다. (H₀: µ₁=µ₂) 대립가설 (althernate hypothesis): 두 나라의 평균 수명은 차이가 있다. (H1: µ₁≠µ₂) t-test는 이렇게 두 집단을 비교할 때 사용할 수 있으며 두 집단 이상은 분산분석(ANOVA)을 사용합니다. 또, t-test는 표본이 독립성 (independent), 정규성 (Normally distributed), 등분 산성 (homoscedasticity)을 만족시킨다..

[데이터 분석] 파이썬 Pandas 행, 열 삭제

이번 글에서는 유명한 Iris 데이터셋을 사용하여 판다스를 사용해 원하지 않는 데이터를 삭제하는 방법을 정리해봤습니다. 먼저 판다스 라이브러리를 불러오고 데이터셋을 불러오겠습니다. import pandas as pd iris = pd.read_csv("iris.csv") iris 데이터셋의 첫 5줄을 확인하면 아래와 같습니다. 데이터셋 크기 (행, 열 개수) 확인하기 iris.shape 위 코드를 실행하면 (150, 5)가 출력됩니다. (행, 열) 순서로 iris 데이터셋에는 150개의 행과 5개의 열으 이루어져 있다는 걸 확인할 수 있습니다. 행 삭제하기 1. drop으로 인덱스 index 사용해서 삭제하기 데이터프레임.drop(인덱스)를 사용하여 삭제하고 싶은 행의 인덱스를 입력하면 됩니다. new_..

[Python] 아나콘다 (Anaconda) 다운로드 및 설치하기 feat. 주피터 노트북, 파이썬/콘다 버전 확인

아나콘다 Anaconda 아나콘다 (Anaconda)는 파이썬을 포함한 데이터 과학에 필요한 다양한 언어 및 패키지의 배포입니다. 프로젝트마다 다른 환경을 만드는데도 편리하고 환경마다 필요한 패키지를 설치, 제거 및 변경하기에 용이합니다. Anaconda를 처음 다운로드하면 파이썬 외에 데이터 과학의 일반적인 패키지가 제공되기 때문에 파이썬/데이터 과학을 독학하시는 분들에겐 아나콘다 설치를 많이들 추천합니다. 아나콘다 다운로드 및 링크를 통해 최신 아나콘다 버전을 다운로드합니다. https://www.anaconda.com/products/individual Anaconda | Individual Edition Anaconda's open-source Individual Edition is the eas..

[파이썬] 판다스 pandas 기초: 판다스의 자료 구조 series와 dataframe

판다스 Pandas 판다스는 파이썬의 라이브러리로 빠르고 쉽게 데이터를 정리하고 분석할 수 있게 해주는 도구입니다. 판다스와 Numpy 넘파이는 아마 데이터 분석/과학 작업에서 함께 많이 쓰이는 라이브러리입니다. 다차원 배열 객체를 제공하는 넘파이와 달리 판다스는 표 형식인 Dataframe이라는 객체를 사용합니다. 간단하게 말하면 판다스는 표 형식의 데이터 작업을 위해 설계되었고 넘파이는 숫자 배열 데이터를 작업하는데 가장 적합합니다. 왼쪽: 판다스의 데이터 프레임 오른쪽: 넘파이의 배열 이번 글에서는 판다스의 대표적인 두 자료구조 시리즈Series와 데이터프레임DataFrame에 대해 설명해보겠습니다. 이 글에서 pd는 pandas 라이브러리를 의미하는 것입니다. import pandas as pd ..

[데이터 분석] 혼동행렬 Confusion Matrix (R과 Python 코드)

분류 모델 평가하기 이번 글에서는 분류 모델을 검증하는 단계에 쓰이는 혼동행렬 confusion matrix에 대해 설명해 보겠습니다. 분류 모델의 예로는 스팸 메일인지 아닌지 분류, 타이타닉호에서 생존자 예측하기, MNIST 손글씨 분류가 있습니다. 완벽한 분류 모델이 아닌 이상 분류하는 모델이 잘못된 분류를 할 수 돼있습니다. 예를 들면, 스팸이라고 분류를 했지만 스팸이 아니거나, 스팸이 아니라고 했지만 스팸이거나! 밑과 같이 모형이 예측한 값과 실제 값을 정리한 행렬을 혼동행렬이라고 합니다. 실제 (Actual) Positive Negative 예측 (predicted) Positive True Positive (TP) False Positive (FP) Negative False Negative ..

[파이썬/Pandas] 막대 그래프 그리기

안녕하세요. 이번 글에서는 Pandas 라이브러리를 사용해 막대그래프를 그리는 법을 설명해 보겠습니다. Pandas 라이브러리는 데이터 정리 및 분석 할 때 많이 사용되며 쉽게 다양한 그래프를 바로 그려볼 수도 있습니다. 이 글에서는 Kaggle의 데이터 과학자 설문조사에서 추출한 데이터셋을 예로 들어 설명해보겠습니다. import pandas as pd # 2020 설문조사에서 데이터 과학자들이 사용하는 프로그래밍 언어 df = pd.DataFrame({'lang':['Python', 'R', 'SQL', 'C', 'C++', 'Java', 'Javascript', 'Julia', 'Swift', 'Bash', "MATLAB", 'None', 'Other'], 'val':[15531, 4278, 753..

[알고리즘] 투 포인터 (Two pointers) 알고리즘

투 포인터란? 이번 글에서는 Two pointers technique (algorithm)을 설명해보도록 하겠습니다. 일단 이름 그대로 두 가지 포인터를 사용하여 문자열이나 배열(또는 리스트)에서 원하는 값을 찾거나 반복문을 써야 할 때 쓰기 좋은 방식입니다. 그냥 naive 방식인 그냥 탐색 (반복문)을 쓰다보면 시간 초과가 걸리는 경우가에 투 포인터를 사용하면 메모리와 시간 효율성을 높일 수 있습니다. 코딩 테스트를 보면 시간 복잡도를 낮출 수 있는 경우에는 일부로 테스트 케이스에 n이 정말 큰 (엄청 긴 배열이나 문자열)을 사용해서 Time out을 걸리게 하는 케이스가 많습니다. 포인터는 크게 두가지 방식으로 쓰입니다. 앞에서 시작하는 포인터와 끝에서 시작하는 포인터가 만나는 형식 또는 빠른 포인..

데이터 시각화란? (데이터 시각화 툴, 예제)

데이터 시각화란? 데이터 시각화(data visualization)는 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과정을 말한다. - 위키백과 데이터를 통해 누군가에게 무언가를 소통을 하기 위해 꼭 필요한 데이터 시각화. 요즘에는 데이터 분석가에게 꼭 필요한 스킬 중에 하나이기도 합니다. 숫자, 테이블 형식의 데이터보다는 막대차트나 선 도표 같은 차트가 데이터를 한 눈에 파악하기 쉽습니다. 밑에는 책 웹사이트 Goodreads의 책 평점 데이터입니다. 아무래도 테이블 형식보다는 오른쪽으로 봤을 때 한눈에 평점의 분포를 파악하기에 쉽습니다. 좋은 데이터 시각화란? 좋은 데이터 시각화란 아무래도 전달하는 메시지가 정확하게 전달이 되어야 하는 게 목표인 거 같습니다. '좋은' 데이터..

728x90
반응형