728x90
반응형

데이터 분석 9

[R] 데이터프레임 열 이름/변수명 바꾸기

이번 글에서는 R에서 데이터 프레임 열 이름을 바꾸는 방법에 대해 소개해보겠습니다. 특히 외부 데이터를 불러올 경우 원하지 않는 형식의 열 이름으로 불러올 경우가 있습니다. 이해하기 쉬운 열 이름으로 바꾸면 더 수월하게 작업할 수 있게 됩니다. 📊 샘플 데이터 프레임 예제로 변수가 3개인 데이터 프레임 df을 생성했습니다. df df v1 v2 v3 1 1 Harry 70 2 2 Ron 50 3 3 Hermione 100 ✏️ colnames() 사용 colnames()를 사용하여 데이터 프레임 df의 변수명을 확인해보겠습니다. > colnames(df) [1] "v1" "v2" "v3" 열 이름을 바꾸기 전에 df2라는 복사본을 만들겠습니다. 이렇게 할 경우 원본 데이터 프레임 df는 변하지 않으며 원..

데이터 분석에 쓰이는 파이썬 라이브러리 소개

이번 글에서는 데이터 분석에 자주 쓰이는 패키지를 소개하겠습니다. 데이터 분석을 위한 라이브러리 NumPy NumPy (넘파이)는 Numerical Python ("숫자 파이썬")의 약자로 수치 연산을 수행하는 데 사용되는 라이브러리입니다. 넘파이만의 배열 자료구조 (ndarray)를 이용해 파이썬의 기본 리스트와 딕셔너리보다 빠르게 수치계산을 할 수 있습니다. 예제) 아래는 파이썬 range와 넘파이의 arange 함수를 이용하여 숫자 0부터 100만까지 생성한 후, 모든 수의 제곱을 계산하는 데에 걸리는 시간을 비교해본 것입니다. 넘파이의 배열이 훨씬 더 빠르게 계산이 되는 걸 확인할 수 있습니다. pandas 판다스는 데이터 처리 및 분석을 위해 만들어진 패키지입니다. SQL 테이블이나 엑셀 같이 ..

[파이썬] 판다스 pandas csv 파일 불러오기 & 데이터 살펴보기

Pandas 판다스 (Pandas) 라이브러리는 데이터 처리를 위한 라이브러리로 데이터 분석에 많이 사용하는 라이브러리입니다. 판다스의 간단한 소개와 판다스의 두 자료구조인 series와 데이터 프레임은 아래 글에서 확인하실수 있습니다. [파이썬] 판다스 pandas 기초: 판다스의 자료 구조 series와 dataframe 판다스 Pandas 판다스는 파이썬의 라이브러리로 빠르고 쉽게 데이터를 정리하고 분석할 수 있게 해주는 도구입니다. 판다스와 Numpy 넘파이는 아마 데이터 분석/과학 작업에서 함께 많이 쓰이는 라 benn.tistory.com 이번 글에서는 엑셀 파일을 불러오는 방법과 데이터프레임의 갖가지 정보를 알아보기 위해 사용되는 함수를 살펴보겠습니다. csv 파일 불러오기 pandas의 r..

[통계학 with R, Python] t-검정 (t-test)

t-test란? t-test는 두 집단의 평균을 비교하는 검정 방법입니다. 예를 들면, A나라의 사람들의 평균 수명과 B나라의 평균 수명을 비교하는 데에 t-test를 사용할 수 있습니다. 이때 가설은 다음과 같습니다 귀무가설 (null hypothesis): 두 나라의 평균 수명은 차이가 없다. (H₀: µ₁=µ₂) 대립가설 (althernate hypothesis): 두 나라의 평균 수명은 차이가 있다. (H1: µ₁≠µ₂) t-test는 이렇게 두 집단을 비교할 때 사용할 수 있으며 두 집단 이상은 분산분석(ANOVA)을 사용합니다. 또, t-test는 표본이 독립성 (independent), 정규성 (Normally distributed), 등분 산성 (homoscedasticity)을 만족시킨다..

[데이터 분석] 파이썬 Pandas 행, 열 삭제

이번 글에서는 유명한 Iris 데이터셋을 사용하여 판다스를 사용해 원하지 않는 데이터를 삭제하는 방법을 정리해봤습니다. 먼저 판다스 라이브러리를 불러오고 데이터셋을 불러오겠습니다. import pandas as pd iris = pd.read_csv("iris.csv") iris 데이터셋의 첫 5줄을 확인하면 아래와 같습니다. 데이터셋 크기 (행, 열 개수) 확인하기 iris.shape 위 코드를 실행하면 (150, 5)가 출력됩니다. (행, 열) 순서로 iris 데이터셋에는 150개의 행과 5개의 열으 이루어져 있다는 걸 확인할 수 있습니다. 행 삭제하기 1. drop으로 인덱스 index 사용해서 삭제하기 데이터프레임.drop(인덱스)를 사용하여 삭제하고 싶은 행의 인덱스를 입력하면 됩니다. new_..

[통계] 확률변수, 확률분포

확률 Probability 확률이란 어떤 일이 일어날 가능성의 측도입니다. 확률은 A 사건(event)이 일어나는 경우의 수와 나올 수 있는 모든 경우의 비율이라고 할 수 있습니다. 통계적 실험을 했을 때 나올 수 있는 모든 경우의 수를 표본 공간 sample space라고 부릅니다. 어떤 사건 A의 확률 = (A 사건이 일어나는 경우의 수) / (나올 수 있는 모든 경우 [표본 공간]) 예를 들어, 동전을 던졌을 때 얼굴이 나오는 확률은 나올 수 있는 경우 숫자면, 얼굴면 2가지 경우에서 하나이기 때문에 1/2 = 0.5 = 50%의 확률입니다. 확률 변수 Random Variable 결과를 예측할 수 없는 무작위 (random) 실험에서 나타날 수 있는 결과를 수치로 표현한 값입니다. 주로 대문자 알..

[R/R스튜디오] 데이터 불러오기

이번 글에서는 R스튜디오에서 데이터를 입력하는 방법을 살펴보겠습니다. txt, csv파일 불러오기 1. read.table() 함수 사용해서 불러오기 데이터셋이름 Import Dataset 또는 Environment에서 Import Dataset을 선택한후 From Excel... 을 눌러주면 밑과 같은 창이 나옵니다. Browse... 에서 파일을 찾아주고 밑에 import를 눌러주면 불러오기 완성 :) 밑 오른쪽에 보는것과 같이 아래 코드를 실행해주는 것과 동일합니다. library(readxl) forestfires_excel

[데이터 분석 with R] R 스튜디오에서 패키지 설치하기 (feat. 자주 쓰이는 패키지 추천)

R 패키지란? R 패키지란 사용자들이 만들어 놓은 함수 function이랑 데이터셋 모음집이다. R의 기본 기능을 개선하거나 새로운 기능을 추가할 수 있다. 데이터 분석에서 자주 쓰이는 패키지: ggplot2 - 데이터 시각화에 자주 쓰이는 패키지이다. dplyr/dbplyr - 데이터 조작(data manipulation)에 쓰이는 패키지. 파이썬의 pandas 또는 엑셀 (excel)처럼 테이블 식 데이터에서 원하는 열을 선택하거나, 원하는 값으로 filter, 열이나 행을 어떤 기준으로 정렬 arrange 하기 등등 다양한 데이터 조작이 가능하다. mlr3 & caret - 머신러닝 기법을 사용할 수 있는 패키지 tidyverse - '데이터 과학을 위한 패키지'로 유명하며 데이터 분석에 주로 쓰이..

데이터 시각화란? (데이터 시각화 툴, 예제)

데이터 시각화란? 데이터 시각화(data visualization)는 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과정을 말한다. - 위키백과 데이터를 통해 누군가에게 무언가를 소통을 하기 위해 꼭 필요한 데이터 시각화. 요즘에는 데이터 분석가에게 꼭 필요한 스킬 중에 하나이기도 합니다. 숫자, 테이블 형식의 데이터보다는 막대차트나 선 도표 같은 차트가 데이터를 한 눈에 파악하기 쉽습니다. 밑에는 책 웹사이트 Goodreads의 책 평점 데이터입니다. 아무래도 테이블 형식보다는 오른쪽으로 봤을 때 한눈에 평점의 분포를 파악하기에 쉽습니다. 좋은 데이터 시각화란? 좋은 데이터 시각화란 아무래도 전달하는 메시지가 정확하게 전달이 되어야 하는 게 목표인 거 같습니다. '좋은' 데이터..

728x90
반응형