728x90
반응형

R 7

[R] 데이터프레임 열 이름/변수명 바꾸기

이번 글에서는 R에서 데이터 프레임 열 이름을 바꾸는 방법에 대해 소개해보겠습니다. 특히 외부 데이터를 불러올 경우 원하지 않는 형식의 열 이름으로 불러올 경우가 있습니다. 이해하기 쉬운 열 이름으로 바꾸면 더 수월하게 작업할 수 있게 됩니다. 📊 샘플 데이터 프레임 예제로 변수가 3개인 데이터 프레임 df을 생성했습니다. df df v1 v2 v3 1 1 Harry 70 2 2 Ron 50 3 3 Hermione 100 ✏️ colnames() 사용 colnames()를 사용하여 데이터 프레임 df의 변수명을 확인해보겠습니다. > colnames(df) [1] "v1" "v2" "v3" 열 이름을 바꾸기 전에 df2라는 복사본을 만들겠습니다. 이렇게 할 경우 원본 데이터 프레임 df는 변하지 않으며 원..

[통계학 with R, Python] t-검정 (t-test)

t-test란? t-test는 두 집단의 평균을 비교하는 검정 방법입니다. 예를 들면, A나라의 사람들의 평균 수명과 B나라의 평균 수명을 비교하는 데에 t-test를 사용할 수 있습니다. 이때 가설은 다음과 같습니다 귀무가설 (null hypothesis): 두 나라의 평균 수명은 차이가 없다. (H₀: µ₁=µ₂) 대립가설 (althernate hypothesis): 두 나라의 평균 수명은 차이가 있다. (H1: µ₁≠µ₂) t-test는 이렇게 두 집단을 비교할 때 사용할 수 있으며 두 집단 이상은 분산분석(ANOVA)을 사용합니다. 또, t-test는 표본이 독립성 (independent), 정규성 (Normally distributed), 등분 산성 (homoscedasticity)을 만족시킨다..

[R/R스튜디오] 데이터 불러오기

이번 글에서는 R스튜디오에서 데이터를 입력하는 방법을 살펴보겠습니다. txt, csv파일 불러오기 1. read.table() 함수 사용해서 불러오기 데이터셋이름 Import Dataset 또는 Environment에서 Import Dataset을 선택한후 From Excel... 을 눌러주면 밑과 같은 창이 나옵니다. Browse... 에서 파일을 찾아주고 밑에 import를 눌러주면 불러오기 완성 :) 밑 오른쪽에 보는것과 같이 아래 코드를 실행해주는 것과 동일합니다. library(readxl) forestfires_excel

[데이터 분석] 혼동행렬 Confusion Matrix (R과 Python 코드)

분류 모델 평가하기 이번 글에서는 분류 모델을 검증하는 단계에 쓰이는 혼동행렬 confusion matrix에 대해 설명해 보겠습니다. 분류 모델의 예로는 스팸 메일인지 아닌지 분류, 타이타닉호에서 생존자 예측하기, MNIST 손글씨 분류가 있습니다. 완벽한 분류 모델이 아닌 이상 분류하는 모델이 잘못된 분류를 할 수 돼있습니다. 예를 들면, 스팸이라고 분류를 했지만 스팸이 아니거나, 스팸이 아니라고 했지만 스팸이거나! 밑과 같이 모형이 예측한 값과 실제 값을 정리한 행렬을 혼동행렬이라고 합니다. 실제 (Actual) Positive Negative 예측 (predicted) Positive True Positive (TP) False Positive (FP) Negative False Negative ..

[데이터 분석/R] 데이터 시각화 with ggplot2: 산점도 만들기

이번 글에서는 R에서 ggplot2 패키지를 사용하여 데이터 시각화 밑글을 참고하여 ggplot2나 tidyverse를 설치하시면 됩니다 :) [데이터 분석 with R] R 스튜디오에서 패키지 설치하기 (feat. 자주 쓰이는 패키지 추천) R 패키지란? R 패키지란 사용자들이 만들어 놓은 함수 function이랑 데이터셋 모음집이다. R의 기본 기능을 개선하거나 새로운 기능을 추가할 수 있다. 데이터 분석에서 자주 쓰이는 패키지: ggplot2 - benn.tistory.com ggplot2 라이브러리 불러오기 제일 먼저 tidyverse 라이브러리를 불러옵니다. * tidyverse 라이브러리에는 ggplot2가 포함되어 있어 ggplot2를 따로 불러올 필요는 없습니다. library(tidyve..

[데이터 분석 with R] R 스튜디오에서 패키지 설치하기 (feat. 자주 쓰이는 패키지 추천)

R 패키지란? R 패키지란 사용자들이 만들어 놓은 함수 function이랑 데이터셋 모음집이다. R의 기본 기능을 개선하거나 새로운 기능을 추가할 수 있다. 데이터 분석에서 자주 쓰이는 패키지: ggplot2 - 데이터 시각화에 자주 쓰이는 패키지이다. dplyr/dbplyr - 데이터 조작(data manipulation)에 쓰이는 패키지. 파이썬의 pandas 또는 엑셀 (excel)처럼 테이블 식 데이터에서 원하는 열을 선택하거나, 원하는 값으로 filter, 열이나 행을 어떤 기준으로 정렬 arrange 하기 등등 다양한 데이터 조작이 가능하다. mlr3 & caret - 머신러닝 기법을 사용할 수 있는 패키지 tidyverse - '데이터 과학을 위한 패키지'로 유명하며 데이터 분석에 주로 쓰이..

R/R 스튜디오 다운로드 및 설치하기

R, R스튜디오란? R은 통계 분석에 쓰이는 프로그래밍 언어입니다. Python이랑 주로 같이 자주 언급되는 데이터 분석에 쓰이는 언어입니다. R 스튜디오는 R이라는 언어를 편리하게 쓸 수 있게 해 주는 프로그램(통합 개발 환경 IDE)입니다. 이 글에서는 R과 R 스튜디오를 다운받아 설치하는 방법에 대해 써보겠습니다. R 다운로드 및 설치 1. R 공식 웹사이트에 들어간다 https://cran.r-project.org/ 2. 본인 운영 체제(OS)에 맞는 버젼을 다운로드하기 3. 'base'를 눌러주고 'Download ____ for windows"를 눌러주면 다운로드가 시작된다. 4. 설치 프로그램을 실행해서 저장 위치, 원하는 옵션을 선택하면 설치 완료! R 스튜디오 다운로드 및 설치 1. R ..

728x90
반응형