728x90
반응형

ᐧ༚̮ᐧ Data Science | AI 51

[파이썬] 판다스 pandas 기초: 판다스의 자료 구조 series와 dataframe

판다스 Pandas 판다스는 파이썬의 라이브러리로 빠르고 쉽게 데이터를 정리하고 분석할 수 있게 해주는 도구입니다. 판다스와 Numpy 넘파이는 아마 데이터 분석/과학 작업에서 함께 많이 쓰이는 라이브러리입니다. 다차원 배열 객체를 제공하는 넘파이와 달리 판다스는 표 형식인 Dataframe이라는 객체를 사용합니다. 간단하게 말하면 판다스는 표 형식의 데이터 작업을 위해 설계되었고 넘파이는 숫자 배열 데이터를 작업하는데 가장 적합합니다. 왼쪽: 판다스의 데이터 프레임 오른쪽: 넘파이의 배열 이번 글에서는 판다스의 대표적인 두 자료구조 시리즈Series와 데이터프레임DataFrame에 대해 설명해보겠습니다. 이 글에서 pd는 pandas 라이브러리를 의미하는 것입니다. import pandas as pd ..

[통계] 확률변수, 확률분포

확률 Probability 확률이란 어떤 일이 일어날 가능성의 측도입니다. 확률은 A 사건(event)이 일어나는 경우의 수와 나올 수 있는 모든 경우의 비율이라고 할 수 있습니다. 통계적 실험을 했을 때 나올 수 있는 모든 경우의 수를 표본 공간 sample space라고 부릅니다. 어떤 사건 A의 확률 = (A 사건이 일어나는 경우의 수) / (나올 수 있는 모든 경우 [표본 공간]) 예를 들어, 동전을 던졌을 때 얼굴이 나오는 확률은 나올 수 있는 경우 숫자면, 얼굴면 2가지 경우에서 하나이기 때문에 1/2 = 0.5 = 50%의 확률입니다. 확률 변수 Random Variable 결과를 예측할 수 없는 무작위 (random) 실험에서 나타날 수 있는 결과를 수치로 표현한 값입니다. 주로 대문자 알..

[R/R스튜디오] 데이터 불러오기

이번 글에서는 R스튜디오에서 데이터를 입력하는 방법을 살펴보겠습니다. txt, csv파일 불러오기 1. read.table() 함수 사용해서 불러오기 데이터셋이름 Import Dataset 또는 Environment에서 Import Dataset을 선택한후 From Excel... 을 눌러주면 밑과 같은 창이 나옵니다. Browse... 에서 파일을 찾아주고 밑에 import를 눌러주면 불러오기 완성 :) 밑 오른쪽에 보는것과 같이 아래 코드를 실행해주는 것과 동일합니다. library(readxl) forestfires_excel

[데이터 분석] 혼동행렬 Confusion Matrix (R과 Python 코드)

분류 모델 평가하기 이번 글에서는 분류 모델을 검증하는 단계에 쓰이는 혼동행렬 confusion matrix에 대해 설명해 보겠습니다. 분류 모델의 예로는 스팸 메일인지 아닌지 분류, 타이타닉호에서 생존자 예측하기, MNIST 손글씨 분류가 있습니다. 완벽한 분류 모델이 아닌 이상 분류하는 모델이 잘못된 분류를 할 수 돼있습니다. 예를 들면, 스팸이라고 분류를 했지만 스팸이 아니거나, 스팸이 아니라고 했지만 스팸이거나! 밑과 같이 모형이 예측한 값과 실제 값을 정리한 행렬을 혼동행렬이라고 합니다. 실제 (Actual) Positive Negative 예측 (predicted) Positive True Positive (TP) False Positive (FP) Negative False Negative ..

[데이터 분석/R] 데이터 시각화 with ggplot2: 산점도 만들기

이번 글에서는 R에서 ggplot2 패키지를 사용하여 데이터 시각화 밑글을 참고하여 ggplot2나 tidyverse를 설치하시면 됩니다 :) [데이터 분석 with R] R 스튜디오에서 패키지 설치하기 (feat. 자주 쓰이는 패키지 추천) R 패키지란? R 패키지란 사용자들이 만들어 놓은 함수 function이랑 데이터셋 모음집이다. R의 기본 기능을 개선하거나 새로운 기능을 추가할 수 있다. 데이터 분석에서 자주 쓰이는 패키지: ggplot2 - benn.tistory.com ggplot2 라이브러리 불러오기 제일 먼저 tidyverse 라이브러리를 불러옵니다. * tidyverse 라이브러리에는 ggplot2가 포함되어 있어 ggplot2를 따로 불러올 필요는 없습니다. library(tidyve..

[데이터 분석 with R] R 스튜디오에서 패키지 설치하기 (feat. 자주 쓰이는 패키지 추천)

R 패키지란? R 패키지란 사용자들이 만들어 놓은 함수 function이랑 데이터셋 모음집이다. R의 기본 기능을 개선하거나 새로운 기능을 추가할 수 있다. 데이터 분석에서 자주 쓰이는 패키지: ggplot2 - 데이터 시각화에 자주 쓰이는 패키지이다. dplyr/dbplyr - 데이터 조작(data manipulation)에 쓰이는 패키지. 파이썬의 pandas 또는 엑셀 (excel)처럼 테이블 식 데이터에서 원하는 열을 선택하거나, 원하는 값으로 filter, 열이나 행을 어떤 기준으로 정렬 arrange 하기 등등 다양한 데이터 조작이 가능하다. mlr3 & caret - 머신러닝 기법을 사용할 수 있는 패키지 tidyverse - '데이터 과학을 위한 패키지'로 유명하며 데이터 분석에 주로 쓰이..

[통계] 척도 (Scale)의 4가지 종류: 명목 척도, 서열 척도, 구간 척도, 비율 척도

척도(scale)는 데이터(자료)가 정의되고 분류되는 방식을 나타냅니다. 이 글에서는 4가지의 척도의 종류(명목, 서열, 구간, 비율 척도)를 설명해보겠습니다.질적 자료 vs 양적 자료자료는 크게 질적과 양적 자료로 구분할 수 있습니다.질적 자료 (quantitative): 숫자로 표현할 수 없는 정보로 그룹으로 묶기 때문에 범주형 자료라고도 합니다. (예: 색깔, 성별, 취미, 국가), 연산이 불가능양적 자료 (qualitative): 숫자로 표현할 수 있는 정보 (예: 키, 몸무게, 시험 성적), 연산 조작이 가능, 평균, 편차 등 계산이 가능하다 질적 자료는 다시 명목 척도, 순위 척도로, 양적 자료는 구간 척도, 비율 척도로 구분됩니다. 명목 척도 (nominal scale)nominal 뜻 그대..

R/R 스튜디오 다운로드 및 설치하기

R, R스튜디오란? R은 통계 분석에 쓰이는 프로그래밍 언어입니다. Python이랑 주로 같이 자주 언급되는 데이터 분석에 쓰이는 언어입니다. R 스튜디오는 R이라는 언어를 편리하게 쓸 수 있게 해 주는 프로그램(통합 개발 환경 IDE)입니다. 이 글에서는 R과 R 스튜디오를 다운받아 설치하는 방법에 대해 써보겠습니다. R 다운로드 및 설치 1. R 공식 웹사이트에 들어간다 https://cran.r-project.org/ 2. 본인 운영 체제(OS)에 맞는 버젼을 다운로드하기 3. 'base'를 눌러주고 'Download ____ for windows"를 눌러주면 다운로드가 시작된다. 4. 설치 프로그램을 실행해서 저장 위치, 원하는 옵션을 선택하면 설치 완료! R 스튜디오 다운로드 및 설치 1. R ..

[파이썬/Pandas] 막대 그래프 그리기

안녕하세요. 이번 글에서는 Pandas 라이브러리를 사용해 막대그래프를 그리는 법을 설명해 보겠습니다. Pandas 라이브러리는 데이터 정리 및 분석 할 때 많이 사용되며 쉽게 다양한 그래프를 바로 그려볼 수도 있습니다. 이 글에서는 Kaggle의 데이터 과학자 설문조사에서 추출한 데이터셋을 예로 들어 설명해보겠습니다. import pandas as pd # 2020 설문조사에서 데이터 과학자들이 사용하는 프로그래밍 언어 df = pd.DataFrame({'lang':['Python', 'R', 'SQL', 'C', 'C++', 'Java', 'Javascript', 'Julia', 'Swift', 'Bash', "MATLAB", 'None', 'Other'], 'val':[15531, 4278, 753..

데이터 시각화란? (데이터 시각화 툴, 예제)

데이터 시각화란? 데이터 시각화(data visualization)는 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과정을 말한다. - 위키백과 데이터를 통해 누군가에게 무언가를 소통을 하기 위해 꼭 필요한 데이터 시각화. 요즘에는 데이터 분석가에게 꼭 필요한 스킬 중에 하나이기도 합니다. 숫자, 테이블 형식의 데이터보다는 막대차트나 선 도표 같은 차트가 데이터를 한 눈에 파악하기 쉽습니다. 밑에는 책 웹사이트 Goodreads의 책 평점 데이터입니다. 아무래도 테이블 형식보다는 오른쪽으로 봤을 때 한눈에 평점의 분포를 파악하기에 쉽습니다. 좋은 데이터 시각화란? 좋은 데이터 시각화란 아무래도 전달하는 메시지가 정확하게 전달이 되어야 하는 게 목표인 거 같습니다. '좋은' 데이터..

728x90
반응형