'데이터 분석' 태그의 글 목록

SQL 독학 #2. JOIN

SQL 독학 시리즈 두 번째 글! 이번 글은 SQLZoo 튜토리얼 #6,7, SQLBolt #6,7 정리한 내용이다.내 독학 계획 및 SQL 공부 사이트 추천은 아래 글에서 ↙↙ SQL 독학 시작! 나만의 커리큘럼, 연습 문제 사이트 추천현재 일에서는 SQL을 사용하지 않지만, 대부분의 데이터 과학 관련 직무에서 SQL은 필수로 요구되는 기술이라는 것을 알 수 있다.올해 말이나 내년에는 이직을 준비해야 하기 때문에, 새해 결심으benn.tistory.com 데이터베이스 정규화 (Normalization):정규화는 데이터베이스 설계 과정에서 중복 데이터를 제거하고 데이터의 일관성과 독립성을 유지하기 위해 데이터를 여러 테이블로 분리하는 작업입니다.아래 예를 들어, 직원 정보와 부서 정보를 하나의 테이블..

ᐧ༚̮ᐧ Data Science | AI/SQL 2025.01.23

[파이썬 Pandas] 데이터프레임 병합 merge 가이드

데이터 분석에서는 여러 테이블에 분산된 정보를 하나로 모으는 작업을 자주 하게 된다. pandas 라이브러리의 merge 함수는 SQL 스타일의 조인으로 여러 데이터프레임을 다양한 조인 방식(inner, outer, left, right)을 지원한다. 이번 글에서는 두 개의 영화 데이터프레임을 사용해 merge() 예제를 살펴보겠습니다.첫 번째 데이터프레임은 영화의 ID, 제목, 장르 정보를 담고 있고, 두 번째 데이터프레임은 영화 ID와 사용자 평점을 포함하고 있다. import pandas as pddf_movies = pd.DataFrame({ 'MovieID': [1, 2, 3, 4], 'Title': ['어벤져스', '겨울왕국', '아바타', '괴물'], 'Genre': [..

ᐧ༚̮ᐧ Data Science | AI/Python 2024.11.09

[R] 데이터프레임 열 이름/변수명 바꾸기

이번 글에서는 R에서 데이터 프레임 열 이름을 바꾸는 방법에 대해 소개해보겠습니다. 특히 외부 데이터를 불러올 경우 원하지 않는 형식의 열 이름으로 불러올 경우가 있습니다. 이해하기 쉬운 열 이름으로 바꾸면 더 수월하게 작업할 수 있게 됩니다. 📊 샘플 데이터 프레임 예제로 변수가 3개인 데이터 프레임 df을 생성했습니다. df df v1 v2 v3 1 1 Harry 70 2 2 Ron 50 3 3 Hermione 100 ✏️ colnames() 사용 colnames()를 사용하여 데이터 프레임 df의 변수명을 확인해보겠습니다. > colnames(df) [1] "v1" "v2" "v3" 열 이름을 바꾸기 전에 df2라는 복사본을 만들겠습니다. 이렇게 할 경우 원본 데이터 프레임 df는 변하지 않으며 원..

ᐧ༚̮ᐧ Data Science | AI/R 2022.11.25

데이터 분석에 쓰이는 파이썬 라이브러리 소개

이번 글에서는 데이터 분석에 자주 쓰이는 패키지를 소개하겠습니다. 데이터 분석을 위한 라이브러리 NumPy NumPy (넘파이)는 Numerical Python ("숫자 파이썬")의 약자로 수치 연산을 수행하는 데 사용되는 라이브러리입니다. 넘파이만의 배열 자료구조 (ndarray)를 이용해 파이썬의 기본 리스트와 딕셔너리보다 빠르게 수치계산을 할 수 있습니다. 예제) 아래는 파이썬 range와 넘파이의 arange 함수를 이용하여 숫자 0부터 100만까지 생성한 후, 모든 수의 제곱을 계산하는 데에 걸리는 시간을 비교해본 것입니다. 넘파이의 배열이 훨씬 더 빠르게 계산이 되는 걸 확인할 수 있습니다. pandas 판다스는 데이터 처리 및 분석을 위해 만들어진 패키지입니다. SQL 테이블이나 엑셀 같이 ..

ᐧ༚̮ᐧ Data Science | AI/Python 2021.09.24

[파이썬] 판다스 pandas csv 파일 불러오기 & 데이터 살펴보기

Pandas 판다스 (Pandas) 라이브러리는 데이터 처리를 위한 라이브러리로 데이터 분석에 많이 사용하는 라이브러리입니다. 판다스의 간단한 소개와 판다스의 두 자료구조인 series와 데이터 프레임은 아래 글에서 확인하실수 있습니다. [파이썬] 판다스 pandas 기초: 판다스의 자료 구조 series와 dataframe 판다스 Pandas 판다스는 파이썬의 라이브러리로 빠르고 쉽게 데이터를 정리하고 분석할 수 있게 해주는 도구입니다. 판다스와 Numpy 넘파이는 아마 데이터 분석/과학 작업에서 함께 많이 쓰이는 라 benn.tistory.com 이번 글에서는 엑셀 파일을 불러오는 방법과 데이터프레임의 갖가지 정보를 알아보기 위해 사용되는 함수를 살펴보겠습니다. csv 파일 불러오기 pandas의 r..

ᐧ༚̮ᐧ Data Science | AI/Python 2021.09.23

[통계학 with R, Python] t-검정 (t-test)

t-test란? t-test는 두 집단의 평균을 비교하는 검정 방법입니다. 예를 들면, A나라의 사람들의 평균 수명과 B나라의 평균 수명을 비교하는 데에 t-test를 사용할 수 있습니다. 이때 가설은 다음과 같습니다 귀무가설 (null hypothesis): 두 나라의 평균 수명은 차이가 없다. (H₀: µ₁=µ₂) 대립가설 (althernate hypothesis): 두 나라의 평균 수명은 차이가 있다. (H1: µ₁≠µ₂) t-test는 이렇게 두 집단을 비교할 때 사용할 수 있으며 두 집단 이상은 분산분석(ANOVA)을 사용합니다. 또, t-test는 표본이 독립성 (independent), 정규성 (Normally distributed), 등분 산성 (homoscedasticity)을 만족시킨다..

ᐧ༚̮ᐧ Data Science | AI/통계, 수학 2021.09.12

[데이터 분석] 파이썬 Pandas 행, 열 삭제

이번 글에서는 유명한 Iris 데이터셋을 사용하여 판다스를 사용해 원하지 않는 데이터를 삭제하는 방법을 정리해봤습니다. 먼저 판다스 라이브러리를 불러오고 데이터셋을 불러오겠습니다. import pandas as pd iris = pd.read_csv("iris.csv") iris 데이터셋의 첫 5줄을 확인하면 아래와 같습니다. 데이터셋 크기 (행, 열 개수) 확인하기 iris.shape 위 코드를 실행하면 (150, 5)가 출력됩니다. (행, 열) 순서로 iris 데이터셋에는 150개의 행과 5개의 열으 이루어져 있다는 걸 확인할 수 있습니다. 행 삭제하기 1. drop으로 인덱스 index 사용해서 삭제하기 데이터프레임.drop(인덱스)를 사용하여 삭제하고 싶은 행의 인덱스를 입력하면 됩니다. new_..

ᐧ༚̮ᐧ Data Science | AI/Python 2021.06.27

[통계] 확률변수, 확률분포

확률 Probability 확률이란 어떤 일이 일어날 가능성의 측도입니다. 확률은 A 사건(event)이 일어나는 경우의 수와 나올 수 있는 모든 경우의 비율이라고 할 수 있습니다. 통계적 실험을 했을 때 나올 수 있는 모든 경우의 수를 표본 공간 sample space라고 부릅니다. 어떤 사건 A의 확률 = (A 사건이 일어나는 경우의 수) / (나올 수 있는 모든 경우 [표본 공간]) 예를 들어, 동전을 던졌을 때 얼굴이 나오는 확률은 나올 수 있는 경우 숫자면, 얼굴면 2가지 경우에서 하나이기 때문에 1/2 = 0.5 = 50%의 확률입니다. 확률 변수 Random Variable 결과를 예측할 수 없는 무작위 (random) 실험에서 나타날 수 있는 결과를 수치로 표현한 값입니다. 주로 대문자 알..

ᐧ༚̮ᐧ Data Science | AI/통계, 수학 2021.06.12

[R/R스튜디오] 데이터 불러오기

이번 글에서는 R스튜디오에서 데이터를 입력하는 방법을 살펴보겠습니다. txt, csv파일 불러오기 1. read.table() 함수 사용해서 불러오기 데이터셋이름 Import Dataset 또는 Environment에서 Import Dataset을 선택한후 From Excel... 을 눌러주면 밑과 같은 창이 나옵니다. Browse... 에서 파일을 찾아주고 밑에 import를 눌러주면 불러오기 완성 :) 밑 오른쪽에 보는것과 같이 아래 코드를 실행해주는 것과 동일합니다. library(readxl) forestfires_excel

ᐧ༚̮ᐧ Data Science | AI/R 2021.06.11

[데이터 분석 with R] R 스튜디오에서 패키지 설치하기 (feat. 자주 쓰이는 패키지 추천)

R 패키지란? R 패키지란 사용자들이 만들어 놓은 함수 function이랑 데이터셋 모음집이다. R의 기본 기능을 개선하거나 새로운 기능을 추가할 수 있다. 데이터 분석에서 자주 쓰이는 패키지: ggplot2 - 데이터 시각화에 자주 쓰이는 패키지이다. dplyr/dbplyr - 데이터 조작(data manipulation)에 쓰이는 패키지. 파이썬의 pandas 또는 엑셀 (excel)처럼 테이블 식 데이터에서 원하는 열을 선택하거나, 원하는 값으로 filter, 열이나 행을 어떤 기준으로 정렬 arrange 하기 등등 다양한 데이터 조작이 가능하다. mlr3 & caret - 머신러닝 기법을 사용할 수 있는 패키지 tidyverse - '데이터 과학을 위한 패키지'로 유명하며 데이터 분석에 주로 쓰이..

ᐧ༚̮ᐧ Data Science | AI/R 2021.05.30

Bee's 데이터 과학

데이터 분석 11

티스토리툴바

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30