728x90
반응형

머신러닝 및 딥러닝 41

마이크로소프트 애저 클라우드 자격증 (AZ-900) 취득 후기

마이크로소프트 자격증 마이크로소프트에서 자격증은 초급 Beginner > 중급 Intermediate > 고급 Advanced으로 나뉘며 애저 Azure 관련 시험 및 인증만 70여 개가 존재합니다. 초급 레벨 중 애저 관련 자격증은 아래와 같습니다. (이 외에도 조금 더 있으니 웹사이트에서 확인해보세요!) 이 글의 주인공 → [AZ-900] 초급/애저: Azure Fundamentals - 클라우드 개념 + 애저 서비스 [AI-900] 초급/애저/AI 엔지니어: Azure AI Fundamentals - ML/AI 개념 + 애저 서비스 [DP-900] 초급/애저/데이터 엔지니어: Azure Data Fundamentals - 데이터 개념 + 애저 서비스 초급 시험 합격 유무와 상관없이 바로 중급, 고급..

[파이썬/matplotlib] 선 그래프 그리기 + 테마 (스타일 시트) 설정

선 그래프는 수량을 점으로 표시하고 점과 점 사이의 거리를 직선으로 연결한 그래프 형태이며 시간에 따른 데이터의 변화 추세를 파악하는데 유용합니다. 이 글에서는 파이썬의 대표 데이터 시각화 라이브러리 matplotlib을 사용하여 선 그래프를 그리는 법을 정리해봤습니다. matplotlib 불러오기 %matplotlib inline import matplotlib.pyplot as plt 첫 번째 줄 %matplotlib inline은 Jupyter에서 IPython을 쓰는 경우 노트북에서 바로 차트를 볼 수 있게 해주는 코드입니다. matplotlib.pyplot을 불러줍니다. (약자: plt) 선그래프 그리기 리스트, 배열 형식의 데이터가 있다면 바로 pyplot의 plot() 함수에 x축, y축 순..

데이터 분석에 쓰이는 파이썬 라이브러리 소개

이번 글에서는 데이터 분석에 자주 쓰이는 패키지를 소개하겠습니다. 데이터 분석을 위한 라이브러리 NumPy NumPy (넘파이)는 Numerical Python ("숫자 파이썬")의 약자로 수치 연산을 수행하는 데 사용되는 라이브러리입니다. 넘파이만의 배열 자료구조 (ndarray)를 이용해 파이썬의 기본 리스트와 딕셔너리보다 빠르게 수치계산을 할 수 있습니다. 예제) 아래는 파이썬 range와 넘파이의 arange 함수를 이용하여 숫자 0부터 100만까지 생성한 후, 모든 수의 제곱을 계산하는 데에 걸리는 시간을 비교해본 것입니다. 넘파이의 배열이 훨씬 더 빠르게 계산이 되는 걸 확인할 수 있습니다. pandas 판다스는 데이터 처리 및 분석을 위해 만들어진 패키지입니다. SQL 테이블이나 엑셀 같이 ..

[파이썬] 판다스 pandas csv 파일 불러오기 & 데이터 살펴보기

Pandas 판다스 (Pandas) 라이브러리는 데이터 처리를 위한 라이브러리로 데이터 분석에 많이 사용하는 라이브러리입니다. 판다스의 간단한 소개와 판다스의 두 자료구조인 series와 데이터 프레임은 아래 글에서 확인하실수 있습니다. [파이썬] 판다스 pandas 기초: 판다스의 자료 구조 series와 dataframe 판다스 Pandas 판다스는 파이썬의 라이브러리로 빠르고 쉽게 데이터를 정리하고 분석할 수 있게 해주는 도구입니다. 판다스와 Numpy 넘파이는 아마 데이터 분석/과학 작업에서 함께 많이 쓰이는 라 benn.tistory.com 이번 글에서는 엑셀 파일을 불러오는 방법과 데이터프레임의 갖가지 정보를 알아보기 위해 사용되는 함수를 살펴보겠습니다. csv 파일 불러오기 pandas의 r..

[통계학 with R, Python] t-검정 (t-test)

t-test란? t-test는 두 집단의 평균을 비교하는 검정 방법입니다. 예를 들면, A나라의 사람들의 평균 수명과 B나라의 평균 수명을 비교하는 데에 t-test를 사용할 수 있습니다. 이때 가설은 다음과 같습니다 귀무가설 (null hypothesis): 두 나라의 평균 수명은 차이가 없다. (H₀: µ₁=µ₂) 대립가설 (althernate hypothesis): 두 나라의 평균 수명은 차이가 있다. (H1: µ₁≠µ₂) t-test는 이렇게 두 집단을 비교할 때 사용할 수 있으며 두 집단 이상은 분산분석(ANOVA)을 사용합니다. 또, t-test는 표본이 독립성 (independent), 정규성 (Normally distributed), 등분 산성 (homoscedasticity)을 만족시킨다..

[postgreSQL] 데이터베이스 생성, 테이블 생성 & 데이터 입력

이번 글에서는 psql이나 pgAdmin을 사용하여 데이터베이스 생성, 테이블 생성과 데이터 입력하는 법을 정리해보겠습니다. SQL 쉘(psql)에서 데이터베이스 생성 CREATE DATABASE 이름; SQL 쉘에서 students 데이터베이스를 만들어 보겠습니다. 백 슬래시 + 소문자 L을 입력해주면 데이터베이스 목록을 확인할 수 있습니다. 한글이라 백슬래시 대신 원'\'으로 표시되는 거 참고해주세요 :) 데이터베이스 연결 후 테이블 생성 "백슬래시 + c + 데이터베이스 이름"으로 원하는 데이터베이스에 연결을 먼저 해줍니다. 밑 코드를 사용하여 테이블을 생성해줍니다. 괄호 안에는 칼럼명 + 데이터 타입을 지정해줍니다. CREATE TABLE 테이블이름 (컬럼명1 데이터타입, 컬럼명2 데이터타입); ..

[데이터 분석] 파이썬 Pandas 행, 열 삭제

이번 글에서는 유명한 Iris 데이터셋을 사용하여 판다스를 사용해 원하지 않는 데이터를 삭제하는 방법을 정리해봤습니다. 먼저 판다스 라이브러리를 불러오고 데이터셋을 불러오겠습니다. import pandas as pd iris = pd.read_csv("iris.csv") iris 데이터셋의 첫 5줄을 확인하면 아래와 같습니다. 데이터셋 크기 (행, 열 개수) 확인하기 iris.shape 위 코드를 실행하면 (150, 5)가 출력됩니다. (행, 열) 순서로 iris 데이터셋에는 150개의 행과 5개의 열으 이루어져 있다는 걸 확인할 수 있습니다. 행 삭제하기 1. drop으로 인덱스 index 사용해서 삭제하기 데이터프레임.drop(인덱스)를 사용하여 삭제하고 싶은 행의 인덱스를 입력하면 됩니다. new_..

[Python] 아나콘다 (Anaconda) 다운로드 및 설치하기 feat. 주피터 노트북, 파이썬/콘다 버전 확인

아나콘다 Anaconda 아나콘다 (Anaconda)는 파이썬을 포함한 데이터 과학에 필요한 다양한 언어 및 패키지의 배포입니다. 프로젝트마다 다른 환경을 만드는데도 편리하고 환경마다 필요한 패키지를 설치, 제거 및 변경하기에 용이합니다. Anaconda를 처음 다운로드하면 파이썬 외에 데이터 과학의 일반적인 패키지가 제공되기 때문에 파이썬/데이터 과학을 독학하시는 분들에겐 아나콘다 설치를 많이들 추천합니다. 아나콘다 다운로드 및 링크를 통해 최신 아나콘다 버전을 다운로드합니다. https://www.anaconda.com/products/individual Anaconda | Individual Edition Anaconda's open-source Individual Edition is the eas..

[통계] 결합확률분포 Joint Distributed Random Variables

확률 확률은 어떤 사건이 일어날 가능성의 측도입니다. 자주 두 가지 이상의 사건의 관계를 알아봐야 할 일이 생기는데 그때 알아야 할 확률 유형이 세 가지가 있습니다. 결합 확률 (Joint probability) P(A and B) = P(A, B) 두 사건이 동시에 발생할 확률을 의미합니다. 주변 확률 (Marginal probability) P(A) 또는 P(B) 두 개 이상의 확률변수들의 결합 분포로부터, 그중 하나만의 확률변수에 대한 확률 조건부 확률 (Conditional probability) P(A|B) = 사건 B가 사실일 경우 A의 확률 하나가 사실일 경우의 다른 사건에 대한 확률 두 개의 이산 확률변수 Discrete Random Variable 결합 확률 질량 함수 Joint Prob..

[파이썬] 판다스 pandas 기초: 판다스의 자료 구조 series와 dataframe

판다스 Pandas 판다스는 파이썬의 라이브러리로 빠르고 쉽게 데이터를 정리하고 분석할 수 있게 해주는 도구입니다. 판다스와 Numpy 넘파이는 아마 데이터 분석/과학 작업에서 함께 많이 쓰이는 라이브러리입니다. 다차원 배열 객체를 제공하는 넘파이와 달리 판다스는 표 형식인 Dataframe이라는 객체를 사용합니다. 간단하게 말하면 판다스는 표 형식의 데이터 작업을 위해 설계되었고 넘파이는 숫자 배열 데이터를 작업하는데 가장 적합합니다. 왼쪽: 판다스의 데이터 프레임 오른쪽: 넘파이의 배열 이번 글에서는 판다스의 대표적인 두 자료구조 시리즈Series와 데이터프레임DataFrame에 대해 설명해보겠습니다. 이 글에서 pd는 pandas 라이브러리를 의미하는 것입니다. import pandas as pd ..

728x90
반응형