728x90
반응형

데이터과학 7

데이터 과학자가 알아야 할 수학: 얼마나 알아야 할까?

데이터 과학에 얼마나 많은 수학이 필요한가? 최근 몇 년간 데이터 과학은 주목받는 직업 중 하나로 자리 잡았다. 데이터 과학은 컴퓨터 과학, 통계학/수학, 그리고 도메인 지식을 결합한 다학문적(interdisciplinary) 분야로, 데이터를 분석하고 인사이트를 도출하며 의사결정을 지원하는 데 핵심적인 역할을 한다. 데이터 과학자의 역할은 회사와 상황에 따라 다양하지만, 이번 글에서는 데이터 과학에서 일반적으로 요구되는 수학적 지식의 수준을 정리해 보았다.  이 글은 호주에서 일하고 있는 사람이 작성한 만큼, 다른 상황에서는 다를 수 있습니다. 여러분의 경험과 의견이 다르다면 댓글로 자유롭게 공유해 주세요!  데이터 과학자에게 수학이 필요한 이유데이터 과학의 핵심은 데이터를 이해하고 이를 기반으로 정보..

[통계] p값 이해하기

왜 p-value가 중요한가?데이터 과학 분야에서도 p값을 자주 볼 수 있다. 모델 검증, 특징 선택, 가설 검정에서 핵심 역할을 하며, 데이터 과학자가 신뢰할 수 있는 통찰을 도출할 수 있도록 돕는다. UI의 A/B 테스트, 머신러닝 결과 해석 등에서 p값은 불확실성을 정량화하고 근거 있는 결정을 내리는 데 기여한다. 실험이나 연구 결과가 통계적으로 유의미한지, 즉 관찰된 효과가 진짜일 가능성이 높은지 아니면 단순히 우연에 의한 것인지 판단하는 데 도움을 준다.  p-value란 무엇인가요?p값은 귀무 가설이 맞다고 가정했을 때, 실제로 관찰된 결과와 같거나 더 극단적인 결과가 나올 확률을 의미한다. 1. 귀무가설 (null hypothesis, H₀): 비교의 기준이 되는 기본 가정입니다.예를 들어,..

[머신러닝] 생성적 적대 신경망 Generative Adversarial Network (GAN) 정리

생성적 적대 네트워크 GAN이란?생성적 적대 신경망(Generative Adversarial Network, GAN)은 새로운 데이터를 생성하는 머신러닝 시스템입니다. 이 인공지능 기술은 실제와 거의 구별할 수 없는 이미지, 텍스트, 음성, 동영상을 만들어내는 능력을 가지고 있습니다.  예를 들어, 페이스북 팀이 개발한 ExGAN은 in-painting GAN의 일종입니다. 아래 이미지에서 첫 번째 열은 원본 이미지, 두 번째 열은 기존 in-painting GAN을 사용해 눈 부위를 생성한 결과이며, 세 번째와 네 번째 열은 페이스북의 ExGAN이 생성한 눈 이미지입니다.🖌 in-painting GAN이란 사진에서 지워진 부분을 채워 넣는 GAN의 한 종류입니다.    이외에도 GAN은 이미지 분야에..

[Python] 아나콘다 (Anaconda) 다운로드 및 설치하기 feat. 주피터 노트북, 파이썬/콘다 버전 확인

아나콘다 Anaconda 아나콘다 (Anaconda)는 파이썬을 포함한 데이터 과학에 필요한 다양한 언어 및 패키지의 배포입니다. 프로젝트마다 다른 환경을 만드는데도 편리하고 환경마다 필요한 패키지를 설치, 제거 및 변경하기에 용이합니다. Anaconda를 처음 다운로드하면 파이썬 외에 데이터 과학의 일반적인 패키지가 제공되기 때문에 파이썬/데이터 과학을 독학하시는 분들에겐 아나콘다 설치를 많이들 추천합니다. 아나콘다 다운로드 및 링크를 통해 최신 아나콘다 버전을 다운로드합니다. https://www.anaconda.com/products/individual Anaconda | Individual Edition Anaconda's open-source Individual Edition is the eas..

[파이썬] 판다스 pandas 기초: 판다스의 자료 구조 series와 dataframe

판다스 Pandas 판다스는 파이썬의 라이브러리로 빠르고 쉽게 데이터를 정리하고 분석할 수 있게 해주는 도구입니다. 판다스와 Numpy 넘파이는 아마 데이터 분석/과학 작업에서 함께 많이 쓰이는 라이브러리입니다. 다차원 배열 객체를 제공하는 넘파이와 달리 판다스는 표 형식인 Dataframe이라는 객체를 사용합니다. 간단하게 말하면 판다스는 표 형식의 데이터 작업을 위해 설계되었고 넘파이는 숫자 배열 데이터를 작업하는데 가장 적합합니다. 왼쪽: 판다스의 데이터 프레임 오른쪽: 넘파이의 배열 이번 글에서는 판다스의 대표적인 두 자료구조 시리즈Series와 데이터프레임DataFrame에 대해 설명해보겠습니다. 이 글에서 pd는 pandas 라이브러리를 의미하는 것입니다. import pandas as pd ..

[데이터 분석] 혼동행렬 Confusion Matrix (R과 Python 코드)

분류 모델 평가하기 이번 글에서는 분류 모델을 검증하는 단계에 쓰이는 혼동행렬 confusion matrix에 대해 설명해 보겠습니다. 분류 모델의 예로는 스팸 메일인지 아닌지 분류, 타이타닉호에서 생존자 예측하기, MNIST 손글씨 분류가 있습니다. 완벽한 분류 모델이 아닌 이상 분류하는 모델이 잘못된 분류를 할 수 돼있습니다. 예를 들면, 스팸이라고 분류를 했지만 스팸이 아니거나, 스팸이 아니라고 했지만 스팸이거나! 밑과 같이 모형이 예측한 값과 실제 값을 정리한 행렬을 혼동행렬이라고 합니다. 실제 (Actual) Positive Negative 예측 (predicted) Positive True Positive (TP) False Positive (FP) Negative False Negative ..

[머신러닝] 머신러닝이란? (Feat. 지도학습 & 비지도학습)

머신러닝이란 컴퓨터(machine)가 데이터를 통해 무언가를 스스로 배우게 (learning)하는 방식이다. 그러므로 데이터가 많을수록! 깨끗할수록! 컴퓨터는 더 잘 배우게 되어 있다. 벌써 머신러닝은 많은 분야에서 우리에게 큰 도움을 주고 있다. 예를 들면 이메일이 들어왔을 때 스팸 이메일을 따로 분류를 해준다거나 내가 본 유튜브/넷플릭스 영상을 토대로 추천 동영상을 보여준다거나. 이 외에도 챗봇들, 네이버에 눈살 찌푸리게 만드는 댓글을 막아주는 봇들, 얼굴 인식, 음성 인식 등등... 이렇게 기계는 배우고 우리에게 편리함을 제공하고 있다. 머신러닝 (기계학습) 두 가지 방식 머신러닝은 크게 두가지로 분류된다. 지도 학습과 비지도 학습 1. 지도 학습 Supervised Learning 기계가 배우는 ..

728x90
반응형