목록Machine Learning (21)
ROKO

Overview PCA = linear AE PCA ~ MF MF는 matrix completion 문제로 확장하여 볼 수 있다 PCA와 MF의 차이점은 무엇일까? Matrix Factorization은 SVD(Singular Value Decompostion)를 활용하기 때문에 정확히 비교하자면 PCA vs SVD를 살펴보아야한다. PCA -> \(X ≈ UZ\) SVD -> \(X = U\Sigma V^T\) \(X\)가 mXn matrix라고 했을때, \(U\)는 mXm matrix인 orthonormal columns 이다. \(V\)는 nXn matrix인 orthonormal rows이다. \(\Sigma\)은 mXn diagonal matrix로써 min(m,n) 개수(rank)만큼의 non..
통계학: 관찰 및 조사를 통해 얻은 데이터로부터 수치적 성질, 규칙성을 찾아내는 학문 분야통계학 분야Descriptive Statistics (서술적 통계학)데이터 표본 특징을 정량적으로 표현데이터 표본 축약, 분석Inferential Statistics (유추적 통계학) or Inductive Statistics (귀납적 통계학)데이터 표본을 통해 모집단의 정보를 추론확률: 불확실한 어떠한 일이 발생할 가능성이나 믿음의 정도확률의 정의주관적 정의주관적인 믿음의 척도를 이용하여 확률을 정의고전적 확률표본의 결과가 유한하고, 나타날 확률이 같다는 가정하에 정의\(P(A)=\frac{사건 A의 경우의 수}{전체(표본공간) 표본공간의 수}\)표본공간이 무한할 경우 정의하기 어려움통계적 확률N번의 시행에서 사건..
http://www.yes24.com/Product/Goods/97032765 선형대수와 통계학으로 배우는 머신러닝 with 파이썬 - YES24머신러닝에 필요한 선형대수, 통계학, 최적화 이론부터파이썬, 사이킷런, 텐서플로를 활용한 실습까지『선형대수와 통계학으로 배우는 머신러닝 with 파이썬』은 머신러닝의 기본적인 사용 방www.yes24.com위 책을 기준으로 간략히 정리하였다.Matrix (행렬)행과 열로 이우러진 집합.n차원으로 확장시 matrix가 아닌 tensor라고 부른다. Diagonal matrix (대각행렬)대각원소를 제외한 모든 element가 0인 행렬만약 대각원소가 1이라면 단위 행렬 identity(I)라고 부른다. Transposed matrix (전치 행렬)\(A=(a_{i..

mixture model 비지도 학습에는 label k가 없기에 latent z를 사용한다. \(p(x)=\sum_zp(x,z)=\sum_zp(x|z)p(z)\) 대표적인 mixture model인 GMM을 알아보자. GMM은 더 일반화된 분포를 다룰수 있다. \(p(x)=\sum_{k=1}^K\pi_kN(x|\mu_k,\sum_k),\pi_k\) : mixing coefficients \(\sum_{k=1}^K\pi_k=1,\pi_k\geq0, \forall k\) GMM은 밀도추정을 하고 universarial approximator 이다. 심지어 diagonal GMM 또한 universarial approximator이다. MLE \(lnp(X|\pi,\mu,\sum)=\sum_{n=1}^Nln(..

density modeling 중 nonparametric방식으로 latent data 없이 모두 관측 가능한 데이터셋에 대해 적용하는 기법이다. latent variable이 있거나 never observed 되는 부분이 있는 데이터라면 latent variable models이라고 부른다. Clustering 비슷한 데이터끼리 집합으로 모으는 방식으로 다른 집합끼리는 데이터끼리도 서로 다르다. label없이 데이터의 유사도끼리 grouping 하는 걸 clustering 이라고 한다. 이때 유사도를 어떤 metric으로 결정하냐에 따라서 다양한 cluster가 생성된다. 위의 예시는 multiple modes가 있으므로 multimodal distribution이라고 부른다. k-means intui..

Discriminative models : P(Y|X)을 바로 추정하는 확률모델 Generative models : P(X|Y)를 추정하는 확률 모델 생성모델의 의미 X가 어떤 class인지 확률을 아는 것보다 class를 대표하는 데이터는 어떠한 형태일까를 추정하는게 더 좋지 않을까? Bayes Classifier \(h(x)=\underset{k}{argmax}p(t=k|x)\) \(=\underset{k}{argmax}\frac{p(x|t=k)p(t=k)}{p(x)}\) \(=\underset{k}{argmax}p(x|t=k)p(t=k)\) What if x is discrete or continous? x 변수가 이산형 분포인지 연속형 분포인지에 따라 생각해보자는 의미이다. https://www...

이전 포스트에서는 MLE 방식을 통해 롹률모델을 최적화하는 방법을 알아보았다. Maximum likelihood(MLE)의 단점 Data sparsity -> overfitting 최대 가능도에 대한 확률을 데이터셋의 분포를 통해 결정하므로 데이터가 적은 경우나 편향 된 경우 잘못 추정할 수 있다. Bayesian parameter estimation MLE에서 dataset을 random variable로 보지만, parameter는 그렇지 않다. Bayesian approach는 parameters 또한 prioir로부터 얻어진 random variable로 본다. Bayesian model을 정의하기 위해서는 prior distribution과 likelihood 가 필요하다. Posterior d..

확률은 빈도주의와 베이지안 관점 2가지로 나뉜다. 빈도주의는 큰 수의 법칙을 이용해 반복적으로 관측할 수 있는 사건을 확률로 정의하고, 베이지안은 어떠한 사건이든 각각 다른 확률로 사건이 일어날 믿음의 정도를 기준으로 확률을 정의한다. 큰 차이는 빈도주의는 확률이 고정적이나 베이지안 추가적인 관측에 따라 믿음의 정도(확률)가 달라진다. 주사위에서 1이 나올 확률은 무엇일까? (빈도주의) 1/6 (베이지안) 특정 불가 Why? (빈도주의) 주사위를 반복적으로 큰 수 만큼 던지며 1/6에 근사하는 것을 보고 무한번 던지면 1/6이 될것이라고 믿는다. (베이지안) 자연계의 모든 확률을 고려하여 1이 나올 확률, 정확히는 알 수 없음 이번엔 우도,가능도의 관점에서 빈도주의와 베이지안의 차이점을 보자. 주사위에서..
MLOps 는 AI기술을 서비스에 접목시키며 발생하는 문제점들을 해결하기 위해 DevOps + AI를 합쳐 MLOps라는 개념이 탄생하게 되었다. 각 문서를 편집하여 좋은 글로 쓰는 것도 좋지만 애초에 잘 정리된 글이 있다면 그 블로그를 첨부하는 것이 좋다는 생각에 링크를 참조하였다. Don't reinvent the wheel https://mlops-for-all.github.io/docs/introduction/intro/ 1. What is MLOps? Introduction to MLOps mlops-for-all.github.io

Unsupervised learning algorithm How to? Dimension reduction Save memory / computation Reduce overfitting Visualize in 2 Dimension (must 2? well,,not necessary) Linear model with closed form Dimension reduction Projection onto a subspace \(Set-up : D=\{X^{(1)},\cdots,X^{(N)} \}\) \(\mu=\frac{1}{N}\sum_{i=1}^N X^i\) Goal : find a K-dimensional subspace \(S \in R^D s\cdot t X^i-\mu\) is well repres..