14주차-MAP and MLE in Linear Regression/ Clustering and EM algorithm

3-1/Data Mining

14주차-MAP and MLE in Linear Regression/ Clustering and EM algorithm

Donghun Kang 2024. 6. 15. 17:23

MAP(Maximun a posterior): 사후확률

주어진 데이터와 사전 정보(prior information)를 모두 고려하여 사후 확률(posterior probability)을 최대화하는 파라미터 값을 찾는 방법.

데이터 D가 주어졌을 때 가설 h의 사후 확률.

MLE(Maximun Likelihood Estimate): 우도예측

주어진 데이터가 관찰될 확률을 최대화하는 파라미터 값을 찾는 방법.

likelihood 항은 데이터의 양 N에 따라 지수적으로 증가하고, 사전 확률은 일정하게 유지된다.
=> 데이터가 많아질수록 MAP추정은 MLE추정에 수렴하게 된다.

즉, 충분한 데이터가 있는 경우, 데이터는 사전 확률(prior)의 영향을 압도하게 된다.

정리

MAP	사전 확률을 고려하여 최대화
MLE	사전 확률을 고려하지 않음

=> 데이터가 많아질수록 MAP는 MLE에 수렴한다.

=> p(h) (prior: 사전확률)가 균등 분포에서 나왔다면, MAP추정은 MLE추정과 동일하다.

Basyesian Concept Learning

parameter vector setha

MLE는 예측단계(prediction phase)가 아니라 학습단계(training phase)에 적용된다.

Linear Regression w/ Gaussian Distribution Likelihood

주어진 데이터셋 D에 대해 모델 또는 파라미터 θ를 결정해야 한다.

Gaussian분포를 사용하는 Linear Regression

모델 형태

주어진 데이터셋 D에 대해 모델 파라미터 θ를 결정

파라미터 θ를 추정하는 일반적인 방법은 MLE를 계산하는 것

훈련 예제가 독립적으로 동일한 분포를 따른다고 가정하는 것이 일반적. log-likelihood는

Deriving MLE

위 과정은 MSE와 동일한 결과를 도출한다.

Revisit Minimizing MSE

Log-likelihood(NLL)

NLL(음의 로그 우도)를 최소화하는 것은 MLE와 동등하다.

Overfitting

예측 모델 또는 머신 러닝 모델이 학습 데이터에 너무 밀접하게 맞춰져서 새로운 데이터에 대한 예측 성능이 떨어지는 현상

MAP와 비교했을 때 MLE의 한계로 지적되는 점이다.
=> MLE는 과적합의 위험이 더 크다.

Solution for Overfitting => MAP or Abundant Data

1. 많은 데이터가 overfitting 방지

2. MAP

- Regression training에서 Posterior공식

- 지금까지 p(w)가 균등 분포를 따른다고 가정했다. 즉, w가 균등 확률 분포를 따른다고 가정했다.

- "w의 흔들림(wiggle)"을 줄이기 위해, 사전 확률 p(w가 평균이 0인 가우시안 분포를 따른다고 가정할 수 있다:

(τ2는 사전 분포의 강도를 조절)

overfitting 문제를 해결하기 위해 사전 확률을 가우시안 분포로 설정하는 MAP 추정 방법을 설명하고 있다.
이를 통해 모델의 복잡도를 조절하고 overfitting을 방지할 수 있습니다.

Performing MAP

- 이는 log-likelihood를 최대화하는 것으로 이어진다.

- 이는 다음을 최소화하는 것과 같다.

Supervied(지도학습): 입력(x)과 출력(y) 쌍을 이용해 학습한다.
UnSupervised: 입력데이터만 주어진다.

Clustering: 대표적인 Unsupervised learning 알고리즘

K-means Clustering

1. 초기 클러스터 중심을 임의로 설정하고, 각 데이터 포인트를 가장 가까운 클러스터 중심에 할당한다.
2. 클러스터 중심을 각 클러스터의 평균으로 업데이트하고, 데이터 포인트 할당을 반복한다.
3. 클러스터링 결과가 더 이상 변하지 않을 때까지 이 과정을 반복한다.

k-Medoids

k-clustering은 이상치(outlier)에 약하다.
=> k-Medoids를 사용하여 이상치의 영향을 줄일 수 있다.

Binomial distribution(이항분포)

N: 시행횟수/ P: 확률

Bernoulli distribution(베르누이 분포)

Multinomial distribution(다항분포)

Categorial distribution(범주형 분포)

covariance matrix(공분산 행렬)

각 특징(feature)들 간에 상관 관계를 나타냄.

Correlation coefficient(상관계수)

The Multivariate Gaussian(다변량 가우시안 분포)

Mixture model(혼합모델)

Gaussian Mixture Model(GMM)

우리는 GMM 클러스터링에서 파라미터 θ를 결정해야 한다.
θ는 다음과 같이 구성된다.
우리는 잠재 변수를 "책임도(responsibility)" 로 정의하며, 이는 다음과 같이 업데이트된다.

- rik를 결정하는 방법은?

Soft clustering

각 데이터 포인트가 여러 클러스터에 속할 확률을 가진다.

Hard clustering

각 데이터 포인트가 정확히 하나의 클러스터에 할당된다.

를 개선하는 방법

업데이트

GMM을 사용한 Hard clustering

EM algorithm

1. Expectation step: 현재 추정된 파라미터 θ를 사용하여 각 데이터 포인트 xi가 각 클러스터 k에 속할 책임도 rik를 계산

=> rik는 다음과 같이 계산

2. Maximization step: 책임도 rik를 사용하여 파라미터 θ={π,μ,Σ}를 업데이트

3. 반복 과정: 기대단계, 최대화 단계는 반복적으로 수행

=> 각 반복에서 파라미터 θ는 점점 더 정확해진다.

=> 알고리즘이 수렴(convergence)할 때까지 계속

'3-1 > Data Mining' 카테고리의 다른 글

13주차-Probability & MLE, MAP (1)	2024.06.07
12주차-Principal Component Analysis (2)	2024.06.02
10주차-AdaBoost & GBM (1)	2024.05.12
9주차-SVM(2) (0)	2024.05.11
7주차-SVM(1) (1)	2024.05.11

현재글14주차-MAP and MLE in Linear Regression/ Clustering and EM algorithm

donghunkang

UNIVERSITY OF SEOUL, AI

Today :
Yesterday :

donghunkang