3-1/Data Mining

14주차-MAP and MLE in Linear Regression/ Clustering and EM algorithm

Donghun Kang 2024. 6. 15. 17:23
  • MAP(Maximun a posterior): 사후확률
주어진 데이터와 사전 정보(prior information)를 모두 고려하여 사후 확률(posterior probability)을 최대화하는 파라미터 값을 찾는 방법.

MAP

데이터 D가 주어졌을 때 가설 h의 사후 확률.

3333MAP
MLE
Prior

  • MLE(Maximun Likelihood Estimate): 우도예측
주어진 데이터가 관찰될 확률을 최대화하는 파라미터 값을 찾는 방법.

MLE

likelihood 항은 데이터의 양 N에 따라 지수적으로 증가하고, 사전 확률은 일정하게 유지된다.
=> 데이터가 많아질수록 MAP추정은 MLE추정에 수렴하게 된다. 
즉, 충분한 데이터가 있는 경우, 데이터는 사전 확률(prior)의 영향을 압도하게 된다. 

 

  • 정리
MAP  사전 확률을 고려하여 최대화
MLE 사전 확률을 고려하지 않음
=> 데이터가 많아질수록 MAP는 MLE에 수렴한다. 

=> p(h) (prior: 사전확률)가 균등 분포에서 나왔다면, MAP추정은 MLE추정과 동일하다. 

 

 

  • Basyesian Concept Learning

  • parameter vector setha

 

  • MLE는 예측단계(prediction phase)가 아니라 학습단계(training phase)에 적용된다.

 

 

  • Linear Regression w/ Gaussian Distribution Likelihood

주어진 데이터셋 D에 대해 모델 또는 파라미터 θ를 결정해야 한다.

 

  • Gaussian분포를 사용하는 Linear Regression
  • 모델 형태

  • 주어진 데이터셋 D에 대해 모델 파라미터 θ를 결정

  • 파라미터 θ를 추정하는 일반적인 방법은 MLE를 계산하는 것

  • 훈련 예제가 독립적으로 동일한 분포를 따른다고 가정하는 것이 일반적. log-likelihood는 

 

  • Deriving MLE

위 과정은 MSE와 동일한 결과를 도출한다.

 

  • Revisit Minimizing MSE

  • Log-likelihood(NLL)

NLL(음의 로그 우도)를 최소화하는 것은 MLE와 동등하다. 

 

  • Overfitting
예측 모델 또는 머신 러닝 모델이 학습 데이터에 너무 밀접하게 맞춰져서 새로운 데이터에 대한 예측 성능이 떨어지는 현상
MAP와 비교했을 때 MLE의 한계로 지적되는 점이다.
=> MLE는 과적합의 위험이 더 크다.

 

  • Solution for Overfitting => MAP or Abundant Data

1. 많은 데이터가 overfitting 방지 

2. MAP

- Regression training에서 Posterior공식

- 지금까지 p(w)가 균등 분포를 따른다고 가정했다. 즉, w가 균등 확률 분포를 따른다고 가정했다.

- "w의 흔들림(wiggle)"을 줄이기 위해, 사전 확률 p(w가 평균이 0인 가우시안 분포를 따른다고 가정할 수 있다:

(τ2는 사전 분포의 강도를 조절)

overfitting 문제를 해결하기 위해 사전 확률을 가우시안 분포로 설정하는 MAP 추정 방법을 설명하고 있다.
이를 통해 모델의 복잡도를 조절하고 overfitting을 방지할 수 있습니다.

 

  • Performing MAP

 

- 이는 log-likelihood를 최대화하는 것으로 이어진다.

- 이는 다음을 최소화하는 것과 같다.

 

 

  • Supervied(지도학습): 입력(x)과 출력(y) 쌍을 이용해 학습한다.
  • UnSupervised: 입력데이터만 주어진다.

Clustering: 대표적인 Unsupervised learning 알고리즘

 

  • K-means Clustering
1. 초기 클러스터 중심을 임의로 설정하고, 각 데이터 포인트를 가장 가까운 클러스터 중심에 할당한다.
2. 클러스터 중심을 각 클러스터의 평균으로 업데이트하고, 데이터 포인트 할당을 반복한다.
3. 클러스터링 결과가 더 이상 변하지 않을 때까지 이 과정을 반복한다.

 

  • k-Medoids
k-clustering은 이상치(outlier)에 약하다. 
=> k-Medoids를 사용하여 이상치의 영향을 줄일 수 있다.

 

 

  • Binomial distribution(이항분포)
N: 시행횟수/  P: 확률

  • Bernoulli distribution(베르누이 분포)
  • Multinomial distribution(다항분포)

  • Categorial distribution(범주형 분포)

 

  • covariance matrix(공분산 행렬)
각 특징(feature)들 간에 상관 관계를 나타냄.

  • Correlation coefficient(상관계수)

 

  • The Multivariate Gaussian(다변량 가우시안 분포)

평균 벡터로 D차원 공간에서 각 변수의 평균 값
DxD 공분산 행렬로, 각 변수 간의 공분산(대칭행렬)

 

  • Mixture model(혼합모델)

  • Gaussian Mixture Model(GMM)

우리는 GMM 클러스터링에서 파라미터 θ를 결정해야 한다.
θ는 다음과 같이 구성된다.
우리는 잠재 변수를 "책임도(responsibility)" 로 정의하며, 이는 다음과 같이 업데이트된다.

 

- rik를 결정하는 방법은?

 

  • Soft clustering
각 데이터 포인트가 여러 클러스터에 속할 확률을 가진다.

 

  • Hard clustering
각 데이터 포인트가 정확히 하나의 클러스터에 할당된다.

 

  • 를 개선하는 방법

업데이트

 

  • GMM을 사용한 Hard clustering

 

  • EM algorithm

1. Expectation step: 현재 추정된 파라미터 θ를 사용하여 각 데이터 포인트 xi가 각 클러스터 k에 속할 책임도 rik를 계산

=> rik는 다음과 같이 계산

2. Maximization step: 책임도 rik를 사용하여 파라미터 θ={π,μ,Σ}를 업데이트

3. 반복 과정: 기대단계, 최대화 단계는 반복적으로 수행

=> 각 반복에서 파라미터 θ는 점점 더 정확해진다. 

=> 알고리즘이 수렴(convergence)할 때까지 계속

'3-1 > Data Mining' 카테고리의 다른 글

13주차-Probability & MLE, MAP  (1) 2024.06.07
12주차-Principal Component Analysis  (2) 2024.06.02
10주차-AdaBoost & GBM  (1) 2024.05.12
9주차-SVM(2)  (0) 2024.05.11
7주차-SVM(1)  (1) 2024.05.11