3-1/Data Mining 11

14주차-MAP and MLE in Linear Regression/ Clustering and EM algorithm

MAP(Maximun a posterior): 사후확률주어진 데이터와 사전 정보(prior information)를 모두 고려하여 사후 확률(posterior probability)을 최대화하는 파라미터 값을 찾는 방법.데이터 D가 주어졌을 때 가설 h의 사후 확률.MLE(Maximun Likelihood Estimate): 우도예측주어진 데이터가 관찰될 확률을 최대화하는 파라미터 값을 찾는 방법.likelihood 항은 데이터의 양 N에 따라 지수적으로 증가하고, 사전 확률은 일정하게 유지된다.=> 데이터가 많아질수록 MAP추정은 MLE추정에 수렴하게 된다. 즉, 충분한 데이터가 있는 경우, 데이터는 사전 확률(prior)의 영향을 압도하게 된다.  정리MAP 사전 확률을 고려하여 최대화MLE사전 확률..

3-1/Data Mining 2024.06.15

13주차-Probability & MLE, MAP

확률변수(Random Variable)랜덤변수 X를 확률공간 (S,P)을 실수선 R로 매핑하는 함수. 이산확률변수(Discrete Random Variable(RV))- X라는 유한하거나 셀 수 있는 무한집합을 고려한다.- 이산확률변수 X의 경우, 사건 X=x의 확률은 P(X=x) or P(x)로 나타내며, x는 X의 원소이다.- 여기서 P()는 확률 질량 함수(PMF, Probability Mass Function)라고 한다.확률질량함수(PMF): 확률 변수가 특정 값을 가질 확률을 나타내는 함수.EX) 주사위, 동전 던지기 => X = {1,2,3,4,5,6}, X = {0,1} 연속확률변수(Continuous RV)- X가 어떤 불확실한 연속량이라고 가정.- X가 구간 a- A = (X- P(B) ..

3-1/Data Mining 2024.06.07

12주차-Principal Component Analysis

Eigenvalue(고유값) & Eigenvector(고유벡터)정방행렬 A에 대하여 Ax = λx  (상수 λ) 가 성립하는 0이 아닌 벡터 x가 존재할 때 상수 λ 를 행렬 A의 고유값 (eigenvalue), x 를 이에 대응하는 고유벡터 (eigenvector) 라고 합니다.   EX) Non-trivial solution(비자명해) EX)  Eigendecomposition(고유값 분해) Q) 모든 eigenvectors가 서로 orthogonal한가?A) A가 서로 symmetric(대칭)한 경우 yes! EX) Usecase of Eigendecomposition  Eigendecomposition for Symmetric matrix(대각행렬) EX) A는 3X3 symmetric matir..

3-1/Data Mining 2024.06.02

10주차-AdaBoost & GBM

Boosting: AdaBoostAdaBoost idea- strong model VS weak model무작위 추측보다 성능이 약간 더 나은 Weak model을 임의로 정확한 Strong model로 향상 - 각 라운드마다 새로운 모델을 훈련하여 순차적으로(병렬적X) 모델을 훈련- 각 라운드가 끝나면 잘못 분류된 예제가 식별되고 새 훈련세트에서 강도가 증가되어 다음 라운드로 피드백된다.- 이전 모델에서 발생한 오류는 후속 모델에서 보완 가능=> 병렬처리가 X (동시에 진행 X) EX) Stump Tree: 노드 하나에 두개의 리프를 지닌 트리 => 하나의 질문으로 데이터를 분류(weak model) EX)1. Round 1, First Stump Tree틀린 데이터를 강조 2. Round 2, Sec..

3-1/Data Mining 2024.05.12

9주차-SVM(2)

​Support Vector Machine with Soft Margin전략 1. 예외를 허락2. 넘어가는 정도를 penalty로 정의3. penalty도 최소화(margin을 최대화와 동시에)​Soft margin Support vector machine Lagrangrian Primal problem Lagrangian Dual Formulation  KKT Condition​ Support Vector Machine with Kernel Tricknon linear D.B(decision boundary) => 모델이 복잡 => 여전히 linear D.B 사용하면서도 해당 문제를 해결 => Kernel Trick​Q) Decision Boundary가 선형이 아니라면?A) 매핑함수를 이용해 입력벡터..

3-1/Data Mining 2024.05.11

6주차-Random Forest

Decision Tree:설명력 우수 (중요한feature 확인할 수 있다.-rootnode), 스케일링이 필요하지 않다. -Ensemble (앙상블): 여러 Base 모델들의 예측을 다수결 법칙 또는 평균을 이용해 통합하여 예측 정확도를 향상시키는 방법->다음 조건 만족시 Ensemble model은 Base model보다 성능이 좋다.-> Base model들이 서로 독립적 (diversity)-> Base model들이 무작위 예측을 수행하는 model보다 성능이 좋은 경우EX) Base model 각각 성능이 0.5(무작위) 보다는 좋아야 한다.=> Decision Tree는 Ensemble model의 base 모델로써 활용도 높다-> 데이터의 크기가 방대한 경우에도 모델을 빨리 구축 가능-> ..

3-1/Data Mining 2024.05.11

5주차-Decision Tree

Decision Tree (의사결정나무): 데이터에 내제되어 있는 패턴을 변수의 종합으로 나타내는 예측/ 분류 모델을 Tree형태로 만든 것 Data => Algorithm => Model(Output) ->데이터를 2개 혹은 그 이상의 부분집합으로 분할 (데이터가 균일해지록 분할)->분류(Classification): 비슷한 범주(impurity낮다)를 갖고 있는 관측치끼리 모음->예측(Regression): 비슷한 수치(분산 낮다)를 갖고 있는 관측치끼리 모음->끝마디의 수만큼의 분류 규칙을 가진다.-Regression Tree-> Leaf node: 5개 -> 데이터를 m개로 분할-> 최상의 분할은 다음 비용함수(cost function)를 최소로 할 때 얻어짐-> 각 분할에 있는 y값들의 평균으로..

3-1/Data Mining 2024.05.11

4주차-Linear Models

-Deterministic: 확정적인 관계, X variable만으로 Y variable을 전부 표현-Stochastic: 확률적인 관계, X variable과 error로 Y variable을 표현 Linear Regression: 입력 변수 X와 출력 변수 Y의 평균 사이의 관계를 나타내는 직선을 찾는다.-Assumption of error1) 정규화 2) 비편향성 3) 등분산성 4) 독립성 -Parameter 찾기Linear regression + regularization-Regularized regression -> 만약 어떤 특정한 w의 값에 따라서 모델의 추론 값이 크게 달라진다면 variance가 높아진다. 1. Linear regression2. Ridge regression (L2 re..

3-1/Data Mining 2024.05.11

3주차-K Nearest Neighbors

-Model-Based Learning-> training data를 이용하여 모델 구축-> model을 사용하여 예측 -Instance-Based Learning-> hyperparameters결정-> 새로운 instance를 training data와 비교하며 예측=> training 시간이 적게 걸리지만 예측에 더 많은 시간 소요, 시간이 지남에 따라 점진적으로 training data를 사용할 수 있을 때 유리 -K-nearest Neighbors-> (Instance-Based Learning) 새로운 데이터 포인트를 예측하기 위해 training data set에서 가장 가까운 이웃을 찾는다.-> 예측은 가장 가까운 이웃에 대한 알려진 출력의 집계ClassificationRegression-H..

3-1/Data Mining 2024.05.11