'3-1/Data Mining' 카테고리의 글 목록

14주차-MAP and MLE in Linear Regression/ Clustering and EM algorithm

MAP(Maximun a posterior): 사후확률주어진 데이터와 사전 정보(prior information)를 모두 고려하여 사후 확률(posterior probability)을 최대화하는 파라미터 값을 찾는 방법.데이터 D가 주어졌을 때 가설 h의 사후 확률.MLE(Maximun Likelihood Estimate): 우도예측주어진 데이터가 관찰될 확률을 최대화하는 파라미터 값을 찾는 방법.likelihood 항은 데이터의 양 N에 따라 지수적으로 증가하고, 사전 확률은 일정하게 유지된다.=> 데이터가 많아질수록 MAP추정은 MLE추정에 수렴하게 된다. 즉, 충분한 데이터가 있는 경우, 데이터는 사전 확률(prior)의 영향을 압도하게 된다. 정리MAP 사전 확률을 고려하여 최대화MLE사전 확률..

3-1/Data Mining 2024.06.15

13주차-Probability & MLE, MAP

확률변수(Random Variable)랜덤변수 X를 확률공간 (S,P)을 실수선 R로 매핑하는 함수. 이산확률변수(Discrete Random Variable(RV))- X라는 유한하거나 셀 수 있는 무한집합을 고려한다.- 이산확률변수 X의 경우, 사건 X=x의 확률은 P(X=x) or P(x)로 나타내며, x는 X의 원소이다.- 여기서 P()는 확률 질량 함수(PMF, Probability Mass Function)라고 한다.확률질량함수(PMF): 확률 변수가 특정 값을 가질 확률을 나타내는 함수.EX) 주사위, 동전 던지기 => X = {1,2,3,4,5,6}, X = {0,1} 연속확률변수(Continuous RV)- X가 어떤 불확실한 연속량이라고 가정.- X가 구간 a- A = (X- P(B) ..

3-1/Data Mining 2024.06.07

12주차-Principal Component Analysis

Eigenvalue(고유값) & Eigenvector(고유벡터)정방행렬 A에 대하여 Ax = λx (상수 λ) 가 성립하는 0이 아닌 벡터 x가 존재할 때 상수 λ 를 행렬 A의 고유값 (eigenvalue), x 를 이에 대응하는 고유벡터 (eigenvector) 라고 합니다. EX) Non-trivial solution(비자명해) EX) Eigendecomposition(고유값 분해) Q) 모든 eigenvectors가 서로 orthogonal한가?A) A가 서로 symmetric(대칭)한 경우 yes! EX) Usecase of Eigendecomposition Eigendecomposition for Symmetric matrix(대각행렬) EX) A는 3X3 symmetric matir..

3-1/Data Mining 2024.06.02

10주차-AdaBoost & GBM

Boosting: AdaBoostAdaBoost idea- strong model VS weak model무작위 추측보다 성능이 약간 더 나은 Weak model을 임의로 정확한 Strong model로 향상 - 각 라운드마다 새로운 모델을 훈련하여 순차적으로(병렬적X) 모델을 훈련- 각 라운드가 끝나면 잘못 분류된 예제가 식별되고 새 훈련세트에서 강도가 증가되어 다음 라운드로 피드백된다.- 이전 모델에서 발생한 오류는 후속 모델에서 보완 가능=> 병렬처리가 X (동시에 진행 X) EX) Stump Tree: 노드 하나에 두개의 리프를 지닌 트리 => 하나의 질문으로 데이터를 분류(weak model) EX)1. Round 1, First Stump Tree틀린 데이터를 강조 2. Round 2, Sec..

3-1/Data Mining 2024.05.12

9주차-SVM(2)

Support Vector Machine with Soft Margin전략 1. 예외를 허락2. 넘어가는 정도를 penalty로 정의3. penalty도 최소화(margin을 최대화와 동시에)Soft margin Support vector machine Lagrangrian Primal problem Lagrangian Dual Formulation KKT Condition Support Vector Machine with Kernel Tricknon linear D.B(decision boundary) => 모델이 복잡 => 여전히 linear D.B 사용하면서도 해당 문제를 해결 => Kernel TrickQ) Decision Boundary가 선형이 아니라면?A) 매핑함수를 이용해 입력벡터..

3-1/Data Mining 2024.05.11

7주차-SVM(1)

-SVM(Support Vector Machine): 의사결정 함수가 직접 일반화 능력을 최대화하는 방식으로 훈련/ 통계학습 이론을 기반으로 함-Hyperplane(초평면)

3-1/Data Mining 2024.05.11

6주차-Random Forest

Decision Tree:설명력 우수 (중요한feature 확인할 수 있다.-rootnode), 스케일링이 필요하지 않다. -Ensemble (앙상블): 여러 Base 모델들의 예측을 다수결 법칙 또는 평균을 이용해 통합하여 예측 정확도를 향상시키는 방법->다음 조건 만족시 Ensemble model은 Base model보다 성능이 좋다.-> Base model들이 서로 독립적 (diversity)-> Base model들이 무작위 예측을 수행하는 model보다 성능이 좋은 경우EX) Base model 각각 성능이 0.5(무작위) 보다는 좋아야 한다.=> Decision Tree는 Ensemble model의 base 모델로써 활용도 높다-> 데이터의 크기가 방대한 경우에도 모델을 빨리 구축 가능-> ..

3-1/Data Mining 2024.05.11

5주차-Decision Tree

Decision Tree (의사결정나무): 데이터에 내제되어 있는 패턴을 변수의 종합으로 나타내는 예측/ 분류 모델을 Tree형태로 만든 것 Data => Algorithm => Model(Output) ->데이터를 2개 혹은 그 이상의 부분집합으로 분할 (데이터가 균일해지록 분할)->분류(Classification): 비슷한 범주(impurity낮다)를 갖고 있는 관측치끼리 모음->예측(Regression): 비슷한 수치(분산 낮다)를 갖고 있는 관측치끼리 모음->끝마디의 수만큼의 분류 규칙을 가진다.-Regression Tree-> Leaf node: 5개 -> 데이터를 m개로 분할-> 최상의 분할은 다음 비용함수(cost function)를 최소로 할 때 얻어짐-> 각 분할에 있는 y값들의 평균으로..

3-1/Data Mining 2024.05.11

4주차-Linear Models

-Deterministic: 확정적인 관계, X variable만으로 Y variable을 전부 표현-Stochastic: 확률적인 관계, X variable과 error로 Y variable을 표현 Linear Regression: 입력 변수 X와 출력 변수 Y의 평균 사이의 관계를 나타내는 직선을 찾는다.-Assumption of error1) 정규화 2) 비편향성 3) 등분산성 4) 독립성 -Parameter 찾기Linear regression ＋ regularization-Regularized regression -> 만약 어떤 특정한 w의 값에 따라서 모델의 추론 값이 크게 달라진다면 variance가 높아진다. 1. Linear regression2. Ridge regression (L2 re..

3-1/Data Mining 2024.05.11

3주차-K Nearest Neighbors

-Model-Based Learning-> training data를 이용하여 모델 구축-> model을 사용하여 예측 -Instance-Based Learning-> hyperparameters결정-> 새로운 instance를 training data와 비교하며 예측=> training 시간이 적게 걸리지만 예측에 더 많은 시간 소요, 시간이 지남에 따라 점진적으로 training data를 사용할 수 있을 때 유리 -K-nearest Neighbors-> (Instance-Based Learning) 새로운 데이터 포인트를 예측하기 위해 training data set에서 가장 가까운 이웃을 찾는다.-> 예측은 가장 가까운 이웃에 대한 알려진 출력의 집계ClassificationRegression-H..

3-1/Data Mining 2024.05.11

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

donghunkang

3-1/Data Mining 11

티스토리툴바