- Boosting: AdaBoost
- AdaBoost idea
- strong model VS weak model
무작위 추측보다 성능이 약간 더 나은 Weak model을 임의로 정확한 Strong model로 향상
- 각 라운드마다 새로운 모델을 훈련하여 순차적으로(병렬적X) 모델을 훈련
- 각 라운드가 끝나면 잘못 분류된 예제가 식별되고 새 훈련세트에서 강도가 증가되어 다음 라운드로 피드백된다.
- 이전 모델에서 발생한 오류는 후속 모델에서 보완 가능
=> 병렬처리가 X (동시에 진행 X)
EX)
- Stump Tree: 노드 하나에 두개의 리프를 지닌 트리
=> 하나의 질문으로 데이터를 분류(weak model)
EX)
1. Round 1, First Stump Tree
틀린 데이터를 강조
2. Round 2, Second Stump Tree
틀린 데이터를 강조
3. Final Classifier
- AdaBoosting Algorithm
EX)
Gini Index 가장 낮은 걸 첫번째 Stump Tree로
- Amount fo say: 최종 분류에 있어서 해당 Stump가 얼마만큼의 영향을 주는가
=> sample weight의 합이 1이 아니기 때문에 정규화 진행 (각 weight를 모든 weight의 합으로 나눔)
0.05/ 0.68 = 0.07, 0.33/ 0.68 = 0.5
=> 다음과 같이 여러번 진행하면 각 Stump Tree마다의 Amount of say가 나온다.
Total amount of say가 더 큰 Heart Disease가 있다고 분류
- GBM(Gradient Boosting Machine) = Gradient Desent + Boosting
- AdaBoost VS Gradient Boost
각 단계마다 기존 weak leaner의 단점을 보완하기 위해 weak leaner 를 도입합니다.
AdaBoost: 단점(shortcomings)이 가중치 높은 데이터 포인트로 식별된다.
Gradient Boosting: 단점(shortcomings)이 gradients로 식별된다.
=> 가중치가 높은 데이터 포인트와 기울기는 모두 모델을 개선하는 방법을 알려줍니다
- GBM Idea
- How is this idea related to the gradient?
1. Loss function of the ordinary least square (OLS)
2. Gradient of the Loss function
3. Residuals are the negative gradient of the loss function
EX)
=> Overfitting위험 (learning rate활용)
- learnin rate: 0~1사이의 값, Residual을 예측하는 모델에 학습률을 곱해줘 overfitting해결
learning rate 0.1로 설정
=> new Pseudo Residual = 88 - (71.2+0.1*16.8) = 15.1
- Loss function for Regression
- Loss function for Classification
- GBM Regularization
- Subsampling
- 각 학습 반복에서 훈련 데이터의 무작위 부분(80%)만 연속 기본 학습기를 피팅하는 데 사용됩니다.
- 훈련 데이터는 일반적으로 교체 없이 샘플링되지만 배깅도 허용될 수 있습니다.
- Shrinkage(Learning rate)
- 각 추가 fitted based-learners의 영향을 줄이는 데 사용됩니다.
- 더 적은 수의 큰 단계를 수행하는 것보다 많은 작은 단계를 수행하여 모델을 개선하는 것이 더 좋다.
- Early Stopping
-Validation error를 사용
- Variable Importance in Tree-based Gradient Boosting
'3-1 > Data Mining' 카테고리의 다른 글
13주차-Probability & MLE, MAP (1) | 2024.06.07 |
---|---|
12주차-Principal Component Analysis (3) | 2024.06.02 |
9주차-SVM(2) (0) | 2024.05.11 |
7주차-SVM(1) (3) | 2024.05.11 |
6주차-Random Forest (0) | 2024.05.11 |