Decision Tree:
설명력 우수 (중요한feature 확인할 수 있다.-rootnode), 스케일링이 필요하지 않다.
-Ensemble (앙상블): 여러 Base 모델들의 예측을 다수결 법칙 또는 평균을 이용해 통합하여 예측 정확도를 향상시키는 방법
->다음 조건 만족시 Ensemble model은 Base model보다 성능이 좋다.
-> Base model들이 서로 독립적 (diversity)
-> Base model들이 무작위 예측을 수행하는 model보다 성능이 좋은 경우
EX) Base model 각각 성능이 0.5(무작위) 보다는 좋아야 한다.

=> Decision Tree는 Ensemble model의 base 모델로써 활용도 높다
-> 데이터의 크기가 방대한 경우에도 모델을 빨리 구축 가능
-> 데이터 분포에 대한 전제가 필요하지 않다.
-Random Forest: 다수의 Decision Tree에 의한 예측을 종합하는 Ensemble방법
-> 하나의 Decision Tree보다 높은 예측 정확도를 보임.
-> 고차원 데이터에서 중요 변수 선택 기법으로 활용 가능

->Key idea of random forest
1) Diversity -> Bagging: 여러 개의 training data를 생성하여 각 데이터마다 개별 Decision Tree 구축
Bagging(Bootstrap Aggregating): 각각의 bootstrap샘플로부터 생성된 모델을 합침
-Bootstrapping
-> 각 모델은 서로 다른 학습 데이터셋을 이용
-> 각 데이터 셋은 복원 추출을 통해 원래 데이터의 수만큼의 크기를 갖도록 샘플링
-> 개별 데이터셋을 Bootstrap set이라 부름

-> 각각의 Bootstrap에 OOB를 가진다.

-Aggregating – majority voting

-Aggregating – weighted voting 1

2) Randomness -> Random subspace: Decision Tree의 변수를 무작위 선택
Random Subspace: 각각의 Decision Tree의 분기점을 탐색하는 각 step에서 주어진 변수의 수보다 적은 수의 변수를 임의로 선택하여 해당 변수들만 고려대상으로 함

-Generalization Error
-> 랜던 포레스트 내의 각각의 트리는 데이터에 대해 과적합할 수 있으며, 가지치기(prinung)가 수행되지 않기 때문.
-> 표본 크기가 충분히 크다면, 랜덤 포레스트의 일반화 오류는 다음의 경계를 가짐.

-> 낮은 상관관계: 트리들이 서로 상관관계가 낮을수록, 즉 서로 다른 특성을 학습할 때, 모델의 일반화 에러는 감소
-> 높은 트리 강도: 각 트리가 높은 정확도로 예측을 할수록, 즉 강도가 높을수록 전체 모델의 일반화 에러는 감소
-Variable Importance (변수의 중요도)
: 랜덤 포레스트는 선형 회귀모델/ 로지스틱 회귀모델과는 달리 개별 변수가 통계적으로 얼마나 유의하지에 대한 정보 제공 X
-> 대신 갑접적인 방식으로 변수의 중요도를 결정
1. 원래 데이터 집합에서 Out of bag(OOB) Error를 구함 -> e
2. 특정 변수의 값을 임의로 뒤섞은 데이터 집합에서 OOB Error를 구함 -> p
3. 개별 변수의 중요도는 2단계와 1단계 OOB Error차이의 평균과 분산을 고려


'3-1 > Data Mining' 카테고리의 다른 글
9주차-SVM(2) (0) | 2024.05.11 |
---|---|
7주차-SVM(1) (2) | 2024.05.11 |
5주차-Decision Tree (0) | 2024.05.11 |
4주차-Linear Models (1) | 2024.05.11 |
3주차-K Nearest Neighbors (0) | 2024.05.11 |