3-1/Data Mining

6주차-Random Forest

Donghun Kang 2024. 5. 11. 16:06

Decision Tree:

설명력 우수 (중요한feature 확인할 수 있다.-rootnode), 스케일링이 필요하지 않다.

 

-Ensemble (앙상블): 여러 Base 모델들의 예측을 다수결 법칙 또는 평균을 이용해 통합하여 예측 정확도를 향상시키는 방법

->다음 조건 만족시 Ensemble model은 Base model보다 성능이 좋다.

-> Base model들이 서로 독립적 (diversity)

-> Base model들이 무작위 예측을 수행하는 model보다 성능이 좋은 경우

EX) Base model 각각 성능이 0.5(무작위) 보다는 좋아야 한다.

=> Decision Tree는 Ensemble model의 base 모델로써 활용도 높다

-> 데이터의 크기가 방대한 경우에도 모델을 빨리 구축 가능

-> 데이터 분포에 대한 전제가 필요하지 않다.

 

-Random Forest: 다수의 Decision Tree에 의한 예측을 종합하는 Ensemble방법

-> 하나의 Decision Tree보다 높은 예측 정확도를 보임.

-> 고차원 데이터에서 중요 변수 선택 기법으로 활용 가능

->Key idea of random forest

1) Diversity -> Bagging: 여러 개의 training data를 생성하여 각 데이터마다 개별 Decision Tree 구축

 

Bagging(Bootstrap Aggregating): 각각의 bootstrap샘플로부터 생성된 모델을 합침

-Bootstrapping

-> 각 모델은 서로 다른 학습 데이터셋을 이용

-> 각 데이터 셋은 복원 추출을 통해 원래 데이터의 수만큼의 크기를 갖도록 샘플링

-> 개별 데이터셋을 Bootstrap set이라 부름

-> 각각의 Bootstrap에 OOB를 가진다.

-Aggregating – majority voting

-Aggregating – weighted voting 1

2) Randomness -> Random subspace: Decision Tree의 변수를 무작위 선택

 

Random Subspace: 각각의 Decision Tree의 분기점을 탐색하는 각 step에서 주어진 변수의 수보다 적은 수의 변수를 임의로 선택하여 해당 변수들만 고려대상으로 함

-Generalization Error

-> 랜던 포레스트 내의 각각의 트리는 데이터에 대해 과적합할 수 있으며, 가지치기(prinung)가 수행되지 않기 때문.

-> 표본 크기가 충분히 크다면, 랜덤 포레스트의 일반화 오류는 다음의 경계를 가짐.

-> 낮은 상관관계: 트리들이 서로 상관관계가 낮을수록, 즉 서로 다른 특성을 학습할 때, 모델의 일반화 에러는 감소

-> 높은 트리 강도: 각 트리가 높은 정확도로 예측을 할수록, 즉 강도가 높을수록 전체 모델의 일반화 에러는 감소

 

-Variable Importance (변수의 중요도)

: 랜덤 포레스트는 선형 회귀모델/ 로지스틱 회귀모델과는 달리 개별 변수가 통계적으로 얼마나 유의하지에 대한 정보 제공 X

-> 대신 갑접적인 방식으로 변수의 중요도를 결정

1. 원래 데이터 집합에서 Out of bag(OOB) Error를 구함 -> e

2. 특정 변수의 값을 임의로 뒤섞은 데이터 집합에서 OOB Error를 구함 -> p

3. 개별 변수의 중요도는 2단계와 1단계 OOB Error차이의 평균과 분산을 고려

'3-1 > Data Mining' 카테고리의 다른 글

9주차-SVM(2)  (0) 2024.05.11
7주차-SVM(1)  (2) 2024.05.11
5주차-Decision Tree  (0) 2024.05.11
4주차-Linear Models  (1) 2024.05.11
3주차-K Nearest Neighbors  (0) 2024.05.11