[CodesSates] AI 부트캠프

Random Forests

웅탈 2021. 4. 14. 23:16

Random Forests

 

 

Random Forests

 

- 앙상블 : 한 종류의 데이터로 여러 머신러닝 학습모델(weak base learner, 기본모델)을 만들어 그 모델들의 예측결과를 다수결이나 평균을 내어 예측하는 방법 / 랜덤포레스트는 결정트리를 기본모델로 사용하는 앙상블 방법

 

- 배깅 : bootstrap aggregating의 줄임말, 샘플을 여러 번 뽑아(Bootstrap) 각 모델을 학습시켜 결과물을 집계(Aggregration)하는 방법 / 회귀문제일 경우 기본모델 결과들의 평균, 분류문제일 경우 다수결로 가장 많은 모델들이 선택한 범주로 예측

 

Ordinal Ecnoding

 

from category_encoders import OrdinalEncoder


# 트리구조에서는 중요한 특성이 상위노드에서 먼저 분할이 일어납니다. 
# 그래서 범주 종류가 많은(high cardinality) 특성은 원핫인코딩으로 인해 상위노드에서 선택될 기회가 적어집니다.
# 그래서 원핫인코딩 영향을 안 받는 수치형 특성이 상위노드를 차지할 기회가 높아지고 전체적인 성능 저하가 생길 수 있습니다.

 

- ordinal encoder는 파라미터를 이용해 직접 순서를 정할수 있으면 더 좋음

 

- category_encoders API 문서를 보면 많은 방법들이 있음.

'[CodesSates] AI 부트캠프' 카테고리의 다른 글

Model Selection  (0) 2021.04.15
Evaluation Metrics for Classification  (0) 2021.04.14
Decision Trees  (0) 2021.04.12
Logistic Regression  (0) 2021.04.12
Ridge Regression  (0) 2021.04.08