Random Forests
Random Forests
- 앙상블 : 한 종류의 데이터로 여러 머신러닝 학습모델(weak base learner, 기본모델)을 만들어 그 모델들의 예측결과를 다수결이나 평균을 내어 예측하는 방법 / 랜덤포레스트는 결정트리를 기본모델로 사용하는 앙상블 방법
- 배깅 : bootstrap aggregating의 줄임말, 샘플을 여러 번 뽑아(Bootstrap) 각 모델을 학습시켜 결과물을 집계(Aggregration)하는 방법 / 회귀문제일 경우 기본모델 결과들의 평균, 분류문제일 경우 다수결로 가장 많은 모델들이 선택한 범주로 예측
Ordinal Ecnoding
from category_encoders import OrdinalEncoder
# 트리구조에서는 중요한 특성이 상위노드에서 먼저 분할이 일어납니다.
# 그래서 범주 종류가 많은(high cardinality) 특성은 원핫인코딩으로 인해 상위노드에서 선택될 기회가 적어집니다.
# 그래서 원핫인코딩 영향을 안 받는 수치형 특성이 상위노드를 차지할 기회가 높아지고 전체적인 성능 저하가 생길 수 있습니다.
- ordinal encoder는 파라미터를 이용해 직접 순서를 정할수 있으면 더 좋음
- category_encoders API 문서를 보면 많은 방법들이 있음.
'[CodesSates] AI 부트캠프' 카테고리의 다른 글
Model Selection (0) | 2021.04.15 |
---|---|
Evaluation Metrics for Classification (0) | 2021.04.14 |
Decision Trees (0) | 2021.04.12 |
Logistic Regression (0) | 2021.04.12 |
Ridge Regression (0) | 2021.04.08 |