[
模型下载]
特征工程是Kaggle比赛的重中之重,尤其是对于房价预测这类使用树模型的比赛。模型大同小异,基本是由GBDT模型演化而来,而且主要用XGBoost、LightGBM等几种开源框架。所以,模型大家都差不多,特征就是关键了。
每个比赛都有独特的背景,想要发现甚至是自己创造出重要的特征,往往需要专业的领域知识,比如Zillow这个比赛要预测美国的房价,原始特征有卧室数量、面积,税收等等。想要自己通过原始特征组合,创造出一个“magic feature”就需要了解美国的房地产业。所以,选择一个自己熟悉领域的比赛,会比较有优势。
比赛背景千变万化,从数据科学的角度,还有许多通用的方法来做特征工程