【华泰金工林晓明团队】人工智能选股之stacking集成学习

文章正文
2018-05-04 01:34

【华泰金工林晓明团队】人工智能选股之stacking集成学习

2018-05-04 07:43来源:华泰证券研究所人工智能/收益

原标题:【华泰金工林晓明团队】人工智能选股之stacking集成学习

研究员:林晓明(S0570516010001)

报告使用了一种改进的Stacking模型,适合应用于金融数据领域

Stacking是一种常见的集成学习框架,一般有两层,其能够成功的关键在于第一层模型能针对原始数据得出有差异性(相关性低)且预测能力好的输出值,这样通过第二层模型进一步学习后,能够在多个第一层模型中取长补短,提升预测的准确度和稳定性。本文使用的是一种改进的Stacking框架,框架的第一层不仅使用不同的模型,还使用有差异的训练数据,这进一步增大了模型输出值之间的差异性,这样的差异性往往适合于训练和预测数据不是同分布的领域,可以增强预测的稳定性,如金融数据的预测。

报告提出了基于适应度指标的Stacking基模型选择方法

对于Stacking集成学习在多因子选股领域的应用,本文提出了基于适应度指标的基模型选择方法,该方法本质是挑选预测值相关性低且预测能力好的基模型进行集成。通过分析,我们认为使用6个月数据训练的XGBoost模型(XGBoost_6m)以及逻辑回归模型(逻辑回归_6m)最适合与使用72个月数据训练的XGBoost(XGBoost_72m)进行Stacking集成。

报告给出了Stacking应用于多因子选股的3个关键结论

对于Stacking集成学习在多因子选股领域的应用,我们通过对比测试,得出以下结论:(1)Stacking第一层应该使用不同种类的基模型和训练数据以达到最好的预测结果;(2)Stacking第一层并非集成越多的基模型表现就越好,要达到更好的集成学习效果,需要各个基模型两两之间相关性低,且基模型有足够好的预测能力。(3)较短的验证集数据长度(2个月)可以使得Stacking集成学习模型的超额收益最大回撤较小,Calmar比率较高,模型预测值的IR比率较高。

Stacking模型能获得较高的超额收益并控制回撤,Calmer比率提升显著

在本文的测试中,最优的Stacking集成学习模型为将XGBoost_72m和逻辑回归_6M进行集成,并且验证集数据选用2个月的模型(以下简称最优模型)。最优模型有效结合了基模型的优点(XGBoost_72m的高收益、高信息比率,逻辑回归_6m的低回撤)。2011年2月至2018年4月,对于全A 选股的行业中性策略,最优模型相对于中证500 的年化超额收益在27.75%~29.45%之间,超额收益最大回撤在8.92%~10.18%之间,信息比率在3.33~3.84之间,Calmer比率在2.73~3.25之间,Calmer比率的提升最为显著。

Stacking模型预测值的单因子测试结果优秀

我们对Stacking最优模型的输出值进行单因子测试。因子分5层测试多空组合年化收益率为33.82%,夏普比率为5.03。因子分10层测试组合1和组合10在所有回测年份中排名都没有变化,因子表现稳定。另外,因子在2011年至今的IC均值为10.94%,IR比率为1.47,IC值大于零比例为91.86%;因子在2015年至今的IC均值为12.57%,IR比率为1.59,IC值大于零比例为94.74%,2015年以来因子表现更好。

风险提示:Stacking模型高度依赖基模型的表现。是对历史投资规律的挖掘,若未来市场投资环境发生变化导致基模型全部失效,则Stacking模型存在失效的可能。

返回搜狐,查看更多

责任编辑:

声明:本文由入驻搜狐号的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。

阅读 ()

文章评论
标签
热门文章