华泰人工智能系列之二十九：提升超额收益，另类标签和集成学习20200319-华泰证券-35页_1mb

> **来源：[研报客](https://pc.yanbaoke.cn)** # 人工智能选股模型中的另类标签与集成学习应用总结 ## 核心内容概述 本文探讨了在人工智能选股模型中使用另类标签（如信息比率和Calmar比率）以及集成学习方法对模型性能的影响。研究指出，相较于传统的收益率标签，另类标签在某些股票池中能显著提升模型的超额收益与信息比率，但同时伴随着更高的回撤风险。集成学习方法通过融合多个模型的预测结果，能够有效提升模型的综合表现，降低单一模型的风险。 ## 主要观点与关键信息 ### 1. 另类标签的定义与作用 - **另类标签**：指有别于收益率的标签，如信息比率和Calmar比率，它们综合考虑了股票的收益、波动和回撤信息。 - **信息比率**：反映了个股超额收益与跟踪误差的比值，计算公式为： $$ IR = \left( \frac{P_{t+1}}{P_t} - \frac{B_{t+1}}{B_t} \right) / \sigma_2 $$ - **Calmar比率**：反映了个股超额收益与最大回撤的比值，计算公式为： $$ Calmar = \left( \frac{P_{t+1}}{P_t} - \frac{B_{t+1}}{B_t} \right) / MaxDD $$ ### 2. 使用另类标签的合理性 - **包含更多信息**：相比收益率标签，另类标签不仅考虑了时间区间的两端价格信息，还反映了区间内的波动和回撤情况。 - **避免交易拥挤**：使用收益率标签可能导致市场中大量投资者采取相似策略，造成交易拥挤。使用另类标签有助于开辟新的投资空间。 - **已有研究支持**：已有研究表明，信息比率、夏普比率等指标可以作为标签构建选股模型，具有一定的研究基础和合理性。 ### 3. 另类标签的测试方法 - **训练期长度**：本文在6个月至72个月的67种情形下进行测试，以获得更具统计意义的对比结果。 - **回测指标**：包括年化超额收益率、信息比率、Calmar比率和超额收益最大回撤。 ### 4. 测试结果分析 #### 全A股 - **信息比率标签**：在年化超额收益率上的胜率约为 $89.55\%$，信息比率和Calmar比率表现更优。 - **Calmar比率标签**：在年化超额收益率上的胜率约为 $97.01\%$，但回撤风险较大。 - **集成模型**：在全A股中，集成模型在年化超额收益率、信息比率和Calmar比率上均表现更优，且能有效降低回撤。 #### 中证500成分股 - **信息比率标签**：年化超额收益率胜率约为 $67.16\%$，信息比率和Calmar比率表现较好。 - **Calmar比率标签**：年化超额收益率胜率约为 $62.69\%$，但回撤风险依然较高。 - **集成模型**：在中证500成分股中，集成模型在年化超额收益率和信息比率上表现更优。 #### 中证800成分股 - **信息比率标签**：年化超额收益率胜率约为 $76.12\%$，信息比率和Calmar比率表现较好。 - **Calmar比率标签**：年化超额收益率胜率约为 $65.67\%$，但回撤风险依然存在。 - **集成模型**：在中证800成分股中，集成模型在年化超额收益率和信息比率上表现更优。 ### 5. 因子重要性分析 - **三大量价因子**（动量反转、波动率、换手率）在信息比率和Calmar比率标签模型中重要性下降。 - **财务质量**和**一致预期**因子的重要性上升，说明模型更关注这些方面。 ### 6. 集成学习方法 - **集成方式**：使用等权、历史IC加权和历史因子收益率加权三种方式进行模型集成。 - **效果**：集成模型在多个股票池中均能显著提升年化超额收益率和信息比率，同时在Calmar比率上也有较好表现。 ## 风险提示 - 人工智能模型构建的选股策略是历史经验的总结，存在失效的可能。 - 另类标签构建的模型回撤较大，使用须谨慎。 ## 结论 - 使用信息比率和Calmar比率作为标签在全A股和中证800成分股中能显著提升模型的超额收益和信息比率，但回撤风险较高。 - 集成学习方法能有效利用不同模型的优势，提升模型的综合表现，降低单一模型的风险。 - 因子重要性分析表明，模型更关注财务质量和一致预期因子，而非量价因子。 ## 附录：模型与因子说明 ### 模型 - **CTB-R模型**：以收益率为标签的CatBoost模型。 - **CTB-IR模型**：以信息比率为标签的CatBoost模型。 - **CTB-Calmar模型**：以Calmar比率为标签的CatBoost模型。 - **集成模型**：包括CTB-等权、CTB-IC加权、CTB-因子收益率加权。 ### 因子 - **估值因子**：包括EP、BP、SP、NCFP、OCFP、DP、G/PE。 - **成长因子**：包括Sales_G_q、Profit_G_q、OCF_G_q、ROE_G_q。 - **财务质量因子**：包括ROE_q、ROE_ttm、ROA_q、ROA_ttm、grossprofitmargin_q、grossprofitmargin_ttm、profitmargin_q、profitmargin_ttm、assetturnover_q、assetturnover_ttm、operationcashflowratio_q、operationcashflowratio_ttm。 - **杠杆因子**：包括financial_leverage、debt equity ratio、cash ratio、current ratio。 - **市值因子**：ln_capital。 - **动量反转因子**：HAlpha、return_Nm、wgt_return_Nm、exp_wgt_return_Nm。 - **波动率因子**：std_FF3factor_Nm、std_Nm。 - **股价因子**：ln_price。 - **beta因子**：beta。 - **换手率因子**：turn_Nm、bias_turn_Nm。 - **技术因子**：MACD、DEA、DIF、RSI、PSY、BIAS。 ## 图表目录（部分） - 图表1：在多种训练集长度下测试 - 图表2：不同标签训练的模型进行集成 - 图表3：数据标注方法测试流程示意图 - 图表4：月度滚动训练示意图 - 图表5：选股模型中涉及的全部因子及其描述（表1） - 图表6：选股模型中涉及的全部因子及其描述（表2） - 图表7：全A股中三种标签在截面上的相关系数均值 - 图表8：全A股中三种标签的取值分布直方图 - 图表9~12：两种标签构建的中证500增强策略在不同训练期下的对比结果 - 图表13~16：两种标签构建的中证500增强策略在不同训练期下的对比结果 - 图表17~18：中证500成分股中三种标签在截面上的相关系数和分布 - 图表19~22：两种标签构建的中证500增强策略在不同训练期下的对比结果 - 图表23~26：两种标签构建的中证500增强策略在不同训练期下的对比结果 - 图表27~28：中证800成分股中三种标签在截面上的相关系数和分布 - 图表29~32：两种标签构建的中证800增强策略在不同训练期下的对比结果 - 图表33~36：两种标签构建的中证800增强策略在不同训练期下的对比结果 - 图表37~39：三种标签训练的模型在三个股票池内的因子重要性对比 - 图表40：不同标签训练的模型进行集成 - 图表41：六种模型构建的全A选股策略回测指标的平均值对比 - 图表42：六种模型构建的全A选股策略的累计超额收益 - 图表43：六种模型构建的中证500成分股选股策略回测指标的平均值对比 - 图表44：六种模型构建的中证500成分股选股策略的累计超额收益 - 图表45：六种模型构建的中证800成分股选股策略回测指标的平均值对比 - 图表46：六种模型构建的中证800成分股选股策略的累计超额收益