> **来源:[研报客](https://pc.yanbaoke.cn)** # 人工智能选股模型中的另类标签与集成学习应用总结 ## 核心内容概述 本文探讨了在人工智能选股模型中使用另类标签(如信息比率和Calmar比率)以及集成学习方法对模型性能的影响。研究指出,相较于传统的收益率标签,另类标签在某些股票池中能显著提升模型的超额收益与信息比率,但同时伴随着更高的回撤风险。集成学习方法通过融合多个模型的预测结果,能够有效提升模型的综合表现,降低单一模型的风险。 ## 主要观点与关键信息 ### 1. 另类标签的定义与作用 - **另类标签**:指有别于收益率的标签,如信息比率和Calmar比率,它们综合考虑了股票的收益、波动和回撤信息。 - **信息比率**:反映了个股超额收益与跟踪误差的比值,计算公式为: $$ IR = \left( \frac{P_{t+1}}{P_t} - \frac{B_{t+1}}{B_t} \right) / \sigma_2 $$ - **Calmar比率**:反映了个股超额收益与最大回撤的比值,计算公式为: $$ Calmar = \left( \frac{P_{t+1}}{P_t} - \frac{B_{t+1}}{B_t} \right) / MaxDD $$ ### 2. 使用另类标签的合理性 - **包含更多信息**:相比收益率标签,另类标签不仅考虑了时间区间的两端价格信息,还反映了区间内的波动和回撤情况。 - **避免交易拥挤**:使用收益率标签可能导致市场中大量投资者采取相似策略,造成交易拥挤。使用另类标签有助于开辟新的投资空间。 - **已有研究支持**:已有研究表明,信息比率、夏普比率等指标可以作为标签构建选股模型,具有一定的研究基础和合理性。 ### 3. 另类标签的测试方法 - **训练期长度**:本文在6个月至72个月的67种情形下进行测试,以获得更具统计意义的对比结果。 - **回测指标**:包括年化超额收益率、信息比率、Calmar比率和超额收益最大回撤。 ### 4. 测试结果分析 #### 全A股 - **信息比率标签**:在年化超额收益率上的胜率约为 $89.55\%$,信息比率和Calmar比率表现更优。 - **Calmar比率标签**:在年化超额收益率上的胜率约为 $97.01\%$,但回撤风险较大。 - **集成模型**:在全A股中,集成模型在年化超额收益率、信息比率和Calmar比率上均表现更优,且能有效降低回撤。 #### 中证500成分股 - **信息比率标签**:年化超额收益率胜率约为 $67.16\%$,信息比率和Calmar比率表现较好。 - **Calmar比率标签**:年化超额收益率胜率约为 $62.69\%$,但回撤风险依然较高。 - **集成模型**:在中证500成分股中,集成模型在年化超额收益率和信息比率上表现更优。 #### 中证800成分股 - **信息比率标签**:年化超额收益率胜率约为 $76.12\%$,信息比率和Calmar比率表现较好。 - **Calmar比率标签**:年化超额收益率胜率约为 $65.67\%$,但回撤风险依然存在。 - **集成模型**:在中证800成分股中,集成模型在年化超额收益率和信息比率上表现更优。 ### 5. 因子重要性分析 - **三大量价因子**(动量反转、波动率、换手率)在信息比率和Calmar比率标签模型中重要性下降。 - **财务质量**和**一致预期**因子的重要性上升,说明模型更关注这些方面。 ### 6. 集成学习方法 - **集成方式**:使用等权、历史IC加权和历史因子收益率加权三种方式进行模型集成。 - **效果**:集成模型在多个股票池中均能显著提升年化超额收益率和信息比率,同时在Calmar比率上也有较好表现。 ## 风险提示 - 人工智能模型构建的选股策略是历史经验的总结,存在失效的可能。 - 另类标签构建的模型回撤较大,使用须谨慎。 ## 结论 - 使用信息比率和Calmar比率作为标签在全A股和中证800成分股中能显著提升模型的超额收益和信息比率,但回撤风险较高。 - 集成学习方法能有效利用不同模型的优势,提升模型的综合表现,降低单一模型的风险。 - 因子重要性分析表明,模型更关注财务质量和一致预期因子,而非量价因子。 ## 附录:模型与因子说明 ### 模型 - **CTB-R模型**:以收益率为标签的CatBoost模型。 - **CTB-IR模型**:以信息比率为标签的CatBoost模型。 - **CTB-Calmar模型**:以Calmar比率为标签的CatBoost模型。 - **集成模型**:包括CTB-等权、CTB-IC加权、CTB-因子收益率加权。 ### 因子 - **估值因子**:包括EP、BP、SP、NCFP、OCFP、DP、G/PE。 - **成长因子**:包括Sales_G_q、Profit_G_q、OCF_G_q、ROE_G_q。 - **财务质量因子**:包括ROE_q、ROE_ttm、ROA_q、ROA_ttm、grossprofitmargin_q、grossprofitmargin_ttm、profitmargin_q、profitmargin_ttm、assetturnover_q、assetturnover_ttm、operationcashflowratio_q、operationcashflowratio_ttm。 - **杠杆因子**:包括financial_leverage、debt equity ratio、cash ratio、current ratio。 - **市值因子**:ln_capital。 - **动量反转因子**:HAlpha、return_Nm、wgt_return_Nm、exp_wgt_return_Nm。 - **波动率因子**:std_FF3factor_Nm、std_Nm。 - **股价因子**:ln_price。 - **beta因子**:beta。 - **换手率因子**:turn_Nm、bias_turn_Nm。 - **技术因子**:MACD、DEA、DIF、RSI、PSY、BIAS。 ## 图表目录(部分) - 图表1:在多种训练集长度下测试 - 图表2:不同标签训练的模型进行集成 - 图表3:数据标注方法测试流程示意图 - 图表4:月度滚动训练示意图 - 图表5:选股模型中涉及的全部因子及其描述(表1) - 图表6:选股模型中涉及的全部因子及其描述(表2) - 图表7:全A股中三种标签在截面上的相关系数均值 - 图表8:全A股中三种标签的取值分布直方图 - 图表9~12:两种标签构建的中证500增强策略在不同训练期下的对比结果 - 图表13~16:两种标签构建的中证500增强策略在不同训练期下的对比结果 - 图表17~18:中证500成分股中三种标签在截面上的相关系数和分布 - 图表19~22:两种标签构建的中证500增强策略在不同训练期下的对比结果 - 图表23~26:两种标签构建的中证500增强策略在不同训练期下的对比结果 - 图表27~28:中证800成分股中三种标签在截面上的相关系数和分布 - 图表29~32:两种标签构建的中证800增强策略在不同训练期下的对比结果 - 图表33~36:两种标签构建的中证800增强策略在不同训练期下的对比结果 - 图表37~39:三种标签训练的模型在三个股票池内的因子重要性对比 - 图表40:不同标签训练的模型进行集成 - 图表41:六种模型构建的全A选股策略回测指标的平均值对比 - 图表42:六种模型构建的全A选股策略的累计超额收益 - 图表43:六种模型构建的中证500成分股选股策略回测指标的平均值对比 - 图表44:六种模型构建的中证500成分股选股策略的累计超额收益 - 图表45:六种模型构建的中证800成分股选股策略回测指标的平均值对比 - 图表46:六种模型构建的中证800成分股选股策略的累计超额收益