2024量化研究:发掘分析师数据中的另类Alpha

1分析师数据是重要的alpha来源

股价变化反映了投资者对上市公司基本面发展的一致性看法,投资者可以利用手中的“筹码”对看好的公司进行“投票”。随着金融市场的发展,证券分析师,作为金融从业人员的重要组成部分,扮演着投资者与上市公司之间的专门化中介和桥梁,他们利用自身的专业知识,通过撰写研究报告进行行业分析,或提供上市公司盈利预测和投资建议,是投资者进行股票投资的信息来源之一。

对于量化从业人员而言,分析师数据更是收益端的有效补充:从多因子模型的角度,alpha来源大体可分为三部分:以财务报表数据为养料的基本面因子,以市场交易数据为基础的量价因子,以及以分析师预测数据为依据的分析师因子。由于分析师因子具有与传统基本面因子和市场交易因子相对独立的数据和收益来源,一直以来都是提供增量alpha的重要手段。

相较于披露时间和数据形式更规则化的财报和交易数据,分析师数据类型更为多样:一方面,财务报告的报告期是固定的,且其披露日期的范围也有规可循,而市场交易数据更是可实时跟踪。相比之下,分析师报告的发布时点相对不规律,与公司的重要事件、公告的发布时点,以及一些行业、政策性大事件息息相关;另一方面,从数据形式的角度,当前对财报和交易数据的挖掘主要基于数值型数据,而分析师数据中除了盈利预测、目标价、投资评级等数值型数据外,研报的标题、摘要等文本数据亦是值得探索的领域,业界中关于运用NLP算法对分析师文本进行情感分析的研究层出不穷,提供了广泛、前沿的因子挖掘思路。由此可见,分析师数据类型更为多元、灵活,从某种意义上来讲,分析师因子的可塑性更强。

2024量化研究:发掘分析师数据中的另类Alpha

本文的分析师研报数据来源于慧博投研,慧博作为股票分析师预期数据供应商,其数据对A股有较为全面的覆盖,同时慧博也提供了根据原始数据加工得到的一致预期数据。当前,在市场有效性增强,alpha日益稀缺的环境下,本文尝试从目标价、报告页数和发布时点这三个已有研究涉猎较少的角度,挖掘蕴藏在分析师数据中的alpha增量信息。


2慧博分析师数据库及一致预期因子测试

2.1数据来源

目前,慧博量化投研数据产品主要包括分析师原始预期和分析师一致预期数据,原始报告数据最早于2006年,涉及涵盖证券公司130余家、期货公司140余家及其他研究机构420余家,覆盖超过5000名证券分析师。截止2023年12月31日,慧博投研数据覆盖研究报告超过400万篇,其中个股报告约60万篇,数据字段包括分析师对于上市公司的盈利预测、目标价、评级等等;分析师一致预期数据始于2013年,包括全体分析师一致预期和优秀分析师一致预期两大类。二者均对分析师预测的原始数据,按照机构和时间维度加权而得,区别在于分析师所选取的范围不同,前者选取全市场的分析师,后者选取包括新财富以及水晶球分析师在内的优秀分析师。另外,慧博还提供了详细的分析师基础信息、机构基础信息以及报告和分析师的关联信息以便于研究人员更精细化地对数据进行处理和筛选,数据表具体信息如下所示:

2024量化研究:发掘分析师数据中的另类Alpha

2.1.1报告数量丰富目前朝阳永续、Wind、慧博等数据供应商均提供分析师预测数据,其中朝阳永续和慧博的特色就是分析师预期数据,而Wind所提供的数据服务类型更广,在国内机构投资者中相对更加普及。另外,每家数据提供商除了提供基础的原始报告明细数据之外,还提供加工得到的衍生数据,比如一致预期净利润、一致预期市盈率等等。为考察慧博分析师数据的特征,下面我们比较慧博和友商原始预测数据的差异。从下图的对比来看,报告数量方面,两家数据库各年份收录报告数量均呈上升趋势,从2013年的3.8万篇,到2023年的8.5万多篇。总体来看,慧博收录的报告数量与友商差距不大。

2.1.2股票数量覆盖度广从两家数据商各年度收录报告覆盖的股票数量来看:慧博投研覆盖的股票数量长期一直高于友商。2023年全年,慧博覆盖股票数量达3578只,而友商覆盖的股票数为3293。


2024量化研究:发掘分析师数据中的另类Alpha

从机构覆盖情况来看,慧博数据涵盖的机构数量总体略高于友商,2023年覆盖机构总数达84家,友商机构覆盖数量达80家,分年度数量变动不大。分析师报告的发布时间和数据库的录入时间往往存在时间差(数据库录入日期-报告发布日期),由于我们一般通过数据供应商直接获取数据进行处理,因此时间差的长短也是影响数据质量的一大因素。自2013年1月至2023年12月,慧博和友商数据库所收录的报告录入时间差分布占比如下所示:可以看到,慧博数据库录入报告的及时性更强,在报告发布后一天内录入数据库的数量占比约49%(友商29%),1-2天内录入数量占比约33%(友商28%),录入效率明显高于友商。

2.2基于慧博分析师一致预期数据的基础性因子测试

上文主要对慧博分析师原始预期数据的覆盖度和录入及时性进行统计和展示,在这一节中,我们将基于慧博分析师一致预期数据构建因子,并回测其表现。直接使用分析师一致预期数据计算因子步骤简便,对数据二次加工的成本较低,且能整体性地考察分析师预期指标及其在时间序列上的变动,不足之处在于分析师预期衍生指标是供应商基于原始数据加工得到的,算法相对不透明。本文所构建的分析师一致预测因子明细如下表,在测试的过程中,因子均经过行业市值中性化处理,其中,若无特殊说明,因子在全市场内进行测试时剔除缺失值,回测区间为2019年1月1日-2024年1月31日,通过RankIC、年化ICIR、以及分十组年化收益(指数内分五组,超额收益比较基准为成分股等权,不考虑交易费用)来判断因子的有效性。]

从回测结果看,分析师一致预期估值因子表现出色,其中,一致预期BP因子Rank IC达5.94%,年化ICIR为1.82,多空年化收益14.75%,多头年化超额达8.2%,一致预期EP因子多头年化超额收益为10.3%,我们猜想,超额收益的增量可能来源于慧博在加权过程中对不同机构的赋权,慧博基于协会评级和机构发布报告数量综合给予权重,相较于直接求算术平均值更为合理;一致预期利润调整类因子IC表现相对一般,多头表现突出;分析师一致预期盈利因子整体表现较差,几乎没有显著的选股效果,一致预测ROE的3个月环比变化多头端具有一定的选股能力。

分指数域来看,分析师一致预期估值类因子在不同选股域均有出色的表现,其中,分析师一致预测BP在中证500和中证1000内表现更佳,一致预测EP因子在沪深300内表现更好,这一定程度上与指数成分股行业分布有关。其余预期调整因除常规的全体分析师一致预期数据以外,慧博还提供优秀分析师一致预测数据,类似的,我们基于该数据构建个股的一致性预期指标:从回测结果来看,优秀分析师一致预期类因子表现相对于全体分析师一致预期因子表现没有明显提升。横向对比因子有效性,仍然是分析师预期估值因子表现最佳。

考察全体分析师一致预测EP因子在时间序列上的表现:从因子Rank IC序列走势来看,分年度表现相对稳定,且近几年IC趋势向上,并未出现明显的衰减或长时间失效的情况。进一步的,从全市场分十组多头组合的净值走势来看,多头组合年化超额收益约10.27%,相对回撤-6.84%。分年度来看,多头组合每年都能稳定跑赢基准,2023年表现稍弱。

3挖掘分析师数据中的另类alpha

上节主要根据慧博分析师一致预期数据构造传统分析师因子,相比友商数据,基于慧博数据的预期估值类因子表现更佳。当然,分析师数据不仅仅局限于盈利预测,还包含其它维度的信息。在这一章中,我们尝试深耕分析师原始预期数据,从目标价、报告页数和发布时点挖掘另类视角下的分析师增量alpha。

3.1改进目标价因子的三个法门

众多分析师预期数据中,盈利预测、目标价和评级数据是最主要的元素,其中最核心的当属盈利预测。随着市场有效性不断提升,投资者对于公开信息的吸收速度变快,历史基本面因子的选股有效性变得愈发不稳定。与此同时,分析师报告的关注度提升,其盈利预测能较好地弥补基本面数据的迟滞性,因此,如何加工、整合分析师预期数据构造有效、稳定的盈利预期调整因子变得尤为重要,当前业界涉猎这个领域的研究较为丰富,具体做法本文不多赘述。

实际上,目标价同样也是分析师预测数据中的重要参考。首先,盈利预测仅能反映分析师对于上市公司基本面的把握程度,而目标价包含分析师对这家公司的盈利和估值预期,能综合体现分析师对上市公司业绩前景的观点和市场情绪的判断,相比盈利预测数据更具有差异性;其次,目标价直接对应的是股票收益,能更直接地表明分析师对个股的观点,对投资更具有指导意义。自2013年1月1日至2023年12月31日,在慧博投研收录的报告中,按覆盖个股统计,分析师覆盖的股票中大部分股票都有目标价信息,2023年入库的报告覆盖了3578只股票,而有目标价字段的报告覆盖了2553只股票,占比达71.4%,从历史情况来看,占比均在70%以上。

由于慧博的分析师一致预测指标中不包含目标价,我们基于分析师原始预测数据汇总得到一致预测目标收益因子,计算方法如下:

(1)在每个月末回溯过去3个月,筛选出所有含目标价格的分析师报告,其中,若同一分析师存在多篇关于同一股票的报告,保留最新的预测值;

(2)取报告中最高目标价和最低目标价的平均值作为该篇报告出具的目标价格,计算个股所有覆盖报告目标价的算术平均值作为一致预测目标价;

(3)定义个股一致预期目标价相对当前时点收盘价的涨跌幅为一致预测目标收益因子。自2014年1月1日至2024年1月31日,行业市值中性后的一致预测目标收益因子具有一定的选股效果,但IC表现不稳定,且多头表现不突出。分指数域来看,因子在沪深300内的表现相对较好,一定程度上也与覆盖度更高有关,分五组多头年化超额达2.6%。总体来说,该因子在构造方式上较为粗糙,仍有较大的优化空间,下文从目标价可比性、发布时点和算法三个角度对一致预测目标收益因子进行改进。

我们发现,同一个股在过去一段时间的不同目标价格不具有可比性,往往由以下原因导致:

(1)不同分析师或机构给出目标价高低的风格不同,部分分析师相对乐观,给出的目标价明显高于同行,而部分分析师又较为谨慎,从而导致了对于同一个股,不同分析师给出的目标价难以比较;

(2)其次,分析师推票时点不同,推票当月的市场表现同样会影响分析师的情绪,因此需要考虑发布时点的差异性。基于上述考虑,针对可比性问题对个股目标收益进行去均值化处理,构建调整目标收益因子。

具体而言:

(1)在每个月末回溯过去3个月,筛选出所有含目标价格的分析师报告,其中,若同一分析师存在多篇关于同一股票的报告,保留最新的预测值;

(2)取报告中最高目标价和最低目标价的平均值作为该篇报告的目标价格,计算个股每篇报告的目标收益,并减去对应的可比中枢均值,记做调整目标收益,其中可比中枢均值分别定义为报告对应机构覆盖的所有股票的平均目标收益,对应分析师覆盖股票的平均目标收益,以及对应发布月份所有报告的平均目标收益。

(3)计算个股所有报告的调整目标收益的算术平均值作为一致预测调整目标收益因子。

从测试结果来看,使用分析师、机构、发布月份的平均目标收益对目标价进行调整均能取得不错的效果:调整后因子的Rank IC和ICIR相比原因子有一定提升,其中,经过分析师中枢调整后,因子表现最佳,多空年化提升了将近2pct,多头年化超额近4%。

一致目标收益因子定义为个股一致预测目标价相对当前收盘价的涨跌幅,即目标价相对发布时点的区间涨跌幅,减去因子计算时点相对报告发布时点的区间涨跌幅。然而,这种算法并未考虑报告发布前个股的涨跌幅,这个可能会直接影响分析师给出目标价的区间;另一方面,分析师在发布目标价之后,直到因子计算时点期间的价格变化对于分析师而言是不可控的,因此原始目标收益可能无法完全反映分析师的真实观点。因此,定义报告发布前t日为考察期,分析师可能会根据这段时间市场、行业和个股的表现来给出目标价;定义发布时点至因子计算时点间的时期为验证期,这段时间可视为个股后续行情对于分析师目标价格的验证,分别考察这两个时期股票涨跌幅对因子有效性的影响。

直觉上讲,考察期涨跌幅对分析师及其目标价具有不同的含义:

(1)分析师自身的推票行为模式存在差异性,右侧推票型分析师倾向于在个股上涨趋势得到确认后发布报告,而左侧型分析师更习惯在股价的阶段性底部荐股;

(2)发布报告前个股的涨跌幅可能会影响目标价的大小,分析师在市场环境较好的时期往往更加乐观,从而给出更高的目标价。为考察报告发布前20日涨跌幅对因子有效性的影响,我们在因子构建步骤中对目标收益去均值化后(减去分析师覆盖股票目标收益均值),计算每篇报告发布前20日个股的区间涨跌幅,根据涨跌幅的大小将每只个股的目标价样本分成两部分,分别计算算术平均值,将高涨跌幅样本构造的因子称为“高点续航”目标收益因子,反之称为“低谷掘金”目标收益因子。

从回测结果来看,由考察期(发布日前20日)涨跌幅相对较低的目标价样本构成的低谷掘金因子表现更佳,年化ICIR为1.75,多空年化收益为14.76%,多头年化超额达4.38%,因子表现进一步获得提升。而由涨跌幅较高一组样本构成的高点续航目标收益因子表现明显较弱,IC表现、多空组合收益和多头超额低于前者。由此可见,分析师左侧出具的目标价样本更具有参考价值,其选股能力更强;换个角度想,前期个股涨幅过高可能会影响分析师的判断,从而高估公司的价值,影响目标价的精确度。

在不同的时间窗口下,低谷掘金目标收益因子表现均较为稳健,相比于原始因子有明显提升,其中,当考察期的时间窗口取10日时,因子表现最佳,Rank IC均值3.28%,年化ICIR为1.82,多空年化收益15.74%,多头年化超额为4.4%。进一步的,考察验证期(发布日-因子计算时点)区间涨跌幅对因子有效性的影响,因子构建方式与上文类似,即对目标价收益去均值化后(减去分析师覆盖股票目标收益均值),根据验证期的区间涨跌幅将每只个股的目标价样本分成两部分,高涨跌幅样本构造的因子称为“市场印证”一致预测目标收益因子,反之称为“预期偏离”因子。

有趣的是,结论与考察期涨跌幅对因子的影响方向部分截然相反:报告发布后,恰恰是验证期涨跌幅偏高的那部分目标价样本,即市场印证目标收益因子具有更强的择股能力,无论是IC还是多头组表现,均领先于涨跌幅偏低的样本。我们猜想,可能是因为发布日之后的涨跌幅可以验证分析师对股价的判断方向,股价与判断一致的个股未来更有可能会超涨,相反,如果在分析师推票后,股价开始下跌,或涨幅不及预期,此时目标价的参考价值则有所下降。

最后,借鉴分析师预期调整的算法,我们对一致预测目标收益因子进行时间序列上的处理表征分析师的情绪变化:具体来说,我们在每个月末计算目标收益因子相对过去N个月的ZSCORE,记做标准化目标预期收益因子。从回测结果看,无论是IC表现还是多头组表现,标准化目标预期收益因子相对一致预测目标收益因子均有稳定提升。其中,6个月标准化目标收益的年化ICIR为2.48,多头年化超额收益5.07%,多空最大回撤-6.86%。

分指数域来看,6个月标准化目标收益因子在各个选股域表现均较为稳健,在沪深300、中证500、中证1000内的分五组多头超额分别为4.65%、3.79%和6.52%,表现优异,相对一致预测目标收益因子在IC以及多头端有显著提升。而调整目标收益因子相对原因子的提升更多体现在小微盘的选股域中。

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)


上一篇

2024建材行业市场动态与投资策略报告

2024-06-13
下一篇

2024医药生物行业报告:幽门螺杆菌防治新进展

2024-06-13