The Barra US Equity Model (USE4)中文版(译文版)

// 20180804 更新

博主为译文增加了剩余的被主译者跳过的非学术部分(1.2)以及在原译文的基础上大量修正了部分名词的翻译(修改为目前国内研报常用描述)以及有描述不准确的地方。

文尾同时附上Barra的相关报告原文。

 

1. 介绍

1.1 模型亮点

本文阐明了支撑USE4模型的新方法, 我们的目标是制作一篇清晰简洁的文档。MSCI不仅在风险因子建模方法上树立了卓越的标准,并且在模型透明度上成为行业领袖。

本文是USE4 Empirical Notes的补充,主要叙述方法论,Emporocal Note则包括详细的USE4 因子体系信息、因子解释力分析、统计显著性分析,并对模型的预测精度进行了系统分析。Empirical Note还提供了与USE3模型的对比。

USE4的主要亮点在于:

  • 一个创新的特征因子风险调整方法,减小了因子协方差阵的样本误差,从而增加了优化组合的风险预测
  • 一个波动调整制度,用来衡量当前市场水平下的因子波动和特殊风险预测
  • 引入国家因子,将纯行业影响从整个市场中分离出来,介绍了一种及时的相关性预测
  • 一种新的基于日线级别特殊收益的特殊风险模型
  • 一种可以减小由于样本误差导致的特殊风险偏差的贝叶斯调整方法
  • 对因子和特殊成分的一致反应,使投资组合的风险更稳定
  • 一套基于GICS的多行业风险暴露
  • 一种独立的验证方法,通过双盲开发系统确保研究代码和生产代码之间的一致性和真实性
  • 模型所有因子的每日更新

USE4模型包括长期(USE4S)和短期(USE4L)两种版本,两种版本包括完全相同的因子暴露和因子收益,但因子协方差矩阵和特殊风险预测不同。USE4S模型对于月度预测更为灵敏和准确,USE4L模型专门为希望有一定准确性的稳定风险预测才交易的长期投资者设计。

1.2 现代投资组合理论及BARRA风险模型:文献综述

马科维茨(1952)的开创性工作正式确立了风险与收益之间的内在权衡。这一范式为现代金融理论的建立奠定了基础,并证明它是如此的富有弹性,以至于它在过去的60年中基本上完好无损地生存下来。学术界和实践者们都认为这一理论的活力几乎是惊人的。

Markowitz解决的具体问题是如何从一系列风险资产中构建有效的投资组合。 Markowitz将有效投资组合定义为在给定风险水平下具有最高预期回报的投资组合,他将其视为投资组合收益的标准差。 Markowitz表明,资产的相关风险不是其独立的波动性,而是其对投资组合风险的贡献。 此后,风险和相关性的概念变得不可分割。

所有有效投资组合的预期收益与波动率的关系图绘制出一条称为有效边界的曲线。 为了使用Markowitz处方构建有效边界,投资者必须为所有可投资资产的范围提供预期收益和差异。 Markowitz程序确定了与任何给定投资者的风险承受能力相对应的最优投资组合。

Tobin(1958)采用了Markowitz方法,并以一种非常简单的方式对其进行了扩展,但对投资组合管理产生了深远的影响。通过在可投资资产领域中包含现金,托宾表明在有效边界上存在单一投资组合,当与现金结合时,主导所有其他投资组合。因此,对于任何投资者而言,最佳投资组合将始终包含现金和“超高效”投资组合的组合。例如,规避风险
投资者可以将超高效投资组合与大量现金头寸相结合,而风险寻求者则可以借入现金购买更多超高效投资组合。因此,根据托宾的说法,最佳投资策略包括两个独立的步骤。首先是确定超高效的投资组合。第二步是确定与投资者整体风险承受能力相匹配的适当现金水平。这个两步投资过程后来被称为托宾分离定理。

资本市场理论发展的下一个重要步骤是Sharpe(1964)。 通过做出某些假设(例如,所有投资者都遵循均值 - 方差偏好并就所有资产的预期收益和协方差达成一致),夏普能够证明超高效投资组合本身就是市场投资组合。 Sharpe的理论被称为资本资产定价模型,它预测资产的预期收益仅取决于市场的预期收益和资产相对于市场的beta。 换句话说,在CAPM中,唯一的“定价”因素是市场因素。

使用CAPM框架,任何资产的回报都可以分解为与市场完全相关的系统组成部分,以及与市场不相关的​​剩余组成部分。 CAPM预测剩余收益的预期值为零。然而,这并不排除剩余收益之间相关性的可能性。也就是说,即使在CAPM下,即使只有一个预期收益来源,也可能有多个股权回报共同来源。

Rosenberg(1974)是第一个开发多因素风险模型来估计资产协方差矩阵的人。后来Rosenberg和Marathe(1975)对这项工作进行了扩展,他对多因素模型进行了全面的计量经济学分析。这些模型背后的直觉是存在一系列相对简约的普遍因素来推动资产回报。无法用因子解释的回报被视为“特定股票”,并被假定为不相关。

罗森伯格创立了Barra,广泛使用多因素风险模型,致力于帮助从业者实施Markowitz,Tobin,Sharpe等人的理论见解。美国市场的第一个多因素风险模型,被称为Barra USE1模型,于1975年发布。该模型随后是1985年的USE2模型和1997年的USE3。互联网泡沫期间和之后的波动率水平迅速变化需要更具响应性的风险模型,并在2002年对USE3模型进行了升级,以纳入每日因子回报。

发展定量投资理论大厦的另一个关键步骤是1995年出版了一本名为“积极投资组合管理”的有影响力的书籍,该书由Grinold和Kahn在Barra撰写。这本书的广泛成功促成了Grinold和Kahn(2000)的第二版,它今天成为许多量化投资公司的必备指南。

为了对全球投资组合进行建模,1989年开始实施第一个巴拉全球股票风险模型(GEM),这是一个重要的里程碑。如Gri​​nold,Rudd和Stefek(1989)所述,该模型通过使用国家,行业和风格作为解释因素的月度横截面回归来估算。

根据Menchero,Morozov和Shepard(2008)的描述,创业板紧随其后的是第二代全球股票风险模型GEM2。 GEM2在以前的模型中引入了一些进步,例如改进的估算技术,更高频率的观测,以及引入世界因素以使国家和行业处于平等地位。

Barra还率先使用了集成模型,将全球模型的广度与当地单一国家模型的细节相结合。这种方法的一个创新特点是,它确保了前台投资组合经理和中间办公室风险经理使用的风险预测之间的一致性。第一代Barra集成模型(BIM)于2002年推出.Shepard(2011)描述的第二代Barra集成模型结合了方法学的重要进展,例如使用GEM2模型估计当地因素之间的协方差和使用更高频率的观察。

巴拉风险模型长期以来在应用现代投资组合理论概念解决实际投资问题方面发挥了重要作用。在MSCI,我们致力于继续发展行业领先的风险模型。新版Barra美国股票模型USE4的发布标志着这一持续发展的最新举措。

1.3 通过因子模型预测投资组合的风险

资产协方差阵对于构建投资组合和管理风险都十分重要,估计协方差阵的一个巨大挑战在于数据的维数问题。例如,一个包含2000只股票的活跃投资组合,需要估计二百万以上的参数,如果用蛮力计算协方差阵,得到的矩阵很可能是病态的,这使得协方差阵很容易受到噪声的印象,也可能得到虚假关系,这样的关系无法延续到样本外。例如,如果样本包含的时间数小于股票数(对于大型投资组合是非常典型的),得到的矩阵被称为“缺秩”,这意味着显然可以构建无风险投资组合。

因子风险模型为这一问题提供了更稳健的解,股票收益可由一些影响所有股票的公共因子和一个只影响这一股票的特殊因子解释,更具体的说,股票收益可表示为:

\(r_{n}=\sum_{k}X_{nk}f_{k}+u_{n}\)        ,                        (1.1)

其中\(X_{nk}\)为股票n在因子k上的暴露,\(f_{k}\)为因子k的收益,\(u_{n}\)是股票n的股票特质收益率

考虑一个权重为\(w_{n}\)的投资组合,投资收益为:

\(R_{p}=\sum_{n}w_{n}r_{n}\)     ,                                                                    (1.2)

投资组合的因子暴露为各资产暴露的加权平均值:

\(X_{k}^{p}=\sum_{n}w_{n}X_{nk}\)    ,                                                                                                                               (1.3)

因此投资组合的收益可表示为:

\(R_{p}=\sum_{k}X_{k}^pf_{k}+\sum_{n}w_{n}u_{n}\)   ,                                                                                                          (1.4)

因子风险模型中的两个关键假设: 
a) 因子收益与特质收益不相关 
b) 特质收益之间不相关 
从而投资组合的方差可表示为:

\(var(R_{p})=\sum_{kl}X_{k}^pF_{kl}X_{l}^p + \sum_{n}w_{n}^2var(u_{n})\)    ,                                                                                       (1.5)

其中,\(F_{kl}\)表示因子\(k\)和因子\(l\)之间的预测协方差。 
从而,如果风险模型包含60个因子,因子协方差阵包含的元素会少于2000个,正是由于维数的极大减小,这一因子模型可以过滤大部分噪声并对投资组合的风险给出一个稳健的估计。

 

2 因子暴露

2.1 综述

因子结构是构建高质量风险模型的关键,因子代表着资产回报的一般驱动力,将投资风险和收益拆分成两部分,一部分由所有公共因子影响,另一部分,不能被因子所解释,被认为是特殊的。 
因子风险模型的一个重要假设是这些因子解释了资产收益的所有系统部分,,从而说明特殊收益是互不相关的。因此,一个可以解释尽可能多资产收益横截面的因子体系显得至关重要。风险模型中一个常见问题是忽略了重要因子,在这样的因子体系下,资产组合可能还会受潜在因子影响,从而出现多种不利影响。 
高质量因子体系的另一重要特征是简洁,即应用最少数量的因子解释资产的系统部分。数量少的因子体系更稳健,更容易捕捉真实的潜在关系。事实上,风险模型的另一问题是不加考虑加入弱影响的因子或者虚假因子,这样的模型很容易受噪声影响,对于投资组合的构建不利。 
研究风险因子模型时,还需要仔细分析因子收益的统计显著性,特别是,这里的统计显著性必须是随时间持续的,而不是由某一不可能在未来发生的事件决定。仔细透彻地统计分析有助于确保虚假因子不进入模型。 
稳定性是高质量因子体系的另一特征,稳定性意味着因子暴露不会再多时间内突变,这会对风险管理造成困难,我们定义因子稳定系数为当月因子暴露值与下月因子暴露值的横截面相关系数,即:

\(\rho_{kt} = {\sum_{n}v_{n}^t(X_{nk}^t-\overline{X}_{k}^t)(X_{nk}^{t+1}-\overline{X}_{k}^{t+1})\over \sqrt{\sum_{n}v_{n}^t(X_{nk}^t-\overline{X}_{k}^t)^2}\sqrt{\sum_{n}v_{n}^t(X_{nk}^{t+1}-\overline{X}_{k}^{t+1})^2}}\)    ,                                        (2.1)

其中,\(v_{n}^t\)是股票\(n\)在时间\(t\)回归时的权重。一个经验法则是,因子稳定系数大于0.9是理想的,低于0.8说明模型不稳定。 
共线性是研究构建因子体系时的另外一个重要问题,即一个给定因子可以由其他因子线性表出,如果因子之间存在共线性,回归的误差会非常大,各因子收益也很难解释。一种识别因子共线性的方法是结算方差膨胀因子VIF\(^{注1}\),通过单一因子对其他因子做回归计得到R^2,然后用公式得出即可。 

\(X_{nk}=\sum{X_{nk'}b_{k'}}+\epsilon_{nk}\)                               (2.2)

VIF定义如下:

\(VIF_{k}={1 \over 1-R^2}\)                                                (2.3)

VIF过大\(^{注2}\)表明存在过线性,如Menchero(2010)所述,一种被称为正交化的因子旋转方法可以同时消除共线性和使因子更直观。例如,非线性规模因子,在正交化之后,实质上解释了中盘股和整个市场收益的差异。 
最后,风险模型的因子必须是直观的,换句话说,必须是透明的,易于解释的,符合投资者对于因子认识的。例如,对于有广泛价值的或者增长的指数,要求它的成长因子是正的是合理的。关于这方面的更多讨论参见MSCI Research Insight, Global Style Factors (2010).

2.2 数据质量及离群值处理

股票风险模型过程中中最困难最耗时间的部分在于准备建模所需的数据,如果数据质量很差, 无论模型多精细,风险预测结果都会很差。因此,确保数据质量对于建模至关重要。 
为了获得高质量的数据,Barra风险模型采用了构建MSCI全球市场投资指数时同样的处理方法。原始因子,GICS代码,国家分类和股票日收益在获取时已经进行了严格的质量控制。 
无论对数据进行了多么严格的处理,我们都不能排除数据包含离群值的可能性,这些离群值可能是真实值,也可能是数据错误引起,不论是哪一种情况,都必须认真处理这些数据防止对模型估计产生严重影响。 
USE4中,我们通过一种多步算法识别并处理离群值,算法将每个样本归为三类中的一类,第一类样本表示可能包含潜在错误的极端值,在模型估计时被剔除,第二类样本取值真实但是过于极端,因此必须限制对模型的影响,我们把这些值用均值偏离三倍标准差代替,第三类样本的值在均值偏离三倍标准差以内,是分布的大部分,这些样本不做处理。 
我们设计了全面的数据质量确保算法和稳健的离群值算法,确保数据干净真实。此外,还需要解决数据缺失问题,数据缺失可能是由于无法获取或者删除离群值造成的。 
如果计算因子暴露所需的基础数据缺失,我们采用一种数据替代算法生成因子暴露,具体来说,我们用没有缺失部分的因子暴露跟因子几集做回归,得到的斜率系数用来估计缺失数据股票的因子暴露,这种方法的思路源于,有相似分布的股票,可能会有相似的因子暴露,比如同行业的成员或相似的市值。 
此外要注意,数据替代算法应用于因子层面而不是原数据层面,换句话说,如果一只股票在一个风格因子上游部分原始数据的话,会用不缺失的数据计算因子暴露,只有当所有的原始数据都缺失时,才会用数据替代算法。

2.3 风格暴露

风格因子是股票截面收益的主要驱动力。事实上,如Menchero and Morozov (2011)所述,存在某段时期,风格因子相较于其他因子,更能解释股票收益的变动。 
风格因子由细分因子组成,是股票直观的财务属性和组合收益方差的有效预测器,由于同一特殊因子的细分因子捕捉相同的收益驱动因素,这些细分因子显著相关,因此,将这些细分因子组合成单一风格因子可以解决共线性问题,并且使因子结构更加简洁。 
细分因子被标准化到均值为0,标准差为1,换句话说,若\(d_{nl}^{Raw}\)表示股票\(n\)的细分因子\(l\)的原始值,标准化值为: 

\(d_{nl}={d_{nl}^{Raw}-\mu_{l} \over \sigma_{l}}\)                                      (2.4)

其中,\(\mu_{l}\)是细分因子的市值加权均值,\( \sigma_{l}\)是细分因子的等权重标准差,我们在标准化过程中采用了市值加权均值的方法,这样能使市值加权投资组合的收益几乎在所有风格因子上的暴露为0,对于标准差,采用等权重的方法防止大市值股票对于整体的因子暴露有过度影响。 
风格因子由细分因子组合得到:

\(x_{nk}=\sum_{l \in k}w_ld_{nl}\)              (2.5)

其中,\(w_l\)表示细分因子权重,通过求和的方式用一个风格因子代替所有细分因子,细分因子权重通过一个最大化模型解释能力的优化算法得到,生成风格因子的最后一步是再次对因子暴露进行标准化,使市值加权权重为0,等权重标准差为1。

2.4 行业因子

行业代表着风险模型因子的另一重要部分,构建行业因子时,必须使因子能反映当地市场收益驱动因素,例如,使用单级GICS构建行业因子,无法捕捉每一金融市场的独特特征,此外,这种天真的做法总是无法考虑到一些系统性风险,并且具有行业单薄,统计显著性低的问题,为了克服这些缺点,Barra模型采用了定制的因子以反映各市场的特征。 
在模型中使用哪些行业因子需要判断和实证分析,每一行业对应GICS的不同层次,筛选行业因子的一个基本准则是

(a)选中的行业因子必须是经济直观的;
(b)行业因子必须是统计显著的;
(c)新增因子必须增加模型的解释力;
(d)排除轻资产行业。

2.5 多行业暴露

在一个给定的行业分类方案下,例如GICS,研究员必须详细地分析企业的财务报表以确定采用哪些行业,通过研究这些文件,研究员能够确定企业的主业务线及适当的行业配置。然而,有很多例子表明,这样的分析会揭露问题的复杂性,例如,当一个企业在多个行业有经济活动时,对于一个给定资产组合中的这一企业股票,通过多个行业暴露建模是非常有价值的,这样可以得到更真实的表示。 
对于一个给定股票,USE4建模过程中采用了多行业的方法,通过测试对两个重要解释变量的影响:资产和销售。更确切的说,我们用企业的市值对企业在每一行业报告的资产做回归:

\(M_n=\sum_kA_{nk}\beta_k^A +\varepsilon _n\)                 (2.6)

其中,\(M_n\)表示股票n的市值, \(A_{nk}\)表示股票n在行业k的资产,\(\beta_k^A \)表示行业\(\beta\),考虑到\(\beta_k^A \)可以被解释为行业的资产价格比例,将资产作为解释变量,行业暴露可以表示为:

\(X_{nk}^A={A_{nk}\beta_k^A\over \sum_kA_{nk}\beta_k^A}\)                                    (2.7)

对于2.7式中的行业暴露,所有行业和为1。 

我们也将销售作为估计行业暴露\(X_{nk}^S\)的一个解释变量,为了得到净UES4多行业暴露,我们将资产暴露和销售暴露组合:

\(X_{nk} = 0.75*X_{nk}^A+0.25*X_{nk}^S\)                  (2.8)

多行业暴露中,行业最大值为5个,若一个企业有超过五个商业板块,取前五并将行业暴露标准化到1。 
直观地说,我们希望不同行业具有不同的beta,为了说明这一点,我们在图2.1中画出了各行业的beta随时间变化曲线,包括生物制药(整个样本区间里具有最大beta),人寿保险(最小beta)及其他具有中等beta的三个行业。显然,生物制药行业的一美元相较于人寿保险行业的一美元,可以转化为更高的市值。

这里写图片描述

同样重要的是,大部分的数据集使用的行业数量远远多于GICS,例如,NAICS包含的数量是GICS的十倍,因此,在构建多因子暴露时必须对NAICS和GICS进行精准匹配。这也是MSCI理想的切入点,我们公司作为构建GICS的成员,在构建NAICS-GICS匹配这一USE3多行业体系的核心上具有优势,得到的多行业模型不但精确,而且与GICS非常一致。 
例如,我们考虑Deere&公司的多行业暴露,Deere&公司是农业器械生产行业的领跑者。图2.2中,我们画出了从1995年6月30日到2011年5月31日的暴露,USE4中最大的因子暴露始终是在建筑和农业机械上,这也与GICS单行业配置一致,但是,Deere在工业机械和多样化金融上有大量拨款,多行业暴露上的跳跃是由于财务报表变动所致。 

这里写图片描述

 

3. 因子收益

3.1 国家因子

USE4方法中一个重要的优化是明确包含了国家因子,这一优化与GEM2中的世界因子类似,有两方面的优点。第一,从纯行业效应中剔除市场效应,从而可以更直观看出收益和风险的来源;第二,加入国家因子使风险预测更准确,响应的相关性更高,下一节会说明这一点。 
在USE4中,本地的超额收益可表示为:

\(r_n=f_c+\sum_iX_{ni}f_i+\sum_sX_{ns}f_s+\mu_n\)           (3.1)

其中,\(f_c\)是国家因子的收益,

 

 

 

 

 

 

 

 

 

 

 

 


注1:方差膨胀因子的Python算法(),最常用的多重相关性的正规诊断方法是使用方差膨胀因子。自变量x的方差膨胀因子记为VIF,它的计算方法为:VIF =(1-R^2)^-1 式中,R^2是以xj为因变量时对其它自变量回归的复测定系数。

注2:一般认为,如果最大的VIF超过10,常常表示多重相关性将严重影响最小二乘的估计值。