交易信号的质量取决于它对未来收益的预测能力以及在实际交易中产生的经济价值。简单来说,一个好的交易信号应该能够准确预测未来的收益,并且在实际交易中能够带来实实在在的经济价值。为了评估交易信号的质量,我们可以使用统计指标来衡量这两个属性。这两个属性之间存在一定的关联,但并不完全相同。我们需要有实证证据来支持这两个属性。正确的选择取决于交易信号的特征和策略的目标。每个策略都需要定制适当的标准函数。这对于寻求优化交易模型的超参数并得出有意义的回测的统计学习尤其重要。
一. 衡量预测能力的重要性
交易信号的质量主要取决于它对未来目标回报的可靠预测能力。这些信号是用来指导交易或投资策略中头寸的指标。可靠性指的是这种预测能力在未来保持有效的理由和证据。我们需要一个合理的理论来解释这种关系,例如信息优势或市场中存在的简单利润机会。同时,我们还需要统计数据来证明过去这种关系的重要性。
在当前机器学习算法的时代,衡量可靠的预测能力变得尤为重要,因为它指导着基于统计学习的自动化决策。在这方面,关键的选择包括:
-
是否选择一个单一的信号或一系列信号来进行交易, -
如果有多个竞争的信号,应该选择哪一个, -
采用哪种模型来优化信号的确切形式。
简而言之,成功地将统计学习应用于交易策略需要选择适当的预测能力标准,这取决于交易策略的目标和可用数据的特性。例如,对于基于中期头寸规模的策略(可能基于风险溢价估计),需要与后续回报线性相关的信号。相比之下,对于持有短期头寸的策略,其目标是维持恒定的波动率,这需要能够准确预测后续回报方向的信号。
二. 衡量价值创造的重要性
交易信号的价值主要取决于它对投资者盈亏的预期贡献。预测能力和价值生成通常是正相关的,但这并不是简单的关系。仅仅拥有良好的预测能力并不能保证盈利。实际上,价值生成还需要考虑信号与标准风险溢价之间的关系,或者信号在市场上的表现。
因此,除了预测能力之外,证据支持正盈亏贡献也是评估交易信号和相关模型优化的重要补充标准。通常,我们将可靠的预测能力视为使用交易信号的必要条件,而实现实质价值生成的证据则是充分条件。如果回测结果显示良好的盈亏,但预测能力较差,可能是由于方向偏差或模拟盈亏的个别大正矩所导致的意外价值生成。相反,如果预测能力很强,但盈亏表现不佳,通常表明信号存在构建错误,例如意外的方向偏差或极端异常值。
选择价值标准与策略目标密切相关。例如,对于旨在分散现有风险的策略,调整与基准相关的系统性风险非常重要。实际上,在市场危机中,一些空头策略可能会表现出强劲的正回报,即使在更广泛的情况下它们本身并不能产生正的损益。
三. 衡量预测能力的质量指标
在金融市场研究中,数据科学家通常使用两种基本类型的预测质量指标。
-
第一种指标关注特征预测目标准确值的能力,通常是通过回归模型的残差进行显式或隐式的度量。 -
第二种指标侧重于特征通过二元分类来区分正回报和负回报周期的能力,主要基于混淆矩阵的值。
现在,我们将从评估单个信号的预测能力的角度来讨论这两种指标。如果该信号是通过模型估计创建的,那么我们假设评估过程使用的是与模型估计或超参数优化中使用的“训练”数据不同的保留“测试”样本。
3.1 基于残差的统计
基于残差的统计指标是一种评估交易信号预测能力的统计工具。残差指的是预测值与实际值(或者称为“真实值”)之间的差异。这意味着这类统计指标在很大程度上取决于预测误差的大小。这有两个主要的影响:
-
金融回报受到许多影响因素的影响,很难准确预测。因此,与其他领域的统计分析相比,交易信号的拟合程度通常较低。接受信号的阈值通常在预测变化的低个位数百分比范围内,并侧重于关系的显著性,而不是对解释的回报变动比率的雄心勃勃的目标。在交易中,不需要预测很大比例的回报变动就可以赚取很多钱。 -
目标回报中的几个大型无法预测的异常值可能对统计指标产生重大影响。基于残差的统计指标会严重惩罚未能预测到大幅目标回报的交易信号。这意味着这些统计指标更具有意义,如果它们被应用于在第一时间进行了适当“风险管理”的信号和目标头寸,而不是原始回报。如果分析中的特征和目标只是实际交易中信号和头寸的粗略代理,基于残差的统计指标可能会误导性地进行总结。
各种基于残差的统计指标突出或减轻了这些特征,因此它们的有用性取决于上下文:
-
最常见的基于残差的统计准则是决定系数或R平方。它简单地表示目标回报的解释方差与总方差之间的比率。由于方差是对回报变动的平方,异常值比正常回报更重要。例如,大市场下跌的“闪崩”和紧随其后的迅速恢复比许多正常交易日的重要性更大,用于评估解释方差比例的比例。此外,由于R平方忽略了关系的其他特征,如样本大小和与基准的相关性,它是一个相对度量,用于比较基于相同数据集的信号或模型的生成。它不适用于跨不同类型的策略或不同市场的交易信号成功性比较。此外,它没有根据我们可以决定是否交易信号的自然阈值。 -
平均绝对误差:它衡量了预测值与实际值之间的绝对差异的平均值。与决定系数不同,平均绝对误差对异常值的影响较小,更均衡地评估模型的表现。然而,类似于决定系数,平均绝对误差只能用于比较基于相同数据集的相似信号。对于交易信号,没有明确的指导说明哪种误差是可接受的。 -
R平方缺乏明确的决策阈值和可比性,因此更关注特征-目标关系的显著性的有效度量。对于单一市场测试,可以使用t统计量和相关概率。对于在多个市场上评估的策略,必须考虑数据的面板结构,例如使Macrosynergy面板测试。 -
由于相关性或回归的主要显著性检验假设分布为正态分布,可以考虑使用非参数相关性的显著性作为替代或第二意见,它不依赖于目标回报的特定分布:对于非正态分布(具有极端值、异常值的数据),相关系数应该是根据数据的等级而不是实际值来计算的。
3.2 基于混淆矩阵的统计指标
如果我们主要考虑交易信号预测正预期回报与负预期回报,我们可以应用二元分类的性能评估指标,这些指标基于混淆矩阵,即真阳性、假阳性、真阴性和假阴性分类的计数表。在评估交易信号时,有几个相关的统计指标可供使用:
-
准确度(Accuracy):准确度是正确分类的回报方向与所有分类回报的比率。它是真阳性和真阴性之和除以总分类数。这个指标直观,并且在正负样本上给予相同的重视。然而,准确度在评估交易信号时可能会非常误导,特别是当样本不平衡时,它会更加重视占大多数的类别的分类。例如,如果测试样本中的目标回报主要是正数,任何具有正偏差的特征都可以产生超过50%的准确度,即使它没有预测能力。 -
平衡准确度(Balanced Accuracy):平衡准确度是正确分类的正样本和负样本比率的平均值。这个指标始终同等重视正预测和负预测的成功率。如果我们希望信号在做多和做空位置上表现良好,并且不考虑信号是否复制了训练数据集的历史类别偏差,那么平衡准确度比准确度更合适。 -
精确度(Precision)和负预测值(Negative Predictive Value):如果特别关注正确预测正回报或负回报,那么精确度和负预测值是有效的性能指标。精确度衡量仅针对正样本的分类准确性,它是真阳性与所有预测为正样本的比率。类似地,负预测值衡量仅针对负样本的分类准确性。单侧准确度指标在策略的目标中低容忍假分类的一侧,并且对于错过该方向的分类不太关心时可能有用。例如,如果一个偏多策略中偶尔出现负信号会导致昂贵的头寸清算,那么高负预测值将有助于控制交易成本。 -
灵敏度(Sensitivity)和特异度(Specificity):如果不想错过正回报或负回报期间非常重要,那么灵敏度(或召回率)和特异度是重要的评估指标。二元交易信号的灵敏度衡量其在预测正回报方面的成功率,它是真阳性与所有正回报期间的比率。特异度衡量其在预测负回报方面的成功率,它是真阴性与所有负回报期间的比率。例如,如果一个策略旨在在市场回撤期表现优异,那么高特异度是其成功的标准。 -
F1分数是精确度(precision)和召回率(recall)的“调和”指标。确切地说,它是精确度和召回率的乘积的两倍,除以精确度和召回率之和。它的值介于零和一之间,并惩罚过于广泛或过于狭窄的正分类网络。与平衡准确度类似,它是不平衡样本的适当指标。例如,如果正返回的数量压倒性地多,很容易获得高精确度但很难获得高灵敏度。此外,与平衡准确度不同,F1分数还在正确预测正例和不错过正返回之间取得平衡。因此,F1分数为信号质量提供了相当广泛的评估,适用于许多目的。该分数可以推广为Fβ分数,其中β可以选择权衡精确度和召回率。 -
为了获得与信号的零值或中性值无关的质量评估,可以使用曲线下面积(AUC)分数。它通常被称为AUC-ROC,表示接收器操作特性(ROC)曲线下的面积。ROC曲线是二元分类器在不同分类阈值下的性能绘图。它显示了真正例率或灵敏度(正确分类的正例比例)在y轴上,以及假正例率(错误识别为正例的负例比例)在x轴上。ROC曲线上的每个点对应于应用于分类器预测概率的特定阈值,并且曲线本身是通过连接这些点生成的。AUC-ROC分数通过测量ROC曲线下的完整面积来计算。它的取值范围从0到1。AUC-ROC为1表示完美分类器,意味着它可以完全区分正例和负例,实现真正例率为1和假正例率为0。AUC-ROC为0.5表示随机分类器,对样本没有区分能力。 -
AUC-ROC分数适用于应用不同阈值来设置头寸的交易信号。它还适用于评估具有不确定中性水平的信号的预测能力。AUC-ROC分数并不总是适用于不平衡的数据集。例如,如果训练数据包含许多正返回期间,而只有很少的负例,那么负例将起到不成比例的重要作用,因为它们的分类对于灵敏度更为重要。在不平衡的情况下,基本的ROC曲线会被推向图表的左上角,这意味着当存在数据不平衡时,AUC-ROC对于模型比较是有用的,但作为独立的度量指标相对不具有信息性。 -
AUC-PR指标返回了精确度和灵敏度曲线下的面积。这可以看作是F1分数的扩展,因为曲线绘制了一系列分类阈值下的精确度和召回率对。该曲线下的面积是对模型性能的很好概括,不考虑所使用的阈值。通常,这是针对分类问题中的少数类别生成的,但该曲线(以及随后的指标)可以计算为两个类别中的任何一个。通过直接关注正例或负例样本,可以缓解在使用ROC曲线时出现的不平衡问题。
四. 衡量损益价值创造的质量指标
价值生成的标准基础是普通的盈亏系列(PnL)。这些是正负回报的时间序列,产生于将评估的交易信号简单应用于仓位。在最简单的形式中,交易因子值与随后的回报相乘,受到重新平衡周期的限制,即应用信号不变以避免过度交易。由于投资组合优化通常归结为某种形式的均值方差最大化,PnL的标准绩效比率代表了回报与风险的权衡。这些比率的不同版本源于风险观点的不同定义和策略PnL期望收益的期望配置差异。
-
夏普比率是用来衡量投资策略的绩效的指标。它是策略年化超额回报(总回报减去资金成本或无风险利率)除以年化标准偏差的比值。夏普比率的目标是在最大化预期效用和最小化风险之间取得平衡。标准偏差用来衡量回报的波动性,夏普比率通过使用标准偏差来惩罚风险。然而,夏普比率在某些情况下可能会产生误导。如果回报的波动不对称或回报的不确定性非常低,夏普比率作为分配标准可能会误导。夏普比率夸大了具有过度回撤的策略的相对价值,也夸大了与无风险利率微小差价的现金式回报的价值。 -
Sortino比率是夏普比率的一种替代指标,它只考虑回报的下行波动(负偏差)。Sortino比率特别适用于那些预期有大幅上行波动的策略。与夏普比率不同,Sortino比率不假设回报服从正态分布。 -
Calmar比率将投资组合的复合年增长率除以最大回撤,用于衡量回报是否适当补偿回撤风险。最大回撤是指投资组合从峰值到谷底的最大百分比下降。Calmar比率在评估交易信号在机构交易环境中的生存概率方面有帮助。 -
Omega比率是根据收益超过某一阈值的概率与亏损低于该阈值的概率之比来衡量绩效的指标。它考虑了整个收益分布的特征,而不仅仅是标准差。阈值通常是无风险利率。Omega比率的一个有趣特性是它可以对所有投资进行排名,无论阈值如何设置。它适用于那些导致非常规但特征明显的分布的信号。 -
Kappa是一种性能比率,用于衡量投资策略的风险调整绩效。它将超额回报除以高阶偏差,考虑了偏斜和峰度。当策略回报不服从正态分布,存在负偏斜或重尾风险时,Kappa比率可以提供有用的信息。不同的Kappa变体对偏斜和峰度的敏感性不同,因此选择不同的Kappa变体可能会影响对投资选择的评估和最大化Kappa值的决策。 -
尾部比率是用于估计极端正回报相对于极端负回报的概率的指标。它对于涉及罕见经济或市场事件的交易因素和集中风险是有用的。尾部比率通过比较超过高分位数(例如第95百分位数)的回报与超过低分位数(例如第5百分位数)的回报的绝对值来衡量极端正回报超过极端负回报的趋势。 -
Treynor比率是一种衡量投资策略超额回报与系统性市场风险之间关系的指标。它将策略的超额回报除以策略相对于基准指数(如全球股票指数)的贝塔值。贝塔表示策略对指定指数的敏感性。Treynor比率提供了单位基准风险下的超额回报,与某一时期内相同超额回报的两个风险水平不同的证券在Treynor比率方面将有所区别。广义Treynor比率可以使用多个基准来定义,适合于降低系统性市场风险或专注于纯阿尔法的策略。 -
一致加权回报是一种用于评估交易策略的季节性特征的指标。它考虑了策略回报的季节性,通过惩罚偏离稳定上升趋势的路径来衡量总体回报。一致加权回报使用线性回归来分析策略回报的线性特征,通过计算线性函数在时间上的R方来衡量线性关系的程度。R方值接近1表示完美的线性关系,接近0表示缺乏线性关系。一致加权回报是R方乘以年化回报,提供了一种评估交易策略与稳定线性价值生成接近程度的分析方法。
五. 如何组合指标进行使用
如果对信号评估有多个性能标准需要考虑,就需要设计一个标准函数来将它们综合起来。上述所有的指标都可以看作是这种函数的潜在参数。适当的标准函数通常会根据策略类型和所考虑的交易合约集进行定制。
-
一种简单的方法是对几个指标进行缩放和平均。然而,简单地取平均是粗略的,并且缩放是一个挑战。策略类型的绩效指标没有大样本可供使用,也没有自然的标准偏差。因此,这种方法通常会使用逻辑或合理的范围进行标准化,这需要进行判断。 -
另一种方法是通过不同的指标对信号进行排名,然后对排名进行平均。这种方法比参数平均更直接,但忽略了绩效之间的距离。此外,相对排名通常不适合用于设置信号质量的最低阈值,除非有一个最低绩效策略可供排名。 -
通常情况下,根据策略的具体目的,会存在一个逻辑形式的标准函数。一种方法是主要优化单个绩效指标,但需要其他指标达到阈值。这种方法区分了良好评级的必要条件和充分条件。例如,要优化的指标可能是Sortino比率,但它的资格可能取决于显著性检验和超过50%的平衡准确度所指示的预测能力。后两个条件可以转化为一个虚拟值,只有当它们满足时才设为1,并与Sortino比率相乘。
发布者:股市刺客,转载请注明出处:https://www.95sca.cn/archives/111018
站内所有文章皆来自网络转载或读者投稿,请勿用于商业用途。如有侵权、不妥之处,请联系站长并出示版权证明以便删除。敬请谅解!