元对比标签:提升20%的股票趋势预测准确率

·
·

论文 | Meta contrastive label correction for financial time series

一 本文简介 
股票趋势预测是一种通过对股票价格历史数据进行分析来预测未来股票价格走势的方法,价格走势通常会被分为三个类别:上涨、下跌和横盘。但是股票价格趋势预测通常面临这样一个问题:在预定义的标签规则下,很难准确地预测股票走势的方向。这是因为传统的标记方法,例如采用三重障碍法,通常会提供不准确甚至是有害的标签。为了解决这个问题,本文的方法能够自动为嘈杂的时间序列模式生成正确的标签,同时该方法能够提高此新标记数据集上的分类性能。基于上述目标,本文的方法具有以下三个创新点:首先,将一种新的对比学习算法融合到元学习框架中,在更新分类模型时迭代地估计正确的标签。此外,利用通过Gramian角场和代表性学习从时间序列数据生成的图像。最重要的是采用多任务学习来预测时变标签。
结果表明,与基准相比,本文的方法具有竞争力并且表现更好,预测准确率提高20%,F1 Score提高了100%。
二 背景知识
元学习 
元学习是一种机器学习技术,它的目标是通过自动学习来改进学习方法本身。在传统的机器学习中,我们需要手动选择模型和超参数,并利用数据训练模型。而在元学习中,我们不再手动进行这些选择,而是让机器自己学习如何选择最佳的模型和超参数。元学习可以被看作是一种“学会如何学习”的学习方法,它通过学习特定任务的方式来改善学习的一般性能。
对比学习 
对比学习是一种机器学习方法,它旨在通过比较样本之间的相似性来进行分类或回归任务。与传统的监督学习不同,对比学习不需要大量标记数据,而是只需要少量标记数据和大量未标记数据即可实现高效的模型训练。在对比学习中,模型会学习将相似样本分组,同时将不同组别的样本分开。这种学习方式使得模型更加适应复杂的类别划分问题,并且可以很好地处理数据中的噪声和变化。
 GASF 
GASF是Gramian Angular Summation Field的缩写,它是一种用于时间序列分析的方法。该方法将时间序列转换为图像表示,这样就可以利用计算机视觉技术来提取特征并进行分类或回归分析。具体而言,GASF方法通过将原始时间序列数据转换为正交极坐标系上的点,并将每个点的角度和幅度值作为新的时间序列表示方式。然后,将这些新的序列用作像素值来构建一个矩阵,称为Gramian矩阵。最后,使用高斯滤波器对Gramian矩阵进行平滑处理,从而生成Gramian角和总和场图(GASF)。
GASF方法的主要优势是可以处理任意长度的时间序列,并且不需要先验知识或领域专业知识。此外,与其他传统的时间序列预处理方法相比,GASF方法可以更好地保留序列的整体形态信息,因此在某些情况下可能会产生更好的分类或回归结果。
三 本文方法 
如何根据数据本身自动标记数据是非常值得探索的。基于此,本文提出了一个MCLC(meta Constrastive Label Correction)学习框架对未标记的数据进行自动标记,并利用元学习算法进行标签准确性优化,提高后续分类模型的性能。MCLC可以分为四个部分:数据处理、标签生成器、标签校正器的元学习、按股票类型的多任务学习。

3.1 数据预处理

图片

通常股票趋势预测会直接将历史价格数据作为训练样本X,后续一段时间的股票价格涨跌作为对应的标签Y。但是单变量时间序列很难反映数据之间潜在的共性和特征。本文X和Y分别进行了预处理,将其转换为图像。
对X使用GASF方法进行转换为图像,具体包括下面3个步骤:

  1. 通过窗口滑动将原始时间序列拆分为多个片段。
  2. 用分段聚合近似方法对原始时间序列中的子序列进行预处理,以清除数据中的噪声,并用Min-MaxScaler方法将数据映射到[0,1]。
  3. 通过GASF方法将序列转换为图像。

图片
使用相对比例构建Y的图像。假设数据集的样本中包括N个价格序列作为标注,分别计算后N-1个价格相对第一个价格的涨跌比例,然后通过绘制一个序列折线图并对折线图和Y轴之间进行着色。
图片
上面的步骤科研将时间序列转换为图像,使用U-net作为编码器来再次提取基于时间信息的空间特征,以实现空间和时间信息的融合。
图片

3.2 标签生成器

MCLC们需要两个神经网络,分别负责基于Y的图像信息进行标记和基于X的图像信息进行分类。从大量的嘈杂金融数据中选择干净数据是一项复杂的任务。本文采用手动标注方法来帮助我们选择少量干净数据。手动标注方法被选择为三重障碍方法,在获取到三重障碍方法的标签之后,我分别观察不同类别的图像数据的模式。然后使用通过模式得到的图像来计算与同一类别的相似度。最后选择具有最高相似度的前100个图像作为干净数据(𝒟_𝑐𝑙𝑒𝑎𝑛)。具体细节如下:

  1. 对于数据集中的所有样本使用以下公式构建手动标签,将数据集分为三个类别,其中v是预设的边界。
图片
2.根据下面公式对于y生成的图像进行像素赋值,获得每个类别的类别表示图片。其中 𝑝𝑖𝑥𝑒𝑙(𝑖, 𝑗) 是像素在 (𝑖, 𝑗) 处的值, 𝑓𝑏 (𝑖, 𝑗) 是黑白图像中 (𝑖, 𝑗) 像素为黑色的事件频率, 𝑓𝑤 (𝑖, 𝑗) 是黑白图像中 (𝑖, 𝑗) 像素为白色的事件频率。

图片
图片

  1. 在每个类别中,计算样本的黑白图像与类别表示图片的欧式距离,选择最小距离的100个样本作为干净样本。

图片
在训练标签生成器时,对于干净数据可以使用监督学习,随机选择 𝒟_𝑐𝑙𝑒𝑎𝑛中的一个数据作为锚点,使用与锚点具有不同标签的点作为负样本。对于未标记的𝒟𝑛𝑜𝑖𝑠𝑒 样本使用无监督学习在 ,在𝒟𝑛𝑜𝑖𝑠𝑒 中随机选择其中一个数据作为锚点,并计算它与 𝒟𝑐𝑙𝑒𝑎𝑛 中所有干净数据之间的距离,然后取最小距离的干净数据的标签作为正标签,取距离更远的干净数据的标签作为负标签。如果距离最大的干净数据的标签与距离最小的干净数据的标签相同,则选择第二大距离的标签作为负标签,以此类推。确定伪标签后,可以根据上述有监督策略构建三元组。使用三元组Loss计算样本之间的Loss。
图片图片

3.3 基于元学习的标签校准器

图片
如上图所示,MCLC方法通过少量的有标记数据来生成和修正标签。首先,将无噪声的预处理数据输入到元模型中,生成无监督策略下的标签。然后,使用三元组正则化损失函数进行标签生成器的预训练,并使用交叉熵损失函数对分类器进行更新。接着,使用生成的标签来纠正主模型。内部循环中优化主模型参数,外部循环中优化元学习器参数,以实现互相博弈。该模型不仅可以自动标记基于时间序列图像信息,还能通过干净数据将信息馈送回元模型,从而帮助更新元学习器。

四 实验分析

本文实验部分收集了2007年至2017年期间5只股票的每日价格,如表1所示。历史价格长度为2053天。将特征(𝑋)序列长度设置为30,预测(𝑌)序列长度设置为10,构造样本,即每只股票有2014个样本。然后将数据集按比例分成训练集和测试集(约3:1的比例,1511×5个训练样本和503×5个测试样本)。
图片图片图片
实验结果显示本文提出的方法在准确性上比基准模型提高了20%,在F1分数上增加了近100%。

五 总结展望

本文提出了一种改进传统手动标注方法的自动标注框架,基于元学习和对比学习。采用Gramian Angular Summation Field 和像素图将时间序列转换为图像数据,增强特征信息。同时,本文提出了三元组正则化损失函数,并在多任务下验证了所提出的MCLC模型在五个股票上的准确性和F1分数。结果表明,MCLC方法在金融股票趋势预测中表现优于基准模型。然而,算法中的一些人工超参数需要精确选择并具有更科学的基础。未来的工作将基于双层优化进行更多的理论分析,并深入研究不同权重分布导致这些惊人结果发生的原因。

·
·
·
·
·
·
·
·
·
·

发布者:股市刺客,转载请注明出处:https://www.95sca.cn/archives/110967
站内所有文章皆来自网络转载或读者投稿,请勿用于商业用途。如有侵权、不妥之处,请联系站长并出示版权证明以便删除。敬请谅解!

(0)
股市刺客的头像股市刺客
上一篇 2天前
下一篇 2天前

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注