量化实战入门(23)量化中的数据类型解析

量化中的数据类型解析
01

结构化数据
结构化数据是指具有明确结构和格式的数据,它包括了严格定义的数据类型,如数字、日期和字符串,以及它们在数据库中的关系。这些数据通常以表格形式存在,每个数据字段(列)具有特定的含义和数据类型,每一行则代表一次观察或测量。
结构化数据是量化投资中最常见的数据类型,比如行情数据、财务数据、宏观经济数据、市场数据等都是结构化数据,
结构化数据通常以表格形式存储。下面是一个简单的示例:
日期
股票代码
收盘价
成交量
2023-07-01
股票A
152.00
10000000
2023-07-02
股票A
152.50
9500000
2023-07-03
股票A
153.00
10500000
2023-07-01
股票B
222.00
8000000
2023-07-02
股票B
223.00
8500000
2023-07-03
股票B
224.00
9000000
在这个数据表中:
每一列都是一个字段,具有明确的名称和数据类型,例如,“日期”是日期类型,“股票代码”是字符串类型,“开盘价”、“收盘价”、“最高价”、“最低价”和“成交量”都是数值类型。
每一行都是一次观察值,例如,第一行是2023年7月1日股票A的股票交易数据。
02

非结构化数据
非结构化数据是指没有预定义数据模型的数据,这些数据不易于在传统的关系数据库中存储和分析。非结构化数据包括文本、图像、音频等数据类型:
新闻和社交媒体数据:来自新闻网站、微博等来源的文本数据。
图像和声音数据:例如卫星图像数据、电话会议的录音。
例如,以下是一条新闻标题的示例:
“XXX公司业绩稳定增长,拟收购海外优质资产,加强国际业务布局”
通过自然语言处理(NLP)技术,可以从这条新闻中提取出有用的信息,如公司名称(XXX公司)、事件(拟收购海外优质资产,加强国际业务布局)和业绩情况(稳定增长)。
又如某款新手机上市,通过收集微博用户对这款手机的评价文本,可以用于情绪分析,从而影响投资决策。
再如,通过分析卫星图像,可以预测农作物的产量,从而影响相关的期货价格。
这些非结构化数据需要进行复杂的预处理,如文本分析、图像识别和声音识别,才能转化为可以用于量化投资的结构化数据。但是,由于它们提供了结构化数据无法覆盖的信息,因此在量化投资中越来越受到重视。
03

时间序列数据
时间序列数据是指对单一资产或投资对象在不同时间点的数据。时间序列数据是一种特殊类型的结构化数据,其中每个数据点都与一个时间戳关联,例如行情数据就是典型的时间序列数据。
以下是某个公司股票价格时间序列数据的示例:
时间戳
收盘价
成交量
2023-07-01
150.00
500000
2023-07-02
150.25
450000
2023-07-03
150.50
550000
2023-07-04
150.75
600000
2023-07-05
151.00
650000
在这个数据表中,每一行都是一个时间戳,记录了该时刻的开盘价、最高价、最低价、收盘价和成交量。
04

横截面数据
横截面数据是指在同一时间点(即:横截面),不同资产或投资对象的数据。这与时间序列数据不同。横截面数据也是一类结构化数据。
假设我们在2023年9月19日收集以下的横截面数据:
股票名称
收盘价
成交量
股票A
13.2
50000000
股票B
6.5
80000000
股票C
4.8
100000000



在这个例子中,我们收集了所有股票在同一时间点(2023年9月19日)的收盘价和成交量。这就是一个横截面数据的例子。
05

面板数据
面板数据是在多个时间点观察到的横截面数据,包含了时间序列和横截面两个维度。
例如,一个包含多个股票在多个时间点的价格的数据集就是面板数据。
日期
公司
收盘价
成交量
2023-07-01
股票A
152.00
10000000
2023-07-02
股票A
152.50
9500000
2023-07-03
股票A
153.00
10500000
2023-07-01
股票B
222.00
8000000
2023-07-02
股票B
223.00
8500000
2023-07-03
股票B
224.00
9000000
在这个数据表中,每一列都是一个字段,每一行都是一次观察值。这个表格也可以被看作是若干个时间序列(股票A和股票B的价格和交易量)的集合,或者是若干个横截面(2023年7月1日、2日、3日的所有公司的价格和交易量)的集合。
06

了解数据类型有什么用
在量化投资中,掌握不同数据的结构特点并根据不同的结构来处理数据是重要的技能,下面举例说明:
1、结构化数据和非结构化数据在存储上的不同处理
结构化数据是预先定义好的、格式化的数据,这种数据类型通常由表和字段组成,每个字段都有一种特定的数据类型(如整数、字符串、日期等)。数据的结构(即表的模式)是预定义的,可以在存储数据之前就知道。所以结构化的数据可以很容易地存储在关系型数据库(如SQLite、MySQL),甚至是CSV文件这种简单的数据格式中。
与结构化数据不同,非结构化数据没有预定义的格式或组织方式,因此不能直接存储在传统的关系型数据库中。非结构化数据包括文本、图像、视频、音频文件、电子邮件、社交媒体帖子、网页内容等。例如,一个博客帖子就是非结构化数据,它可能包含标题、作者、发布日期、正文、评论等各种信息,但这些信息没有固定的格式或组织方式。非结构化数据的存储通常需要使用特殊的数据库或存储系统,如 NoSQL 数据库(MongoDB)、对象存储(Amazon S3)、分布式文件系统(Hadoop HDFS)等。
2、分清时间序列维度与横截面维度
我们在数据库中存储的往往是面板数据,包含时间序列和横截面两个维度,例如在数据库中存储的行情数据,通常会包括多只股票在多个日期的开盘、收盘、最高、最低价格。在操作面板数据时,需要分清是对时间序列的维度进行操作,还是对横截面的维度进行操作。
比如我们要对股票的涨跌幅进行排序,可以是时间序列排序,也可以是横截面排序,但两者的含义是不同的。如果是对时间序列维度进行排序,即对同一只股票在多个连续日期的涨跌幅进行排序,反映的是这只股票的价格动量,即这只股票在这段时间涨跌的趋势;如果是对横截面维度进行排序,即对某一天所有的股票的涨跌幅进行排序,反映的是在这一天各只股票的强弱对比。
数据在量化投资中扮演着关键的角色。从结构化数据到非结构化数据,从时间序列数据到横截面数据,再到面板数据,每一种数据类型都有其独特的价值和应用场景。在后续的文章中,我们将更深入地探讨各种数据类型在量化投资中的具体应用,以及如何结合市场动态和投资者的个性化需求来制定有效的投资策略。

发布者:爱吃肉的小猫,转载请注明出处:https://www.95sca.cn/archives/45788
站内所有文章皆来自网络转载或读者投稿,请勿用于商业用途。如有侵权、不妥之处,请联系站长并出示版权证明以便删除。敬请谅解!

(0)
爱吃肉的小猫的头像爱吃肉的小猫
上一篇 2024 年 6 月 20 日 上午10:18
下一篇 2024 年 6 月 20 日 上午10:30

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注