A股历史价量数据，基本面数据的更新架构

从每日更新增量数据，到数据缓存到csv，到csv合并成csv大宽表，然后自动化打包成zip文件供下载。

说说这里的逻辑以及实现的难点：

我们的持久化库是mongo，选择的理由就是简单易用。与之对比的如mysql，或者postgres这样的关系型数据库，建schema，数据排重之类都很麻烦。mongo这样bson格式相对宽松。我们并不需要事务，或者跨表查询，因此不需要关系型数据库。

那为什么又要导出到本地csv呢？

oltp和olap的区别，oltp关注事务逻辑，每次操作的数据量很小，就是某条数据的增、删，改查为主。但olap不一样，分析需求，很大可能就是分析历史至信，那就需要把全市场全量数据都加载上来。这时候，如果每次从数据库中访问，那性能是个很大的问题。

因此我把数据分成两段，一段是历史数据，一段是最近的增量数据，只有增量数据需要每天更新，然后使用duckdb可以直接查询分析整个文件夹。

下面是打包的代码：

import zipfile, os


def zip_dir(startdir, file_news):
    startdir = startdir  # 要压缩的文件夹路径
    z = zipfile.ZipFile(file_news, 'w', zipfile.ZIP_DEFLATED)  # 参数一：文件夹名
    for dirpath, dirnames, filenames in os.walk(startdir):
        print(dirnames)
        fpath = dirpath.replace(str(startdir), '')  # 这一句很重要，不replace的话，就从根目录开始复制
        fpath = fpath and fpath + os.sep or ''  # 实现当前文件夹以及包含的所有文件的压缩
        for filename in filenames:
            z.write(os.path.join(dirpath, filename), fpath + filename)
    z.close()

if __name__ == '__main__':
    from quant_project.config import DATA_DIR_CSVS
    zip_dir(DATA_DIR_CSVS.resolve(), 'test.zip')