Deap因子挖掘：比gplearn强100倍（代码+数据）

又到了星球发布代码的日子：

更新说明：1、Deap做因子挖掘的框架使用。值得说明的是，源码级别，并非产品级，不能指望输入一堆symbols，然后就开始挖掘。——我相信需要做因子挖掘的同学，并不是这样的诉求。亮点：1、支持多symbol
2、支持常数，比如roc(close，20）
3、支持截面。4、支持生成的表达式直接在咱们的因子表达式引擎计算，并可以回测。一句话，gplearn能做的，deap能做，gplearn不能做的，咱们也能做。

下载代码包，安装requirements.txt后，直接运行deap_main可以直接体验：

当下主流私募里多因子策略的玩法，除了经验手工构造之外，机器挖掘有几条路径：遗传算法，主要是深度改造版本的gpearn，咱们直接使用deap弯道超车；强化学习——这个星球过几周应该会放出代码来（不依赖qlib的版本），然后是使用AIGC来生成因子。

其实因子挖掘思路大同小异，没有什么特别。

这里更重要的命题是如何评价一个因子的有效性，或者更直接一点，如何通过因子，构建出有效的策略——这本身就是因子有效性的定义。而不是ic、ir这样简单的指标？

所以，下周会重点专注于——单因子的评价框架。类似alphalens，但应该要比它好用。

吾日三醒吾身

芒格的多元思维模型，就是两个看似相互矛盾的体系，在你这个可以完美融合。

其实这里的逻辑也比较简单。

所以认知或模型，都有其成立的条件，这就意味着有边界。

在恰当的条件下，选择适用的模型，而不是照本宣科。

比如大量理财书，比如《穷爸爸、富爸爸》，或者《拿铁因素》，讲的都是复利，长期，慢慢变富的理念；但在《百万富翁快车道》里，这种就被称为“慢车道”。

孰对？都对。

慢车道普通人只要意识到，都可能做到，做时间的朋友，这就应该去做，越早越好。因为你做与不做，时间都会一天天过去，我们都会慢慢变老。有慢车道财富自由加持，你的财务更加安全，甚至过了40年，就实现了财务自由。

而快车道强调变富要趁早——这当然好嘛。

不矛盾。它更强调创造价值，做生产者，做出一款产品或服务，然后数年时间实现自由。

对应咱们说的ABCZ， Z更接近慢车道（当然咱们的年化设定为10%，比慢车道快，你看，这就是多元思维模型）。而“快车道”更接近C计划。

历史文章：

Deap因子挖掘基础框架完成|量化私募投研的典型工作流程

Deap因子挖掘：比gplearn强100倍（代码+数据）

deap：多股票多维度遗传算法因子挖掘，可以整合chatGPT。

Quantlab4.0框架代码发布：支持零代码快速创建策略（代码+全市场数据下载）

AI量化实验室——2024量化投资的星辰大海

续前面两篇，继续使用Deap做因子挖掘——与咱们的Quantlab因子表达式引擎直接关联起来了：

1、生成的因子，在训练集和测试集上计算ic值。

def map_exprs(evaluate, invalid_ind, gen, label, split_date):
    names, features = [], []
    for i, expr in enumerate(invalid_ind):
        names.append(f'GP_{i:04d}')
        features.append(stringify_for_sympy(expr))

    features = [f.lower() for f in features]
    for name, feature in zip(names, features):
        print(name, ':', feature)

    all_names = names.copy()
    all_names.append(label)
    all_features = features.copy()
    all_features.append('label(close,5)')

    df = CSVDataloader(path=DATA_DIR_QUOTES.resolve(), symbols=['510300.SH', '159915.SZ']).load(all_features, all_names)
    df.set_index([df['symbol'], df.index], inplace=True)
    # df.dropna(inplace=True)

    # 将IC划分成训练集与测试集
    df_train = df[df.index.get_level_values(1) < split_date]
    df_valid = df[df.index.get_level_values(1) >= split_date]
    print(df_train)
    print(names, features)

    ic_train = df_train[names].groupby(level=0, group_keys=False).agg(lambda x: calc_ic(x, df_train[label])).mean()
    ic_valid = df_valid[names].groupby(level=0, group_keys=False).agg(lambda x: calc_ic(x, df_valid[label])).mean()
    print('ic_train', ic_train)
    print('ic_valid', ic_valid)

    results = {}
    for name, factor in zip(names, features):
        results[factor] = {'ic_train': ic_train.loc[name],
                           'ic_valid': ic_valid.loc[name],
                           }
    print(results)
    return [(v['ic_train'],v['ic_valid']) for v in results.values()]