年化18.1%，大模型如何实现因子挖掘（附python代码和数据下载）

今天咱们引入大模型（LLM）来强化遗传算法的因子挖掘。

我们知道，遗传算法的初代因子是随机生成的，而后通过fitness的优化进行进化和迭代。

所以，初代因子一定程度上决定了进化的方向和速度。

这时候，我们可以通过大模型生成一些低相关的，可解释的因子，而后引导遗传算法的方向。

当然在进化过程中，也可以加入大模型，这是后续的工作了。

—

大模型生成因子表达式

安装依赖——我们使用langchain来简化与大模型的交互过程：

langchain
langgraph

langchain_openai

langchain_community

配置自己的KIMI_KEY到系统变量：

注意，这里加完之后，需要重启系统一次才会生效。

当然，你也可以直接改代码里的KIMI_KEY的值。

KIMI_KEY = None
if not KIMI_KEY:
    import os
    KIMI_KEY = os.getenv('KIMI_KEY')
    print(KIMI_KEY)

请kimi生成的10个因子，参考worldquant101的格式，看起来还可以：

{

“expr”: [

“(-1 * rank(((ts_delta(close, 1) * ts_std(volume, 10)) / ts_mean(volume, 20))) * ts_rank(ts_delta(close, 2), 5))”,

“(-1 * rank((ts_max(ts_delta(close, 1), 3) / ts_min(ts_delta(close, 1), 3))) * ts_rank(ts_delta(volume, 3), 5))”,

“(-1 * rank((ts_skew(ts_delta(close, 1), 5) * ts_kurt(ts_delta(close, 1), 5))) * ts_rank(ts_delta(close, 1), 10))”,

“(-1 * rank((ts_delta(close, 1) * ts_sum(ts_delta(close, 1), 5))) * ts_rank(ts_delta(close, 1), 5))”,

“(-1 * rank((ts_delta(close, 1) * ts_max(ts_delta(close, 1), 10))) * ts_rank(ts_delta(close, 1), 10))”,

“(-1 * rank((ts_delta(close, 1) * ts_min(ts_delta(close, 1), 10))) * ts_rank(ts_delta(close, 1), 10))”,

“(-1 * rank((ts_delta(close, 1) * ts_mean(ts_delta(close, 1), 5))) * ts_rank(ts_delta(close, 1), 5))”,

“(-1 * rank((ts_delta(close, 1) * ts_median(ts_delta(close, 1), 5))) * ts_rank(ts_delta(close, 1), 5))”,

“(-1 * rank((ts_delta(close, 1) * ts_pct_change(close, 5))) * ts_rank(ts_delta(close, 1), 5))”

]

}

核心代码如下：

class FactorGPTAgent:
    def __init__(self):
        # self.sources = [x.strip() for x in read_file_2_list('worldquant_101.txt')]
        optional_params = {
            "response_format": {"type": "json_object"}
        }
        self.func_names = []
        from datafeed.expr_functions import unary_rolling_funcs
        for func in unary_rolling_funcs:
            self.func_names.append(func)

        from datafeed.expr_functions import unary_funcs
        for func in unary_funcs:
            self.func_names.append(func)

        from datafeed.expr_functions import binary_roilling_funcs
        for func in binary_roilling_funcs:
            self.func_names.append(func)

        # openai_api_key = KIMI_KEY
        self.model = ChatOpenAI(temperature=0, openai_api_key=KIMI_KEY, model='moonshot-v1-8k',
                                base_url="https://api.moonshot.cn/v1", max_retries=1, model_kwargs=optional_params)

    def build_prompt(self):
        prompt = [{
            "role": "system",
            "content": "你是一个量化分析师. 你可以通过阅读多个alpha因子表达式，总结其内在规律，并且可以创新性的生成可用的因子表达式。"
                       "对于生成的表达式，你能够解释其有效性，并且能够用清晰简洁的语言解释其各个变量的含义。\n "
        }, {
            "role": "user",
            "content": f"指令描述: 生成因子表达式"
                       f"可以使用的变量名：open,high,low,close,volume\n"
                       f"可以使用的函数名列表: {self.func_names}\n "
                       f"你的任务学习以上资源之后，总结其规律，输出一个同类型表达式。\n "
                       f"书写表达式时，请仅使用样例数据里的函数，每次生成1个，,生成的表达式，不要带Alpha#xxx,期望因子的相关性低\n"
                       f"Please return nothing but a JSON in the following format:\n"
                       f"{sample_json}\n "
        }]
        return prompt

    def run(self):
        lc_messages = convert_openai_messages(self.build_prompt())
        response = self.model.invoke(
            lc_messages).content
        print(response)
        return json.loads(response)


if __name__ == '__main__':
    FactorGPTAgent().run()