继续讲因子挖掘：目前有三个方向：

一、“传统的” 以gplearn为代表的遗传算法；

二、强化学习驱动的深度学习框架；

三是gpt驱动的LLM生成因子框架。

这三类咱们都写过代码，不过接下来要做的事情，需要把三者整合到一个统一的框架下，并且与Quantlab回测引擎打通。因子可以直接形成策略。

表达式由token组成，比如+，-,*,/这样的运算符，

还有自定义函数，比如ts_rank, ts_argmin，我们在wordquant101里实现了

很多这样的函数

强化学习每次生成一个token，如果遇到结束符号就中止。

形成一个表达式。

我们定义一系列的Token，包含开始，结束符，然后是函数集，运算符以及常数等。

from enum import IntEnum
from typing import Type


class FeatureType(IntEnum):
    OPEN = 0
    CLOSE = 1
    HIGH = 2
    LOW = 3
    VOLUME = 4
    VWAP = 5


class SequenceIndicatorType(IntEnum):
    BEG = 0
    SEP = 1


class Token:
    def __repr__(self):
        return str(self)


class ConstantToken(Token):
    def __init__(self, constant: float) -> None:
        self.constant = constant

    def __str__(self): return str(self.constant)


class DeltaTimeToken(Token):
    def __init__(self, delta_time: int) -> None:
        self.delta_time = delta_time

    def __str__(self): return str(self.delta_time)


class FeatureToken(Token):
    def __init__(self, feature: FeatureType) -> None:
        self.feature = feature

    def __str__(self): return self.feature.name.lower()


class OperatorToken(Token):
    def __init__(self, operator) -> None:
        self.operator = operator

    # 直接返回函数名（这里的operator就是函数名）, 在函灵敏集的基础上，需要加上Add, Sub, Mul, Div加减乘出。
    def __str__(self): return self.operator.__name__


class UnaryOperator(OperatorToken):
    def __init__(self, operator):
        super(UnaryOperator, self).__init__(operator)
        pass
    @classmethod
    def n_args(cls) -> int: return 1


class UnaryRollingOperator(OperatorToken):
    def __init__(self, operator):
        super(UnaryRollingOperator, self).__init__(operator)

    @classmethod
    def n_args(cls) -> int: return 2


class BinaryOperator(OperatorToken):
    def __init__(self, operator):
        super(BinaryOperator, self).__init__(operator)

    @classmethod
    def n_args(cls) -> int: return 2



class BinaryRollingOperator(OperatorToken):
    def __init__(self, operator):
        super(BinaryRollingOperator, self).__init__(operator)

    @classmethod
    def n_args(cls) -> int: return 3


class DeltaTime(Token):
    def __init__(self, delta: int):
        self.delta = delta


class SequenceIndicatorToken(Token):
    def __init__(self, indicator: SequenceIndicatorType) -> None:
        self.indicator = indicator

    def __str__(self): return self.indicator.name


BEG_TOKEN = SequenceIndicatorToken(SequenceIndicatorType.BEG)
SEP_TOKEN = SequenceIndicatorToken(SequenceIndicatorType.SEP)

一棵逻辑树：（一棵“逆波兰”token构成的表达式树），对于构建有意义的表达式。

#from alphagen.data.expression import *
from typing import List

from datafeed.mining.tokens import *


class ExpressionBuilder:
    stack: List[Token]

    def __init__(self):
        self.stack = []

    def get_tree(self):
        if len(self.stack) == 1:
            return self.stack[0]
        else:
            raise InvalidExpressionException(f"Expected only one tree, got {len(self.stack)}")

    def add_token(self, token: Token):
        if not self.validate(token):
            raise InvalidExpressionException(f"Token {token} not allowed here, stack: {self.stack}.")
        if isinstance(token, OperatorToken):
            n_args: int = token.n_args()
            children = []
            for _ in range(n_args):
                children.append(self.stack.pop())
            self.stack.append(token(*reversed(children)))  # type: ignore
        elif isinstance(token, ConstantToken):
            self.stack.append(ConstantToken(token.constant))
        elif isinstance(token, DeltaTimeToken):
            self.stack.append(DeltaTime(token.delta_time))
        elif isinstance(token, FeatureToken):
            self.stack.append(FeatureToken(token.feature))
        else:
            assert False

    def is_valid(self) -> bool:
        return len(self.stack) == 1 and self.stack[0].is_featured

    def validate(self, token: Token) -> bool:
        if isinstance(token, OperatorToken):
            return self.validate_op(token)
        elif isinstance(token, DeltaTimeToken):
            return self.validate_dt()
        elif isinstance(token, ConstantToken):
            return self.validate_const()
        elif isinstance(token, FeatureToken):
            return self.validate_feature()
        else:
            assert False

    def validate_op(self, op) -> bool:
        if len(self.stack) < op.n_args():
            return False
        #print(isinstance(op, UnaryOperator))
        if isinstance(op, UnaryOperator):

            if not isinstance(self.stack[-1], FeatureToken):
                return False
        elif isinstance(op, BinaryOperator):
            if not self.stack[-1].is_featured and not self.stack[-2].is_featured:
                return False
            if (isinstance(self.stack[-1], DeltaTime) or
                    isinstance(self.stack[-2], DeltaTime)):
                return False
        elif isinstance(op, UnaryRollingOperator):
            if not isinstance(self.stack[-1], DeltaTime):
                return False
            if not self.stack[-2].is_featured:
                return False
        elif isinstance(op, BinaryRollingOperator):
            if not isinstance(self.stack[-1], DeltaTime):
                return False
            if not self.stack[-2].is_featured or not self.stack[-3].is_featured:
                return False
        else:
            assert False
        return True

    def validate_dt(self) -> bool:
        return len(self.stack) > 0 and self.stack[-1].is_featured

    def validate_const(self) -> bool:
        return len(self.stack) == 0 or self.stack[-1].is_featured

    def validate_feature(self) -> bool:
        return not (len(self.stack) >= 1 and isinstance(self.stack[-1], DeltaTime))


class InvalidExpressionException(ValueError):
    pass


if __name__ == '__main__':
    from datafeed.expr_functions import *
    tokens = [
        FeatureToken(FeatureType.LOW),
        UnaryOperator(sign),
        DeltaTimeToken(-10),
        #OperatorToken(Ref),
        FeatureToken(FeatureType.HIGH),
        FeatureToken(FeatureType.CLOSE),
        OperatorToken(Div),
        OperatorToken(Add),
    ]

    builder = ExpressionBuilder()
    for token in tokens:
        print(token)
        builder.add_token(token)

    print(f'res: {str(builder.get_tree())}')
    print(f'ref: Add(Ref(Abs($low),-10),Div($high,$close))')