端到端因子挖掘框架：DeepAlphaGen：已经可以挖掘因子

原理比较简单，使用强化学习来生成“因子表达式”——逆波兰表达式。然后把因子组合在一起做优化，评价标准仍然是传统的IC/IR这一套。

我们的基准是gplearn遗传算法挖因子。

Qlib加载数据，这里没有看出groupby(‘symbol’)

class Feature(Expression):
    def __init__(self, feature: FeatureType) -> None:
        self._feature = feature

    def evaluate(self, data: StockData, period: slice = slice(0, 1)) -> Tensor:
        assert period.step == 1 or period.step is None
        if (period.start < -data.max_backtrack_days or
                period.stop - 1 > data.max_future_days):
            raise OutOfDataRangeError()
        start = period.start + data.max_backtrack_days
        stop = period.stop + data.max_backtrack_days + data.n_days - 1
        return data.data[start:stop, int(self._feature), :]

    def __str__(self) -> str: return '

无论是基于深度强化学习，还是gplearn遗传算法，只要是多标的，多个symbols同时计算，那么在进行表达式运算时，肯定要groupby symbol或者甚至groupby date。

否则rolling是有问题的。

目前的依赖包：torch的cuda版本是需要根据你本机的显卡的版本来确定的，我电脑上的驱动版本比较老，是10.2，因此只能安装较低版本的pytorch。

baostock==0.8.8
gym==0.26.2
matplotlib==3.3.4
numpy
pandas==1.2.4
pyqlib
#qlib==0.0.2.dev20
sb3_contrib==2.0.0
stable_baselines3==2.0.0
torch==1.10.2+cu102 --extra-index-url https://download.pytorch.org/whl/cu102
shimmy==1.1.0
fire
tqdm
loguru
requests
joblib
scipy
scikit-learn

经过一番折腾：

已经开始端对端挖因子了：