LGBRanker排序学习及因子特征重要性分析（代码+数据）

今日计划：

1、lightGBM排序学习的StockRanker

2、滚动式训练模型及回测（top55个因子）。

3、分析因子特征之重要性。

昨天夜里想起来，一些因子收益异常高，但策略又没有明显的问题。有两点不符合预期，一是涨停板，尤其是牛市里的连续涨停板，这些因子，并不需要与收益多相关，而是像动量、价量背离能连续取到涨停板，但事实上，这是交易不了了。另外就是没有添加交易佣金。

这里添加交易佣金，卖出印花税千1，买卖按万五算，佣金又边按万三算，一共是0.0008的commission。

CORR20的年化由43%降到了27%。

LGBRanker排序学习：

import pandas as pd
import lightgbm as lgb
from lightgbm import log_evaluation, early_stopping


class StockRanker:
    def __init__(self, feature_cols=None):
        # super(StockRanker, self).__init__(name, load_model)
        self.feature_cols = feature_cols
        self.label_col = 'label'

    def _prepare_groups(self, df):
        df['day'] = df.index
        group = df.groupby('date')['date'].count()
        return group.values

    def train(self, df: pd.DataFrame, split_date: str = None):
        if split_date:
            df_train = df[df.index < split_date]
            df_val = df[df.index >= split_date]

        else:
            df_train = df
            df_val = df

        query_train = self._prepare_groups(df_train.copy(deep=True))
        query_val = self._prepare_groups(df_val.copy(deep=True))

        ranker = lgb.LGBMRanker()

        callbacks = [log_evaluation(period=100), early_stopping(stopping_rounds=50)]

        ranker.fit(df_train[self.feature_cols], df_train[self.label_col], group=query_train,
                   eval_set=[(df_val[self.feature_cols], df_val[self.label_col])], eval_group=[query_val],
                   eval_at=[1, 2, 5],
                   callbacks=callbacks)

        self.ranker = ranker

        score, names = zip(*sorted(zip(ranker.feature_importances_, ranker.feature_name_), reverse=True))
        print(score)
        print(names)


if __name__ == '__main__':
    from datafeed.dataloader import Duckdbloader
    from config import DATA_DIR
    from factor import alpha

    import pandas as pd
    import duckdb

    df = duckdb.query('''
    select * from '{}'
    '''.format(DATA_DIR.joinpath('data_ignore/dataset.csv').resolve())
                      ).df()

    df.set_index(['date', 'symbol'], inplace=True)
    from datafeed.expr import calc_expr

    df['label'] = calc_expr(df, 'qcut(return_5,5)')

    df.reset_index(inplace=True)

    a = alpha.Alpha158()
    fields, names = a.get_factors()
    print(df)
    StockRanker(feature_cols=names).train(df)