Scikit-learn 是一个python的开源库,其提供了统一的接口,用于实现机器学习、数据预处理、交叉检验和可视化算法。本文汇集了该工具库的常用方法,方便查阅和参考。

导入数据
所需数据为数值类型,可用Numpy数组或Scipy稀疏矩阵保存;如果数据为其他类型,需要转换为数值类型的数组,如Pandas Dataframe数据就需要转换为数值型数组。

训练数据和测试数据

模型拟合
监管学习:

非监管学习:

预测
监管预测:

非监管预测:

数据预处理
数据标准化:

范式化:

二进制化:

分类特征编码:

处理缺失的数据:

生成多个特征:

创建模型
创建监管学习预测模型
(1)线性回归模型

(2)支持向量机模型(SVM)

(3)朴素贝叶斯模型

(4)KNN模型

非监管学习预测模型
(1)主成分分析(PCA)

(2)K means模型

模型评估
分类评价指标
(1)准确度评分

(2)生成分类报告

(3)混淆矩阵

回归评价指标
(1)均值绝对误差

(2)均值平方根误差

(3)R平方评分

聚类评价指标
(1)调整兰德系数

(2)同质化评价

(3)V-measure评分

模型调优
网格搜索:

随机参数优化:


发布者:股市刺客,转载请注明出处:https://www.95sca.cn/archives/76285
站内所有文章皆来自网络转载或读者投稿,请勿用于商业用途。如有侵权、不妥之处,请联系站长并出示版权证明以便删除。敬请谅解!