数据挖掘模型——逻辑回归模型——python代码

b:递归特征消除：主要思想是反复构建模型，选出最好的（最差的）特征（可根据系数来选），将选出的特征放在一边，在剩余的特征里重复这个过程，直至遍历所有特征。c:稳定性：一种基于二次抽样和选择算法相结合较新的方法，主要思想是：在不同的数据子集和特征的子集上运行特征选择算法，不断重复，最终汇总特征选择结果。该过程中特征被消除的次序即是：特征的排序。因此，也是一种寻找最优特征子集的贪心算法。a:通过F检验

蕊在花中羞涩

376人浏览 · 2024-06-05 09:52:49

蕊在花中羞涩 · 2024-06-05 09:52:49 发布

利用Scikit-Learn逻辑回归分析步骤：

首先，进行特征筛选，

特征筛选方法：

　　a:通过F检验给出各个特征的F值和p值，筛选变量（选择F值大或p值小的特征）；

　　b:递归特征消除：主要思想是反复构建模型，选出最好的（最差的）特征（可根据系数来选），将选出的特征放在一边，在剩余的特征里重复这个过程，直至遍历所有特征。

　　该过程中特征被消除的次序即是：特征的排序。因此，也是一种寻找最优特征子集的贪心算法。

　　c:稳定性：一种基于二次抽样和选择算法相结合较新的方法，主要思想是：在不同的数据子集和特征的子集上运行特征选择算法，不断重复，最终汇总特征选择结果。

然后，利用筛选后的特征建立逻辑回归模型，输出平均正确率

#-*- coding: utf-8 -*-
#逻辑回归 自动建模
import pandas as pd

#参数初始化
filename = '../data/bankloan.xls'
data = pd.read_excel(filename)
x = data.iloc[:,:8].as_matrix()
y = data.iloc[:,8].as_matrix()

from sklearn.linear_model import LogisticRegression as LR
from sklearn.linear_model import RandomizedLogisticRegression as RLR 
rlr = RLR() #建立随机逻辑回归模型，筛选变量
rlr.fit(x, y) #训练模型
rlr.get_support() #获取特征筛选结果，也可以通过.scores_方法获取各个特征的分数
print(u'通过随机逻辑回归模型筛选特征结束。')
print(u'有效特征为：%s' % ','.join(data.columns[rlr.get_support()]))
x = data[data.columns[rlr.get_support()]].as_matrix() #筛选好特征

lr = LR() #建立逻辑货柜模型
lr.fit(x, y) #用筛选后的特征数据来训练模型
print(u'逻辑回归模型训练结束。')
print(u'模型的平均正确率为：%s' % lr.score(x, y)) #给出模型的平均正确率，本例为81.4%