[数据挖掘之scikit-learn] sklean.linear_model.LogisticRegression实例详解

文章目录概述5.1 sklearn.linear_model.LogisticRegression5.2 LogisticRegression示例概述逻辑回归是一种分类方法，原理详见小瓜讲机器学习——分类算法（一）logistic regression(逻辑回归)算法原理详解。5.1 sklearn.linear_model.LogisticRegressionsklearn.linear...

努力的骆驼

3350人浏览 · 2019-08-23 17:31:57

努力的骆驼 · 2019-08-23 17:31:57 发布

文章目录

- - 概述
  - - 5.1 sklearn.linear_model.LogisticRegression
    - 5.2 LogisticRegression示例

概述

逻辑回归是一种分类方法，原理详见小瓜讲机器学习——分类算法（一）logistic regression(逻辑回归)算法原理详解。

5.1 sklearn.linear_model.LogisticRegression

sklearn.linear_model.LogisticRegression(penalty='l2', dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scalling=1, class_weight=None, 
											random_state=None, solver='warn', max_iter=100, multi_class='warn', verbose=0, warm_start=False, 
											n_jobs=None, l1_ratio=None)

参数说明：
1.penalty:正则化策略，可选‘l1’和’l2’
2.dual:选择目标函数是原始形式还是对偶问题；
3.tol：迭代终止精度；
4.C：正则化系数；
5.fit_intercept：是否计算截距，如果False，训练过程会假设数据已经中心化了；
6.intercept_scalling
7.class_weight：训练样本中的各类别样本的权重系数
8.random_state：随机种子
9.solver：损失函数的迭代计算方法

‘newton-cg’:使用牛顿法
‘lbfgs’:使用L-BFGS拟牛顿法
‘liblinear’:使用
‘sag’:随机梯度下降法

10.max_iter:最大迭代次数
11.multi_class：多类别分类策略

‘ovr’:采用one-vs-rest策略进行多分类
‘multinomial’：直接采用多分类逻辑回归模型

12.verbose:是否输出训练过程
13.warm_start：是否使用前一次的训练结果继续训练
14.n_jobs:指定任务时的CPU数量
15.l1_ratio:

属性说明：

1.coef_:权重系数
2.intercept:截距
3.n_iter：实际迭代次数
4.classes_

5.2 LogisticRegression示例

import numpy as np
from sklearn import linear_model, datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

iris = datasets.load_iris()
feature_X = iris.data
label_Y = iris.target

train_subset, test_subset, train_label, test_label = train_test_split(feature_X, label_Y, test_size=0.3, random_state=0)

#标准化特征
sc = StandardScaler()
sc.fit(train_subset)

train_subset_std = sc.transform(train_subset)
test_subset_std = sc.transform(test_subset)

#训练模型
lgr = linear_model.LogisticRegression(C=2, penalty='l2')
lgr.fit(train_subset_std, train_label)

label_predict = lgr.predict(test_subset_std)
accuracy = lgr.score(test_subset_std, test_label)
print(accuracy)

结果输出

0.8666666666666667

即在验证集上的准确率为0.86666.。

永洪数据分析社区

永洪科技，致力于打造全球领先的数据技术厂商，具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐

【金融风控-贷款违约预测】数据挖掘学习：1.赛题理解

学习目标理解赛题数据和目标，清楚评分体系。完成相应报名，下载数据和结果提交打卡（可提交示例结果），熟悉比赛流程。了解赛题赛题概况比赛地址：https://tianchi.aliyun.com/competition/entrance/531830/introduction比赛要求参赛选手根据给定的数据集，建立模型，预测金融风险。赛题以预测金融风险为任务，数据集报名后可见并可下载，该数据来自某信贷平

永洪数据分析社区

智能分析最佳实践——指标逻辑树

所有业务都会面对“为什么涨、为什么降、原因是什么？”这种简单粗暴又不易定位的业务问题。为了找出数据发生异动的原因，业务人员会通过使用多维查询、dashboard等数据产品锁定问题，再辅助人工分析查找问题原因，这个过程通常需要一天时间。几乎每种业务角色的用户都在做相似的分析，但在业务方分析人员发生工作变动时，分析方法难以得到较好传承。因此我们需要一款自动给出分析结论的智能化数据产品来解决上面的问题，

永洪数据分析社区

数据挖掘实验一：分类技术——二分网络上的链路预测

实验一：分类技术——二分网络上的链路预测实验内容采用二分网络模型，对ml-1m文件夹中的“用户—电影”打分数据进行建模，考虑将用户信息、电影详细信息、以及打分分值作为该网络上的边、点的权重；根据网络结构特征给出节点相似性度量指标；基于相似性在二分网络上进行链路预测；画出ROC曲线来度量预测方法的准确性。分析及设计导入数据并初步分析处理数据：观察所给的文件类型为.dat格式，即纯文本格式，pytho