数据挖掘学习——集成学习（classifier combination）

多个基模型对数据集进行学习，并分别输出结果，然后集成学习模型再通过一定的方法将这些结果进行整合，最终形成集成学习模型的结果。这里用的是上上篇中的代码进行修改的，可以看到，相比于使用单个高斯朴素贝叶斯分器进行训练，用随机森林训练出来的模型准确率更高。获得最多票数的类别为集成模型的输出类别（若有多个类别获得相同的最高票，则随机从这些类别中选取一个作为最终的输出。（是投票法的一种特殊形式，加权投票法中，

长弓同学

1504人浏览 · 2022-09-06 18:20:23

长弓同学 · 2022-09-06 18:20:23 发布

1.集成学习基本思路

2.集成学习模型结合策略

（1）平均法&加权平均法（集成回归模型的结合策略）

（2）相对多数投票法&加权投票法（集成分类模型的结合策略）

3.Bagging方法和随机森林

（1）Bagging方法

（2）随机森林（random forest）

4.Boosting方法和Adaboost

（1）Boosting方法

（2）Adaboost方法

5.集成学习python实现

1.集成学习基本思路

集成学习（classifier combination）是将多个数据挖掘模型（基模型，base classifier）集成在一起进行学习。多个基模型对数据集进行学习，并分别输出结果，然后集成学习模型再通过一定的方法将这些结果进行整合，最终形成集成学习模型的结果。

2.集成学习模型结合策略

（1）平均法&加权平均法（集成回归模型的结合策略）

简单平均法：

加权平均法：

（相比于简单平均法，增加了权重系数参数，更容易出现过拟合）

实际使用过程中发现，加权平均法的结果有时还不如简单平均。

（2）相对多数投票法&加权投票法（集成分类模型的结合策略）

相对多数投票法：

获得最多票数的类别为集成模型的输出类别（若有多个类别获得相同的最高票，则随机从这些类别中选取一个作为最终的输出。）

加权投票法：

（是投票法的一种特殊形式，加权投票法中，不同的基模型投票的权力大小是不一样的aaaaa）

3.Bagging方法和随机森林

（1）Bagging方法

Bagging方法是一种并行式集成学习方法，其基本结构如下：

（2）随机森林（random forest）

随机森林是Bagging方法的一个具体实现。

基本步骤如下：

1.选取基模型训练样本

2.训练决策树基模型

3.集成多棵决策树

（随机森林中，较多的决策树基模型可以获得较好的预测效果）

4.Boosting方法和Adaboost

（1）Boosting方法

boosting方法是一种串行训练基模型，其基本结构如下：

（boosting方法中基模型的训练样本与上一个基模型的预测结果相关，当前基模型重点关注上个基模型预测错误的样本）

（2）Adaboost方法

Adaboost方法（Adaptive Boosting）是Boosting集成学习的具体实现。

具体步骤：

1.初始化样本权重

2.训练基模型

3.计算基模型的权重

4.更新样本的权重

5.迭代训练多个基模型

6.结合基模型的预测结果

5.集成学习python实现

sklearn库中提供了多个集成学习模型的使用，可以直接进行调用。

实例代码（随机森林分类模型函数的使用）：

这里用的是上上篇中的代码进行修改的，可以看到，相比于使用单个高斯朴素贝叶斯分器进行训练，用随机森林训练出来的模型准确率更高。

import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import confusion_matrix
from matplotlib import pyplot as plt
import seaborn as sns
from sklearn.ensemble import RandomForestClassifier

#训练模型函数
def model_fit(x_train,y_train,x_test,y_test):
    model=RandomForestClassifier(n_estimators=50)
    model.fit(x_train,y_train)#对训练集进行拟合
    # print(model.score(x_train,y_train))
    print("accurancy:",model.score(x_test,y_test))
    Y_pred=model.predict(x_test)
    cm=confusion_matrix(Y_pred,y_test)
    return cm

#混淆矩阵可视化
def matplotlib_show(cm):
    plt.figure(dpi=100)#设置窗口大小（分辨率）
    plt.title('Confusion Matrix')

    labels = ['a', 'b', 'c', 'd']
    tick_marks = np.arange(len(labels))
    plt.xticks(tick_marks, labels)
    plt.yticks(tick_marks, labels)
    sns.heatmap(cm, cmap=sns.color_palette("Blues"), annot=True, fmt='d')
    plt.ylabel('real_type')#x坐标为实际类别
    plt.xlabel('pred_type')#y坐标为预测类别
    plt.show()

if __name__ == '__main__':
    cancer = load_breast_cancer()
    x, y = cancer.data, cancer.target
    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=3)
    cm=model_fit(x_train,y_train,x_test,y_test)
    matplotlib_show(cm)

运行结果：（准确率和预测结果图）

永洪数据分析社区

永洪科技，致力于打造全球领先的数据技术厂商，具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐

销售数据分析方法、如何写好一个专题分析报告、Hive大数据知识体系教程、大数据分析平台总体架构方案……| 本周精华...

▲点击上方卡片关注我，回复“8”，加入数据分析·领地，一起学习数据分析，持续更新数据分析学习路径相关资料~（精彩数据观点、学习资料、数据课程分享、读书会、分享会等你一起来乘风破浪~）回复“小飞象”，领取数据分析知识大礼包。关注微信公众号：木木自由，更多产品、运营与数据分析干货以及经验分享【数据分析-领地】知识星球，每周会产生大量精华内容，每周将整理《数据分析-领地：一周星球内参》，让你不错过任何一

永洪数据分析社区

Web报表软件的集成方案

报表开发只是应用程序中的一部分，而非全部，因此Web报表软件的集成性就显得非常重要了。　传统的Web报表软件无一例外地都提供了一个独立的报表服务器。采用独立服务器时的，应用结构如下图：　采用独立服务器的不便：• 独立的报表服务器，与应用程序的沟通是通过网络协议，严重降低性能；• 无法享受应用服务器的各项优势功能，包括集群能力、连接池的管理...