1、前言

在重看我的项目的过程中发现自己对于相关知识点理解并不透彻,希望能理论联系实际,加深自己对基础知识的理解。项目来源于阿里天池学习赛——零基础入门金融风控-贷款违约预测,感兴趣的小伙伴可以自己去原文了解。正确了解赛题背后的思想以及赛题业务逻辑的清晰,也很有利于花费更少时间构建更为有效的特征模型。 今天我们就从赛题的理解出发, 首先了解一下这次赛题的概况和数据,从中分析赛题以及大致的处理方式, 其次我们了解一些模型评测的指标,最后对赛题的理解整理一些经验。

推荐内容

2、赛题了解

赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的二分类问题。

3、数据概况

目前官方提供三个文件供下载,来自某信贷平台的贷款记录。

train.csv文件为训练集部分,共80万条数据,166M

testA.csv为测试集部分,共20万条数据,41M

sample_submit.csv为最后提交数据的样例,供参考用,2M

数据包含47列变量信息,其中15列为匿名变量,具体信息如下表所示。

FieldDescription
id为贷款清单分配的唯一信用证标识
loanAmnt贷款金额
term贷款期限(year)
interestRate贷款利率
installment分期付款金额
grade贷款等级
subGrade贷款等级之子级
employmentTitle就业职称
employmentLength就业年限(年)
homeOwnership借款人在登记时提供的房屋所有权状况
annualIncome年收入
verificationStatus验证状态
issueDate贷款发放的月份
purpose借款人在贷款申请时的贷款用途类别
postCode借款人在贷款申请中提供的邮政编码的前3位数字
regionCode地区编码
dti债务收入比
delinquency_2years借款人过去2年信用档案中逾期30天以上的违约事件数
ficoRangeLow借款人在贷款发放时的fico所属的下限范围
ficoRangeHigh借款人在贷款发放时的fico所属的上限范围
openAcc借款人信用档案中未结信用额度的数量
pubRec贬损公共记录的数量
pubRecBankruptcies公开记录清除的数量
revolBal信贷周转余额合计
revolUtil循环额度利用率,或借款人使用的相对于所有可用循环信贷的信贷金额
totalAcc借款人信用档案中当前的信用额度总数
initialListStatus贷款的初始列表状态
applicationType表明贷款是个人申请还是与两个共同借款人的联合申请
earliesCreditLine借款人最早报告的信用额度开立的月份
title借款人提供的贷款名称
policyCode公开可用的策略_代码=1新产品不公开可用的策略_代码=2
n系列匿名特征匿名特征n0-n14,为一些贷款人行为计数特征的处理

这些信息对后期特征工程还是有一定帮助的,哪些应该删掉,哪些应该是数值型哪些是离散型哪些是时间,都会在这里体现出来。最后15个字段是匿名字段,可能得重点分析,也许能对模型有较大的提升作用。

4、评价指标(预测指标)

分类算法常见的评估指标如下:

4.1 混淆矩阵(Confuse Matrix)

(1)若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive )

(2)若一个实例是正类,但是被预测为负类,即为假负类FN(False Negative )

(3)若一个实例是负类,但是被预测为正类,即为假正类FP(False Positive )

(4)若一个实例是负类,并且被预测为负类,即为真负类TN(True Negative )

4.2 准确率(Accuracy)

 准确率是常用的一个评价指标,但是不适合样本不均衡的情况。样本不均衡在实际应用中很常见,比如80万个贷款样本中有8万个为审批通过,但是预测时预测为全不通过,正确率为90%,却毫无意义。

4.3 精确率(Precision)

又称查准率,正确预测为正样本(TP)占预测为正样本(TP+FP)的百分比。用核酸打比方就是测出来为阳性的案例中实际为真阳性患病的概率。(检测为阳中真阳)

4.4 召回率(Recall)

又称为查全率,正确预测为正样本(TP)占正样本(TP+FN)的百分比。(真阳中检测为阳)

4.5 F1 Score

精确率和召回率是相互影响的,精确率升高则召回率下降,召回率升高则精确率下降,如果需要兼顾二者,就需要精确率、召回率的结合F1 Score。

4.6 P-R曲线(Precision-Recall Curve)

P-R曲线是描述精确率和召回率变化的曲线

 4.7 ROC(Receiver Operating Characteristic)接收机工作特性曲线

ROC空间将假正例率(FPR)定义为 X 轴,真正例率(TPR)定义为 Y 轴。

TPR:在所有实际为正例的样本中,被正确地判断为正例之比率。

 FPR:在所有实际为负例的样本中,被错误地判断为正例之比率。

 

4.8 AUC(Area Under Curve) 曲线下面积

AUC(Area Under Curve)被定义为 ROC曲线下与坐标轴围成的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。

这些评价指标在sklearn中都已经集成,调用方法如下:

import numpy as np
##使用sklearn集成的混淆矩阵,准确率,精确率,召回率,f1-score和AUC
from sklearn.metrics import confusion_matrix, accuracy_scorec, precision_score, recall_score, f1_score, auc
#在得到预测值y_pred后即可得到这些值,以混淆矩阵为例
y_pred = [0, 1, 0, 1]
y_true = [0, 1, 1, 0]
print('混淆矩阵:\n',confusion_matrix(y_true, y_pred))
print('准确率ACC:',accuracy_score(y_true, y_pred))
print('精确率Precision:',metrics.precision_score(y_true, y_pred))
print('召回率Recall:',metrics.recall_score(y_true, y_pred))
print('F1-score:',metrics.f1_score(y_true, y_pred))
print('AUC socre:',roc_auc_score(y_true, y_scores))

##对于P-R曲线和ROC曲线应该使用matplotlib画图得到
import matplotlib.pyplot as plt

#P-R曲线
from sklearn.metrics import precision_recall_curve
y_pred = [0, 1, 1, 0, 1, 1, 0, 1, 1, 1]
y_true = [0, 1, 1, 0, 1, 0, 1, 1, 0, 1]
precision, recall, thresholds = precision_recall_curve(y_true, y_pred)
plt.plot(precision, recall)

#ROC曲线
from sklearn.metrics import roc_curve
y_pred = [0, 1, 1, 0, 1, 1, 0, 1, 1, 1]
y_true = [0, 1, 1, 0, 1, 0, 1, 1, 0, 1]
FPR,TPR,thresholds=roc_curve(y_true, y_pred)
plt.title('ROC')
plt.plot(FPR, TPR,'b')
plt.plot([0,1],[0,1],'r--')
plt.ylabel('TPR')
plt.xlabel('FPR')

点击阅读全文
Logo

永洪科技,致力于打造全球领先的数据技术厂商,具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐