目录

学习目标

了解赛题

赛题概况

数据概况

预测指标

赛题流程

代码示例

数据读取pandas

分类指标评价计算示例

经验总结

拓展知识——评分卡


学习目标

  • 理解赛题数据和目标,清楚评分体系。
  • 完成相应报名,下载数据和结果提交打卡(可提交示例结果),熟悉比赛流程。

了解赛题

赛题概况

比赛地址:https://tianchi.aliyun.com/competition/entrance/531830/introduction

比赛要求参赛选手根据给定的数据集,建立模型,预测金融风险。

赛题以预测金融风险为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80万条作为训练集,20万条作为测试集A,20万条作为测试集B,同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。

数据概况

一般而言,对于数据在比赛界面都有对应的数据概况介绍(匿名特征除外),说明列的性质特征。了解列的性质会有助于我们对于数据的理解和后续分析。 Tip:匿名特征,就是未告知数据列所属的性质的特征列。

字段表

FieldDescription
id为贷款清单分配的唯一信用证标识
loanAmnt贷款金额
term贷款期限(year)
interestRate贷款利率
installment分期付款金额
grade贷款等级
subGrade贷款等级之子级
employmentTitle就业职称
employmentLength就业年限(年)
homeOwnership借款人在登记时提供的房屋所有权状况
annualIncome年收入
verificationStatus验证状态
issueDate贷款发放的月份
purpose借款人在贷款申请时的贷款用途类别
postCode借款人在贷款申请中提供的邮政编码的前3位数字
regionCode地区编码
dti债务收入比
delinquency_2years借款人过去2年信用档案中逾期30天以上的违约事件数
ficoRangeLow借款人在贷款发放时的fico所属的下限范围
ficoRangeHigh借款人在贷款发放时的fico所属的上限范围
openAcc借款人信用档案中未结信用额度的数量
pubRec贬损公共记录的数量
pubRecBankruptcies公开记录清除的数量
revolBal信贷周转余额合计
revolUtil循环额度利用率,或借款人使用的相对于所有可用循环信贷的信贷金额
totalAcc借款人信用档案中当前的信用额度总数
initialListStatus贷款的初始列表状态
applicationType表明贷款是个人申请还是与两个共同借款人的联合申请
earliesCreditLine借款人最早报告的信用额度开立的月份
title借款人提供的贷款名称
policyCode公开可用的策略_代码=1新产品不公开可用的策略_代码=2
n系列匿名特征匿名特征n0-n14,为一些贷款人行为计数特征的处理

预测指标

竞赛采用AUC作为评价指标。AUC(Area Under Curve)被定义为 ROC曲线下与坐标轴围成的面积。

分类算法常见的评估指标如下:

  • 混淆矩阵(Confuse Matrix)
    • 若一个实例是正类,并且被预测为正类,即为真正类TP(True Positive )
    • 若一个实例是正类,但是被预测为负类,即为假负类FN(False Negative )
    • 若一个实例是负类,但是被预测为正类,即为假正类FP(False Positive )
    • 若一个实例是负类,并且被预测为负类,即为真负类TN(True Negative )

  • 准确率(Accuracy) 准确率是常用的一个评价指标,但是不适合样本不均衡的情况。

Accuracy = \frac{TP + TN}{TP + TN + FP + FN}

  • 精确率(Precision) 又称查准率,正确预测为正样本(TP)占预测为正样本(TP+FP)的百分比。

Precision = \frac{TP}{TP + FP}

  • 召回率(Recall) 又称为查全率,正确预测为正样本(TP)占正样本(TP+FN)的百分比。

Recall = \frac{TP}{TP + FN}

  • F1 Score 精确率和召回率是相互影响的,精确率升高则召回率下降,召回率升高则精确率下降,如果需要兼顾二者,就需要精确率、召回率的结合F1 Score。

F1-Score = \frac{2}{\frac{1}{Precision} + \frac{1}{Recall}}

  • P-R曲线(Precision-Recall Curve)是描述精确率和召回率变化的曲线。

  • ROC(Receiver Operating Characteristic)
    • ROC空间将假正例率(FPR)定义为 X 轴,真正例率(TPR)定义为 Y 轴。
    • TPR:在所有实际为正例的样本中,被正确地判断为正例之比率。
      • TPR = \frac{TP}{TP + FN}
    • FPR:在所有实际为负例的样本中,被错误地判断为正例之比率。
      • FPR = \frac{FP}{FP + TN}

  • AUC(Area Under Curve) 被定义为 ROC曲线下与坐标轴围成的面积,显然这个面积的数值不会大于1。又由于ROC曲线一般都处于y=x这条直线的上方,所以AUC的取值范围在0.5和1之间。AUC越接近1.0,检测方法真实性越高;等于0.5时,则真实性最低,无应用价值。

对于金融风控预测类常见的评估指标如下:

  • KS(Kolmogorov-Smirnov) 统计量由两位苏联数学家A.N. Kolmogorov和N.V. Smirnov提出。在风控中,KS常用于评估模型区分度。区分度越大,说明模型的风险排序能力(ranking ability)越强。 K-S曲线与ROC曲线类似,不同在于:
    • ROC曲线将真正例率和假正例率作为横纵轴
    • K-S曲线将真正例率和假正例率都作为纵轴,横轴则由选定的阈值来充当。
      • KS=max(TPR-FPR) 
    • 一般情况KS值越大,模型的区分能力越强,但是也不是越大模型效果就越好,如果KS过大,模型可能存在异常,所以当KS值过高可能需要检查模型是否过拟合。
    • 以下为KS值对应的模型情况,但此对应不是唯一的,只代表大致趋势。
KS(%)好坏区分能力
20以下不建议采用
20-40较好
41-50良好
51-60很强
61-75非常强
75以上过于高,疑似存在问题
  • ROC
  • AUC

赛题流程

代码示例

本部分为对于数据读取和指标评价的示例。

数据读取pandas

import pandas as pd    # 导入包

# 读取csv文件
train = pd.read_csv('train.csv')
testA = pd.read_csv('testA.csv')

# 查看数据维度
print('Train data shape:', train.shape)
print('TestA data shape:', testA.shape)

# Train data shape: (800000, 47)
# TestA data shape: (200000, 48)

 

# 查看前5行数据
train.head()
 idloanAmntterminterestRateinstallmentgradesubGradeemploymentTitleemploymentLengthhomeOwnership...n5n6n7n8n9n10n11n12n13n14
0035000.0519.52917.97EE2320.02 years2...9.08.04.012.02.07.00.00.00.02.0
1118000.0518.49461.90DD2219843.05 years0...NaNNaNNaNNaNNaN13.0NaNNaNNaNNaN
2212000.0516.99298.17DD331698.08 years0...0.021.04.05.03.011.00.00.00.04.0
3311000.037.26340.96AA446854.010+ years1...16.04.07.021.06.09.00.00.00.01.0
443000.0312.99101.07CC254.0NaN1...4.09.010.015.07.012.00.00.00.04.0

5 rows × 47 columns

分类指标评价计算示例

## 混淆矩阵
import numpy as np
from sklearn.metrics import confusion_matrix

y_pred = [0, 1, 0, 1]
y_true = [0, 1, 1, 0]

print('混淆矩阵:\n', confusion_matrix(y_true, y_pred))

# 混淆矩阵:
#  [[1 1]
#  [1 1]]

 

## accuracy
from sklearn.metrics import accuracy_score

y_pred = [0, 1, 0, 1]
y_true = [0, 1, 1, 0]

print('ACC:', accuracy_score(y_true, y_pred))

# ACC: 0.5

 

## 精确率, 召回率, F1-score
from sklearn import metrics

y_pred = [0, 1, 0, 1]
y_true = [0, 1, 1, 0]

print('Precision', metrics.precision_score(y_true, y_pred))
print('Recall', metrics.recall_score(y_true, y_pred))
print('F1-score:', metrics.f1_score(y_true, y_pred))

# Precision 0.5
# Recall 0.5
# F1-score: 0.5

 

## P-R曲线
import matplotlib.pyplot as plt
from sklearn.metrics import precision_recall_curve

y_pred = [0, 1, 1, 0, 1, 1, 0, 1, 1, 1]
y_true = [0, 1, 1, 0, 1, 0, 1, 1, 0, 1]

precision, recall, thresholds = precision_recall_curve(y_true, y_pred)
plt.plot(precision, recall)

## ROC曲线
from sklearn.metrics import roc_curve

y_pred = [0, 1, 1, 0, 1, 1, 0, 1, 1, 1]
y_true = [0, 1, 1, 0, 1, 0, 1, 1, 0, 1]

FPR, TPR, thresholds = roc_curve(y_true, y_pred)

plt.title('ROC')
plt.plot(FPR, TPR,'b')
plt.plot([0,1], [0,1], 'r--')
plt.ylabel('TPR')
plt.xlabel('FPR')

## AUC
import numpy as np
from sklearn.metrics import roc_auc_score

y_true = np.array([0, 0, 1, 1])
y_scores = np.array([0.1, 0.4, 0.35, 0.8])

print('AUC socre:', roc_auc_score(y_true, y_scores))

# AUC socre: 0.75

 

## KS值:在实际操作时往往使用ROC曲线配合求出KS值
from sklearn.metrics import roc_curve

y_pred = [0, 1, 1, 0, 1, 1, 0, 1, 1, 1]
y_true = [0, 1, 1, 0, 1, 0, 1, 1, 1, 1]

FPR, TPR, thresholds = roc_curve(y_true, y_pred)
KS = abs(FPR - TPR).max()

print('KS值:', KS)

# KS值: 0.5238095238095237

经验总结

赛题理解是开始比赛的第一步,赛题的理解有助于对竞赛全局的把握。通过赛题理解有助于对赛题的业务逻辑把握,对于后期的特征工程构建和模型选择都尤为重要。

  • 在开始比赛之前要对赛题进行充分的了解。
  • 比赛什么时候开始,什么时候结束,什么时候换B榜数据。
  • 和该比赛有没有类似的比赛可以参考借鉴。
  • 线上提交结果的次数往往是有限的,提前了解每日可以提交的次数。
  • 比赛使用的是什么评价指标,可以选择相同的评价指标作为线下验证的方式。

拓展知识——评分卡

如今在银行、消费金融公司等各种贷款业务机构,普遍使用信用评分,对客户实行打分制,以期对客户有一个优质与否的评判

信用评分卡分A,B,C卡三类:

  • A卡(Application score card)申请评分卡
  • B卡(Behavior score card)行为评分卡
  • C卡(Collection score card)催收评分卡

评分机制的区别在于:

  • 使用的时间不同。分别侧重贷前、贷中、贷后;
  • 数据要求不同。A卡一般可做贷款0-1年的信用分析,B卡则是在申请人有了一定行为后,有了较大数据进行的分析,一般为3-5年,C卡则对数据要求更大,需加入催收后客户反应等属性数据。
  • 每种评分卡的模型会不一样。在A卡中常用的有逻辑回归,AHP等,而在后面两种卡中,常使用多因素逻辑回归,精度等方面更好。

信用评分是指根据银行客户的各种历史信用资料,利用一定的信用评分模型,得到不同等级的信用分数,根据客户的信用分数,授信者可以通过分析客户按时还款的可能性,据此决定是否给予授信以及授信的额度和利率。

虽然授信者通过人工分析客户的历史信用资料,同样可以得到这样的分析结果,但利用信用评分却更加快速、更加客观、更具有一致性。

以下代码是一个非标准评分卡的代码流程,用于刻画用户的信用评分。

# 评分卡:不是标准评分卡
def Score(prob, P0=600, PDO=20, badrate=None, goodrate=None):
    P0 = P0
    PDO = PDO
    theta0 = badrate / goodrate
    B = PDO / np.log(2)
    A = P0 + B * np.log(2 * theta0)
    score = A - B * np.log(prob / (1 - prob))
    return score

 

Logo

永洪科技,致力于打造全球领先的数据技术厂商,具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐