• 离散度数据指标
  • 分布形态:左偏,右偏,正态
  • 直方图绘图

一、离散数据指标

import pandas as pd
data=pd.read_excel("路径",sheet_name="统计")
data['user_id']=data['user_id'].astype(str)
data
#均值
data_mean=data["num1"].mean()
data_mean
Out[71]: 5.5380577427821525
#中位数
data_median=data["num1"].median()
data_median
Out[72]: 3.0
#众数
data_mod=data['num1'].mode()[0]
data_mod
Out[73]: 0
#方差
data_var=data['num1'].var()
data_var
Out[74]: 40.44287419662073
#标准差
data_std=data['num1'].std()
data_std
Out[75]: 6.359471219890906
#汇总描述:均值,标准差,最小值,25%分位数,50%分位数,75%分位数,max
data['num1'].describe()
data.describe()
Out[69]: 
              num1         num2         num3
count  4572.000000  4572.000000  4572.000000
mean      5.538058     9.255906     4.101487
std       6.359471     8.683559     4.974644
min       0.000000     0.000000     0.000000
25%       0.000000     3.000000     1.000000
50%       3.000000     7.000000     2.000000
75%       9.000000    12.000000     6.000000
max      29.000000    93.000000    49.000000

二、分布形态

根据上述数据

均值=5.538,中位数=3,中位数小于均值,属于右偏

右偏(左拖尾)中位数<均值,数据受少数极大值影响
左偏(右拖尾)中位数>均值,数据受少数极小值影响
正态中位数=均值

 三、绘图

# 导入matplotlib库中的pyplot包,简写成plt
import matplotlib.pyplot as plt

# 显示中文标签
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']

plt.hist(data['num1'],bins=30)
plt.axvline(x=data["num1"].median(),ls=":",c="green")#添加中位数辅助线
plt.axvline(x=data["num1"].mean(),ls="-.",c="red")#添加均值辅助线

plt.xlabel("num1")
plt.ylabel("计数")
plt.title("计数直方图")
plt.show()


# 导入matplotlib库中的pyplot包,简写成plt
import matplotlib.pyplot as plt

# 显示中文标签
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']

plt.hist(data['num1'],bins=30,density=True)
plt.axvline(x=data["num1"].median(),ls=":",c="green")
plt.axvline(x=data["num1"].mean(),ls="-.",c="red")##线型https://blog.csdn.net/Gou_Hailong/article/details/121787030
plt.xlabel("num1")
plt.ylabel("密度")
plt.title("密度直方图")
plt.show()

 

 

Logo

永洪科技,致力于打造全球领先的数据技术厂商,具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐