
python-数据分析:集中离散趋势
数据分析:数据集中度描述统计(左偏分布,右偏分布,正态分布),绘图:matplotlib.pyplot.hist()
·
- 离散度数据指标
- 分布形态:左偏,右偏,正态
- 直方图绘图
一、离散数据指标
import pandas as pd
data=pd.read_excel("路径",sheet_name="统计")
data['user_id']=data['user_id'].astype(str)
data
#均值
data_mean=data["num1"].mean()
data_mean
Out[71]: 5.5380577427821525
#中位数
data_median=data["num1"].median()
data_median
Out[72]: 3.0
#众数
data_mod=data['num1'].mode()[0]
data_mod
Out[73]: 0
#方差
data_var=data['num1'].var()
data_var
Out[74]: 40.44287419662073
#标准差
data_std=data['num1'].std()
data_std
Out[75]: 6.359471219890906
#汇总描述:均值,标准差,最小值,25%分位数,50%分位数,75%分位数,max
data['num1'].describe()
data.describe()
Out[69]:
num1 num2 num3
count 4572.000000 4572.000000 4572.000000
mean 5.538058 9.255906 4.101487
std 6.359471 8.683559 4.974644
min 0.000000 0.000000 0.000000
25% 0.000000 3.000000 1.000000
50% 3.000000 7.000000 2.000000
75% 9.000000 12.000000 6.000000
max 29.000000 93.000000 49.000000
二、分布形态
根据上述数据
均值=5.538,中位数=3,中位数小于均值,属于右偏
右偏(左拖尾) | 中位数<均值,数据受少数极大值影响 |
左偏(右拖尾) | 中位数>均值,数据受少数极小值影响 |
正态 | 中位数=均值 |
三、绘图
# 导入matplotlib库中的pyplot包,简写成plt
import matplotlib.pyplot as plt
# 显示中文标签
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
plt.hist(data['num1'],bins=30)
plt.axvline(x=data["num1"].median(),ls=":",c="green")#添加中位数辅助线
plt.axvline(x=data["num1"].mean(),ls="-.",c="red")#添加均值辅助线
plt.xlabel("num1")
plt.ylabel("计数")
plt.title("计数直方图")
plt.show()
# 导入matplotlib库中的pyplot包,简写成plt
import matplotlib.pyplot as plt
# 显示中文标签
plt.rcParams['font.sans-serif'] = ['Arial Unicode MS']
plt.hist(data['num1'],bins=30,density=True)
plt.axvline(x=data["num1"].median(),ls=":",c="green")
plt.axvline(x=data["num1"].mean(),ls="-.",c="red")##线型https://blog.csdn.net/Gou_Hailong/article/details/121787030
plt.xlabel("num1")
plt.ylabel("密度")
plt.title("密度直方图")
plt.show()
更多推荐
所有评论(0)