大数据分析实验二：金融中的时间序列数据处理

一、金融数据的获取与处理导入包，通过pandas_datareader模块来从yahoo获取金融数据信息，应该是网站的问题，显示超时，获取不到数据，所以本文数据可以直接从文末尾的百度网盘中提取。import datetimeimport pandas as pdimport pandas_datareader.data as webimport numpy as npimport mathfrom

北极小白学习中

4112人浏览 · 2022-03-28 17:09:15

北极小白学习中 · 2022-03-28 17:09:15 发布

一、金融数据的获取与处理

导入包，通过pandas_datareader模块来从yahoo获取金融数据信息，应该是网站的问题，显示超时，获取不到数据，所以本文数据可以直接从文末尾的百度网盘中提取。

import datetime
import pandas as pd
import pandas_datareader.data as web
import numpy as np
import math
from statsmodels.formula.api import ols
import matplotlib.pyplot as plt

# start_date=datetime.datetime(2000,1,1)
# end_date=datetime.datetime(2014,9,2s6)
# dax_data=web.DataReader('^GDAXI',data_source='yahoo',start=start_date,end=end_date)
# dax_data.to_csv('dax_data.csv',index=True)

接下来直接读取数据csv文件进行实验

# 导入数据
dax_data=pd.read_csv(r'C:\Users\hp\Desktop\数据\dax_data.csv')
# 查看数据的基本信息
print(dax_data.info())

# 绘制收盘价图形
dax_data=dax_data.set_index('Date',drop=True)
dax_data['Close'].plot(subplots=True,style='b',figsize=(10,5))

# 计算收益率
dax_data['Ret_Loop']=0.0
for i in range(1,len(dax_data)):
dax_data['Ret_Loop'][i]=np.log(dax_data['Close'][i]/dax_data['Close'][i-1])
dax_data#输出数据查看

# 使用向量化的方法，用shift来获得滞后一期的数据
dax_data['Return']=np.log(dax_data['Close']/dax_data['Close'].shift(1))
print(dax_data[['Close','Ret_Loop','Return']].head(10))

注：DataFrame.shift(periods=1, freq=None, axis=0)；periods：类型为int，表示移动的幅度，可以是正数，也可以是负数，默认值是1,1就表示移动一次，注意这里移动的都是数据，而索引是不移动的，移动之后没有对应值的，就赋值为NaN。计算结果一致，但是效率提高

# 绘制图形
dax_data.drop('Ret_Loop',inplace=True,axis=1)
dax_data[['Close','Return']].plot(subplots=True,style='b',figsize=(10,5))

计算42天和252天移动平均收盘价；Pandas：DataFrame.rolling(window=3).mean()滑动窗口值设为多少就是将相邻的几个数做均值处理。

# 移动平均可以用rolling函数
dax_data['42d']=dax_data['Close'].rolling(42).mean().values
dax_data['252d']=dax_data['Close'].rolling(252).mean().values
print(dax_data[['42d','252d']].tail())

# 绘图
dax_data[['Close','42d','252d']].plot(figsize=(10,5))

接下来计算移动平均历史波动率并绘制图形

# 移动平均历史波动率
dax_data['MOV_vol']=dax_data['Return'].rolling(252).std()*math.sqrt(252)
dax_data[['Close','MOV_vol','Return']].plot(subplots=True,style='b',figsize=(10,5))

三个图分别为收盘价、移动平均率的收益率的波动率和收益率

二、回归分析

使用ts_data.xlsx数据集
EURO STOXX : 欧洲蓝筹股票历史日度收盘价
VSTOXX：VSTOXX波动率指数的历史日度收盘价
计算的基础是蓝筹指数的隐含波动率

# 回归分析
es=pd.read_excel(r'C:\Users\hp\Desktop\数据\ts_data.xlsx',sheet_name=0)
print(es.info())

# 将date作为索引
es=es.set_index('Date',drop=True)
# 读取另一个sheet
vs=pd.read_excel(r'C:\Users\hp\Desktop\数据\ts_data.xlsx',sheet_name=1)
print(vs.info())

# 将date作为行索引
vs=vs.set_index('Date',drop=True)

# 通过日期合并股票数据和波动率数据
data1=es[['SX5E']][(es.index>datetime.datetime(1999,1,1))&(es.index<datetime.datetime(2016,1,1))]
data2=vs[['V2TX']][(vs.index>datetime.datetime(1999,1,1))&(vs.index<datetime.datetime(2016,1,1))]
data=data1.join(data2)
data.columns=['EUROSTOXX','VSTOXX']
print(data.tail())

# 处理缺失值，使用前一个数字填充
data=data.fillna(method='ffill')
print(data.info())

print(data.tail())

# 绘图
data.plot(subplots=True,grid=True,style='b',figsize=(10,5)) # 取出对数收益率
rets=np.log(data/data.shift(1))
print(rets.head())

# 绘图
rets.plot(subplots=True,grid=True,style='b',figsize=(10,5))

# 查看两个指标的相关性
print(rets.corr())

从相关系数矩阵可以看到，股票指数和波动率指数具有非常高的负相关性

# 建立模型
myfit=ols('VSTOXX~EUROSTOXX',data=rets).fit()
print(myfit.summary())

调整后的R^2为0.54，有一定的准确率，模型表达式y=-2.8358x

# 绘制拟合图形
plt.figure()
plt.scatter(rets['EUROSTOXX'][1:],rets['VSTOXX'][1:],color='r')
plt.plot(rets['EUROSTOXX'][1:],myfit.fittedvalues,color='b')
plt.grid()
plt.show()

csv数据链接：https://pan.baidu.com/s/1PhVQtvHjnnVwprBjtAeQEQ
提取码：1234

永洪数据分析社区

永洪科技，致力于打造全球领先的数据技术厂商，具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐

销售数据分析方法、如何写好一个专题分析报告、Hive大数据知识体系教程、大数据分析平台总体架构方案……| 本周精华...

▲点击上方卡片关注我，回复“8”，加入数据分析·领地，一起学习数据分析，持续更新数据分析学习路径相关资料~（精彩数据观点、学习资料、数据课程分享、读书会、分享会等你一起来乘风破浪~）回复“小飞象”，领取数据分析知识大礼包。关注微信公众号：木木自由，更多产品、运营与数据分析干货以及经验分享【数据分析-领地】知识星球，每周会产生大量精华内容，每周将整理《数据分析-领地：一周星球内参》，让你不错过任何一

永洪数据分析社区

玩玩大数据：自拍有风险！大数据分析，是什么“出卖”了你？

史上最昂贵的自拍照，诞生于2007年。两名美国大兵在伊拉克的军营中玩自拍并且传到了社交网络上。结果几天之后，这个秘密的驻扎地就遭到了恐怖分子火箭弹的袭击。四架“阿帕奇”直升机惨遭“爆菊”，...

永洪数据分析社区

Web报表软件的集成方案

报表开发只是应用程序中的一部分，而非全部，因此Web报表软件的集成性就显得非常重要了。　传统的Web报表软件无一例外地都提供了一个独立的报表服务器。采用独立服务器时的，应用结构如下图：　采用独立服务器的不便：• 独立的报表服务器，与应用程序的沟通是通过网络协议，严重降低性能；• 无法享受应用服务器的各项优势功能，包括集群能力、连接池的管理...