
2023年Mathorcup大数据竞赛B题回顾
第二次打数模,刚好也是第二次打妈妈杯系列的赛题。相比较4月份的题目,11月的赛题只有两道,一个预测类,一个图像分析类。技术有限,只能做预测类,下次争取做一道图像分析的题目。这次比赛体验还是不错的,比上次好很多,至少有人陪博主一起受苦,有问题也能找得到人来解决。学到了关于K-means和DTW的东西,收货是有的争取下次去试试更高难度的图像识别!
前言
第二次打数模,刚好也是第二次打妈妈杯系列的赛题。
相比较4月份的题目,11月的赛题只有两道,一个预测类,一个图像分析类。技术有限,只能做预测类,下次争取做一道图像分析的题目。
题目分析
三个问题都是和预测相关的。
第一问根据12月至次年5月15日的数据预测5月16日至5月30日的数据,并建立预测维度分类。
第二问给了一些新的小数据序列,然后预测5月16日至5月30日的数据。
第三问给了11月份部分时间的数据,然后预测6月份部分时间的数据。
第一问
ARIMA模型
一个简单的预测问题,直接建立ARIMA模型,通过ACF图和PACF图确定p、q阶数。
(记得要把数据清洗一遍,matlab提供了一个叫filloutliers的函数,比较方便)
记得检验残差。
(原谅团队码力不足,模型有点糟糕,拟合度确实低)
在跑了模型之后记得把题目提供的准确度检验公式用起来,可以加分的
K-means聚类分析
用附件2-附件4的数据结合附件1的数据进行使用。首先要把附件1-附件4数据整合在一个excel里面,python的merge函数好像有这个功能。然后从seller_no、product_no、warehouse_no三个维度来建立K-means模型。
第二问
DTW算法
DTW算法其实有点动态规划的感觉,要建立一个dp矩阵,然后去找最相似的数据序列,即差值最小的序列。
余弦相似度检验
余弦相似度检验是在DTW基础上进行的。其实完全可以用余弦相似度来完成这道题,但是我们觉得只用一个算法是不是会显得太low(正确率太低),于是先用DTW筛一遍,再用余弦相似度再筛一遍,两次筛选应该能选出最正确的序列。
第三问
SARIMA模型
其实我和一些选B题的对这个问题都感觉很无语,就给了10天左右的数据,然后就去预测半年后的10天左右的数据,这跟直接抄上去有什么区别?他甚至没有提供10月份之前的一些数据来让我们有个趋势判断……
但是做肯定是要做的,我们采取的是和网上大部分人相同的SARIMA模型,季节性时间序列预测。该模型其实本质上就是加了一个周期性参数,其他的参数和原来的p、q、d有什么区别我一直没找到准确的说法。然后结果也比较丑陋,基本没有参考价值
(上图是题目给的数据,下图是预测出来的数据)
总结
这次比赛体验还是不错的,比上次好很多,至少有人陪博主一起受苦,有问题也能找得到人来解决。
学到了关于K-means和DTW的东西,收货是有的
争取下次去试试更高难度的图像识别!
更多推荐
所有评论(0)