1. 交通大数据(基于重庆出租车数据)

     本项目将出租车大数据导入SQL数据库,再对其进行数据预处理并绘制出租车的轨迹,然后计算OD表和绘制热力图,最后对出租车轨迹进行预测。各个板块的具体操作见下面的文章:

数据导入与准备_重庆市出租车gps数据-CSDN博客

出租车轨迹数据预处理_出租车运行轨迹数据预处理-CSDN博客

计算出行OD表和绘制城市热点区域-CSDN博客

出租车交通预测-CSDN博客

2. ETL数据整合与处理

      为了解决无人售货机收益无法达到最大化的问题,需要分析客户每天的订单列表、订单详情和无人售货机日销售金额等数据,获得有关热销和滞销商品信息,以及无人售货机的收入和利润信息。具体操作见下面文章:

Kettle 无人售货机项目实战_将商品按照销售数目由多至少进行排序及销售金额从高到低进行排序的结果。kettle-CSDN博客

      Sakila样本数据库是MySQL官方提供的一个模拟DVD租赁商店管理的数据库。基于ETL工具,对数据库Sakila中的数据进行清洗操作,从而构建一个DVD租赁商店数据仓库系统,即实现定期从源数据仓库Sakila中抽取增量数据,转换成符合DVD租赁业务的数据,最后加载到目标仓库中。

Sakila构建DVD租赁商店数据仓库(etl)-CSDN博客

     根据数据集(sakila),建立星型数据挖掘模型,并建立数据仓库,找出最受欢迎的3个电影题材,找到的3个电影题材的销售数据并给其发邮件。

sakila数据集中最受欢迎的电影题材和明星_sakila统计每部电影的销售额-CSDN博客

3. 爬取网易云歌单信息并进行数据可视化

     通过爬虫技术爬取网易云音乐歌单信息,将爬取到的信息进行数据预处理、数据清洗,然后爬取到的信息保存到MySQL数据库中,最后采用统计汇总和统计的方法对数据进行总结,将数据可视化出来。具体操作见下面的文章:

爬取网易云歌单信息并分析-CSDN博客

4. 歌曲分类和流行度预测

      首先对数据集进行预处理,预处理后的数据进行探索性分析,观察各变量的分布情况,各变量之间是否存在关系,如线性关系、相关性等。然后根据探索分析的结果,进行歌曲分类和流行度预测。

      歌曲分类依次用了决策树分类器、随机森林分类器、xgboost分类器进行分类,再根据结果比较分析了哪个分类器效果好。歌曲流行度预测选用随机森林回归器和梯度提升回归器对歌曲流行度进行预测,使用sklearn中的Grid Search方法进行最佳超参数组合的搜索,得到最佳模型。最后分析在最佳模型中,各个特征的贡献率。具体操作见下面的文章:

歌曲分类和流行度预测-CSDN博客

5. 西饼屋订单关联分析

    对商品订单使用Apriori算法进行关联分析,分析购买了一种商品,是否也会购买另一种商品,以便制定销售策略,提高商超的收益。具体操作见下面的文章:

西饼屋订单关联分析-CSDN博客

6.数据分析(R语言) 

    R语言进行统计分析,从简单的聚类、主成分等分析开始,到综合的泰坦尼克号项目,该合集的网站:

数据分析(R语言)_小蟹dal的博客-CSDN博客

7.手写字体识别系统(机器学习)

     识别手写的字体

Logo

永洪科技,致力于打造全球领先的数据技术厂商,具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐