SQL优化：多个count(distinct)跑得慢如何优化？

考虑去重字段数量1>2>3>42>3>4（此时方法1不适用）

Suuuuuuu.

1058人浏览 · 2024-07-14 15:47:44

Suuuuuuu. · 2024-07-14 15:47:44 发布

文章目录

背景

spark sql中，使用count(distinct)会使得数据发生expand，使得stage的全部task跑的慢
原因：数据expand会使得数据翻n倍，单个task处理过多的数据
conut(distinct)源码分析

优化方法

一、改写sql

适用于最后去重的字段时同一个，只是条件不同

将数据聚合到去重字段粒度
计算结果

二、膨胀前repartition

通过repartition或distribute by，在数据膨胀前，手动用一次shuffle将数据打散到更多的task
如：表有1280M，一个task读128M，在进行数据膨胀之前，通过repartition打散到100个task上，每个task只有12.8M，则发生数据膨胀也10倍也不会超过单个task的处理能力
注意：repartition的数量可以根据膨胀倍数进行确定

三、参数调优

让每个map读的数据变少，如设置12M，数据膨胀10倍至120M时一个task也能进行处理
存在的问题：读表变慢，因为需要用到更多的task

set spark.sql.files.maxPartitionBytes = 12m;

四、逻辑拆分

把逻辑拆开，分别计算指标，然后再join起来

总结

考虑去重字段数量

最后去重的字段是一个，仅条件不同

1>2>3>4

最后去重的字段是多个

2>3>4
（此时方法1不适用）

永洪数据分析社区

永洪科技，致力于打造全球领先的数据技术厂商，具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐

【2025年泰迪杯数据挖掘挑战赛】B题详细解题思路+数据预处理+代码分享

初步分析整理了B题的赛题分析与解题思路，后面还会更新详细的建模论文与解题代码，明天完成！

永洪数据分析社区

2025年泰迪杯数据挖掘竞赛B题论文首发+问题一二三四代码分享

针对问题二，将处理后的数据集，进行合并为一个完整的数据集作为训练数据集，性别（Sex）和年龄（Age）为类别变量，加速度计数据作为输入数据，MET值作为输出数据，引入随机森林回归器、随机森林、支持向量机、多层感知机、GBDT进行训练模型，并利用RMSE对模型精度进行评估。原始数据存储于CSV格式文件中，其中记录了时间戳和对应的三轴加速度值（X，Y，Z轴），这些数据反映了个体在空间中各个方向上的加