大数据学习-分桶键选择

综上,一个好的分桶键应选择基数高、分布均匀、长度固定且不易变化的属性。选择合适的分桶键是设计一个高性能、高可扩展的分布式系统的基础。不易变化:分桶键的值在数据生命周期内基本不变,可以最大限度利用已有的缓存 Entry。无相关性:分桶键的值和实际缓存值没有明显的相关性,可以在缓存节点之间隐藏更多信息。高基数:分桶键的取值越多,分到同一个桶的概率越小,数据分布越均匀。这可以提高缓存的命中率和扩展性。固

AcerJohn

354人浏览 · 2023-06-06 21:23:30

AcerJohn · 2023-06-06 21:23:30 发布

分桶键的选择是设计分布式缓存或数据库的关键。一个好的分桶键应该具有以下特性:

高基数:分桶键的取值越多,分到同一个桶的概率越小,数据分布越均匀。这可以提高缓存的命中率和扩展性。
均匀分布:分桶键的取值在整个键值范围内分布均匀,没有“热点”。这也可以提高缓存的命中率和扩展性。
固定长度:分桶键的取值长度固定,可以方便计算桶号。如果长度可变会增加计算复杂度。
无相关性:分桶键的值和实际缓存值没有明显的相关性,可以在缓存节点之间隐藏更多信息。比如用户ID可能比用户姓名更好。
不易变化:分桶键的值在数据生命周期内基本不变,可以最大限度利用已有的缓存 Entry。如果分桶键经常变化会导致大量缓存失效和重新计算分布。

常见的分桶键选择有:

用户ID:高基数,固定长度,不易变化。
产品ID:高基数,固定长度,不易变化。
时间戳:均匀分布,固定长度,不断增加。
哈希值:均匀分布,固定长度,隐藏原数据。
地理位置:高基数,不易变化。

综上,一个好的分桶键应选择基数高、分布均匀、长度固定且不易变化的属性。常见选择是ID、时间戳、地理位置等。选择合适的分桶键是设计一个高性能、高可扩展的分布式系统的基础。

永洪数据分析社区

永洪科技，致力于打造全球领先的数据技术厂商，具备从数据应用方案咨询、BI、AIGC智能分析、数字孪生、数据资产、数据治理、数据实施的端到端大数据价值服务能力。

更多推荐

cover

Archery 系统配置 SQL优化审核平台配置【详解】

永洪数据分析社区

cover

举个栗子！Tableau 技巧（249）：为文本表中的不同度量设置不同颜色

永洪数据分析社区

cover

毕业设计：基于python渔业数据可视化分析系统 Flask框架海洋捕捞品类全国渔业渔业加工（源码+文档）✅

永洪数据分析社区

所有评论(0)

查看更多评论

AcerJohn

@weixin_45214524

已为社区贡献1条内容