文章详情|雪花算法重复概率

雪花算法重复概率 所属分类 architecture 浏览量 799

雪花算法（Snowflake）是一种用于生成全局唯一ID的分布式ID生成方案，其主要优点包括高效率、趋势递增和不依赖数据库等第三方系统。
在实际应用中，雪花算法在某些情况下可能会出现ID重复的问题。

雪花算法在以下几种情况下容易产生ID重复：

高并发场景
当多个请求同时生成ID时，如果时间戳相同且序列号也相同，则会导致ID重复。
例如，在高并发测试中，设置10秒内发送200个请求时，偶发性会产生1~2个重复ID；
而设置500个请求时，固定会有一场重复；
在1000个并发时，大约有2%的重复率


集群部署中的机器ID和数据中心ID问题
在集群部署的微服务架构中，如果随机的机器ID相同，并且在同一毫秒内生成ID，时间戳和序列号也完全一致，则会导致ID重复。
此外，如果使用相同的workerId和datacenterId，也会导致ID重复。

哈希冲突
雪花算法中的workerId是通过hashcode对32取模得到的，这本身可能产生重复。
例如，两个不同的workerId可能被映射到同一个哈希值上，从而导致ID重复。

尽管如此，雪花算法仍然具有很高的生成效率和稳定性，能够在单个节点上每秒生成数百万个ID，并且在分布式系统中不会产生ID碰撞。


为了减少或避免ID重复，可以采取以下措施：
单例模式获取实例：确保每次生成ID时都使用同一个雪花算法实例，以避免不同实例间ID冲突。
升级到新版本：虽然对于某些版本的雪花算法来说升级可能不是必须的，但最好还是进行升级以获得更好的性能和稳定性。
调整bit位：可以根据业务需求自定义雪花算法的bit位分配，以进一步提高ID的唯一性和生成效率。


雪花算法在高并发和分布式环境下表现出色，但在特定条件下仍有可能出现ID重复问题。
在设计和使用雪花算法时需要特别注意时间戳、机器ID和数据中心ID的管理，以及合理配置哈希函数等参数，以确保ID的唯一性和系统的稳定性。


一种实现
雪花算法ID  + 全局递增ID (可基于redis实现)

西湖边的红色旅游景点

LambdaQueryWrapper 结合 QueryWrapper 实现 sum distinct

Mybatis-Plus update-strategy

雪花算法时钟回拨

Kafka Exporter 指标

小学奥数七大知识模块体系