ddb架构和坑

DDB架构

老架构

老架构

应用层app通过DBI驱动来访问DDB,与大多数驱动一样,DBI提供了访问DDB的各种接口。与mysql官方提供的Standard jdbc Connector/J不同,DBI首先会接收应用app的sql,通过解析器生成抽象语法树,再根据语法树生成分布式执行计划,然后通过jdbc驱动将执行计划下发给数据节点dbn,各节点执行sql通过mysql通信协议将结果返回,最后在DBI层进行结果的聚合并返回给应用层。

该架构有以下缺点:

  • 由于语法解析、执行计划的生成都发生在应用服务器,一定程度上消耗了应用服务器的资源
  • DBI通过打包成db.jar为供应用端所使用,DDB的升级需要重新打包,这就导致每次DDB升级都需要应用停服重启才能生效,给运维工作带来困难,造成的问题就是各个产品线使用不同版本的DDB
  • 由于 DBI 部署在应用端,每次应用重启都会伴随着 DBI 模块的重启,由于 DBI 内
    部维护了一些文件锁,瞬间重启可能由于操作系统的文件锁没来得及释放而抛异
    常,

新架构

新架构

为了解决上述问题,实现DBI与应用层的解耦,DBA团队开发了QS模式。该模式单独抽出了一个QS层,通常一个应用对应对个QS节点。QS实现了mysql标准jdbc驱动到DBI驱动的转换,语法解析、执行计划的生成都在QS服务器上完成,为应用服务器减轻压力的同时,实现了与应用层的解耦,可以做到对应用层的无感知升级。另外,QS与应用服务器的交互完全采用标准mysql通信协议,应用层的语言不再限制为java。

全局自增ID

DDB不支持全局ID的单调递增!!

提供两种自增ID的分配方式:

  • USB: User Sequence Based
    • 通过数据库批量申请ID,默认一次1K个
    • 优点:实现简单,满足大多数应用场景
    • 缺点:依赖数据库,自增性不是很好
  • TSB: Time Sequence Based
    • 依赖QS时间戳生成全局ID
    • 优点:自增性较好,不依赖数据库
    • 缺点:字段太长,应用支持不是很好

我们通常使用USB。假设应用层对应两个QS节点QSa和QSb,采用USB模式时,QSa和QSb会各自预申请1000个ID,假设QSa申请到1~1000,QSb申请到1001~2000。我们每次insert一条数据时,会向QS申请分配一个ID,如果请求分配给QSa,那么QSa会从它的ID池中递增地拿出一个ID,类似地请求分配到QSb时,QSb会从1001~2000中拿出尚未分配出去的最小ID。因此,整体上ID有增长的趋势,但并非严格单调递增。

均衡字段实现分库

DDB通过均衡字段BF实现分库,每张表设定一个均衡字段,表数据根据一定的分区策略存储到不同的dbn节点上

DDB分区策略:%n (n=桶个数) + 二级映射

按照下图决定将数据存储到哪一个节点上:

均衡字段

这里的bucket是一个逻辑上的概念,它与物理节点的映射关系可以进行动态调整,这样的话增加或减少物理节点不会影响到均衡字段与桶的映射关系,方便动态扩容和缩容。

这种方案的一个特点就是数据分布情况取决于均衡字段的选择和hash函数的选取。举个例子,如果选取时间作为均衡字段,且hash函数就是简单地取模操作,那么这种方案适用于数据关于时间均匀分布的场景,数据会均匀地分布到各个节点上;但是如果某段时间内线上数据激增,那么大量的数据可能会汇聚到同一个节点上,增加了该节点的负荷。

其他

由于DDB是分布式数据库,在使用offset时要格外慎重。比如sql语句:select * from vcloud_vod_video limit 10 offset 1000,下发到每个dbn节点时,每个节点都会limit 1010,即limit+offset。过大的offset会直接导致慢sql,甚至导致OOM