概述
我们希望Redis能够将数据从内存中以某种形式同步到硬盘中,使得重启后可以根据硬盘中的记录恢复数据,这一过程就是持久化。
Redis支持两种方式的持久化,一种是RDB方式,另一种是AOF方式,前者会根据指定规则将内存中的数据储存在硬盘上,而后者在每次执行命令后将命本身记录下来。两种持久化方式可以单独使用其中一种,但更多情况下是将两者结合使用。
RDB方式
RDB方式的持久化是通过快照完成的,当满足一定条件时,Redis会自动将内存中的所有数据生成一份副本并储存在硬盘上,这个过程称为“快照”
原理
- Redis使用fork函数复制一份当前进程(父进程)的副本(子进程)
- 父进程继续接受并处理客户端发来的命令,子进程开始将内存中的数据写入硬盘中的临时文件
- 当子进程写入完所有数据后,会用该临时文件替换旧的RDB文件,至此一次快照操作完成
在执行fork函数的时候,操作系统(类Unix操作系统)会使用写时复制的策略,即在fork函数执行的一刻,父、子进程共享同一内存数据,当父进程要更改其中某片数据时(如执行一个写命令),操作系统会将该片数据复制一份,以确保子进程的数据不受影响,所以新的RDB文件存储的是执行fork一刻的内存数据
RDB文件是经过压缩的二进制格式,所占用的空间会小于内存中的数据大小
对于缓存数据的持久化,可以使用RDB方式,因为丢失最近几秒的数据或者丢失最近更新的几十个键并不会有太大的影响
AOF方式
AOF方式的持久化是将Redis执行的每一条写命令,追加到硬盘中的AOF文件
AOF文件的内容正是Redis客户端向Redis发送的原始通信协议
对于非临时数据的持久化,一般会使用AOF方式,因为AOF方式的持久化可能丢失的数据更少
二者优缺点
RDB 存在哪些优势呢?
1). 一旦采用该方式,那么你的整个 Redis 数据库将只包含一个文件,这对于文件备份而言是非常完美的。比如,你可能打算每个小时归档一次最近 24 小时的数据,同时还要每天归档一次最近 30 天的数据。通过这样的备份策略,一旦系统出现灾难性故障,我们可以非常容易的进行恢复。
2). 对于灾难恢复而言, RDB 是非常不错的选择。因为我们可以非常轻松的将一个单独的文件压缩后再转移到其它存储介质上。
3). 性能最大化。对于 Redis 的服务进程而言,在开始持久化时,它唯一需要做的只是 fork 出子进程,之后再由子进程完成这些持久化的工作,这样就可以极大的避免服务进程执行 IO 操作了。
4). 相比于 AOF 机制,如果数据集很大, RDB 的启动效率会更高。
RDB 又存在哪些劣势呢?
1). 如果你想保证数据的高可用性,即最大限度的避免数据丢失,那么 RDB 将不是一个很好的选择。因为系统一旦在定时持久化之前出现宕机现象,此前没有来得及写入磁盘的数据都将丢失。
2). 由于 RDB 是通过 fork 子进程来协助完成数据持久化工作的,因此,如果当数据集较大时,可能会导致整个服务器停止服务几百毫秒,甚至是 1 秒钟。
AOF 的优势有哪些呢?
1). 该机制可以带来更高的数据安全性,即数据持久性。 Redis 中提供了 3 中同步策略,即每秒同步、每修改同步和不同步。事实上,每秒同步也是异步完成的,其效率也是非常高的,所差的是一旦系统出现宕机现象,那么这一秒钟之内修改的数据将会丢失。而每修改同步,我们可以将其视为同步持久化,即每次发生的数据变化都会被立即记录到磁盘中。可以预见,这种方式在效率上是最低的。至于无同步,无需多言,我想大家都能正确的理解它。
2). 由于该机制对日志文件的写入操作采用的是 append 模式,因此在写入过程中即使出现宕机现象,也不会破坏日志文件中已经存在的内容。然而如果我们本次操作只是写入了一半数据就出现了系统崩溃问题,不用担心,在 Redis 下一次启动之前,我们可以通过 redis-check-aof 工具来帮助我们解决数据一致性的问题。
3). 如果日志过大, Redis 可以自动启用 rewrite 机制。即 Redis 以 append 模式不断的将修改数据写入到老的磁盘文件中,同时 Redis 还会创建一个新的文件用于记录此期间有哪些修改命令被执行。因此在进行 rewrite 切换时可以更好的保证数据安全性。
4). AOF 包含一个格式清晰、易于理解的日志文件用于记录所有的修改操作。事实上,我们也可以通过该文件完成数据的重建。
AOF 的劣势有哪些呢?
1). 对于相同数量的数据集而言, AOF 文件通常要大于 RDB 文件。 RDB 在恢复大数据集时的速度比 AOF 的恢复速度要快。
2). 根据同步策略的不同, AOF 在运行效率上往往会慢于 RDB 。总之,每秒同步策略的效率是比较高的,同步禁用策略的效率和 RDB 一样高效。
二者选择的标准,就是看系统是愿意牺牲一些性能,换取更高的缓存一致性( aof ),还是愿意写操作频繁的时候,不启用备份来换取更高的性能,待手动运行 save 的时候,再做备份( rdb )。 rdb 这个就更有些 eventually consistent 的意思了。
参考:《Redis入门指南 第2版》