您当前的位置:首页 > 互联网教程

如何管理 MySQL 的 binlog

发布时间:2025-05-12 07:31:26    发布人:远客网络

如何管理 MySQL 的 binlog

一、如何管理 MySQL 的 binlog

当启动Binlog后,事务会产生Binlog Event,这些Event被看做事务数据的一部分。因此要保证事务的Binlog Event和InnoDB引擎中的数据的一致性。所以带Binlog的CrashSafe要求MySQL宕机重启后能够保证:

-所有已经提交的事务的数据仍然存在。

-所有没有提交的事务的数据自动回滚。

-所有已经提交了的事务的Binlog Event也仍然存在。

-所有没有提交事务没有记录Binlog Event。

这些要求很好理解,如果重启后数据还在,但是Binlog Event没有了,就没办法复制到其他节点上了。如果重启后,数据没了,但是Binlog Event还在,那么不存在的数据就会被复制到其他节点上,从而导致主从的不一致。

为了保证带Binlog的CrashSafe,MySQL内部使用的两阶段提交(Two Phase Commit)。

2- MySQL的Two Phase Commit(2PC)

在开启Binlog后,MySQL内部会自动将普通事务当做一个XA事务来处理:

-自动为每个事务分配一个唯一的ID

- COMMIT会被自动的分成Prepare和Commit两个阶段。

- Binlog会被当做事务协调者(Transaction Coordinator),Binlog Event会被当做协调者日志。

想了解2PC,可以参考文档:【。】

使用2PC时,MySQL会自动的为每一个事务分配一个ID,叫XID。XID是唯一的,每个事务的XID都不相同。XID会分别被Binlog和InnoDB记入日志中,供恢复时使用。MySQ内部的XID由三部分组成:

为了保证XID的的唯一性,数字部分使用了query_id。MySQL内部会自动的为每一个语句分配一个query_id,全局唯一。

参考代码:sql/xa。h的struct xid_t结构。

Binlog在2PC中充当了事务的协调者(Transaction Coordinator)。由Binlog来通知InnoDB引擎来执行prepare,commit或者rollback的步骤。事务提交的整个过程如下:

1.协调者准备阶段(Prepare Phase)

告诉引擎做Prepare,InnoDB更改事务状态,并将Redo Log刷入磁盘。

2.协调者提交阶段(Commit Phase)

2.1记录协调者日志,即Binlog日志。

注意:记录Binlog是在InnoDB引擎Prepare(即Redo Log写入磁盘)之后,这点至关重要。

在MySQ的代码中将协调者叫做tc_log。在MySQL启动时,tc_log将被初始化为mysql_bin_log对象。参考sql/binlog.cc中的init_server_components():

if(opt_bin_log) tc_log=&mysql_bin_log;

参考代码:sql/binlog.cc中的ha_commit_trans()。当mysql_bin_log是tc_log时,prepare和commit的代码在sql/binlog.cc中:

作为协调者,Binlog需要将事务的XID记入日志,供恢复时使用。Xid_log_event有以下几个特点:

因为前缀部分不变,server_id已经记录在Event Header中,Xid_log_event中只记录query_id部分。

在Binlog中相当于一个事务的COMMIT语句。

一个事务在Binlog中看起来时这样的:

Query_log_event("BEGIN");DML产生的events; Xid_log_event;

- DDL没有BEGIN,也没有Xid_log_event。

-仅InnoDB的DML会产生Xid_log_event

因为MyISAM不支持2PC所以不能用Xid_log_event,但会有COMMIT Event。

Query_log_event("BEGIN");DML产生的events;Query_log_event("COMMIT");

问题:Query_log_event("COMMIT")和Xid_log_event有不同的影响吗?

- Xid_log_event中的Xid可以帮助master实现CrashSafe。

- Slave的CrashSafe不依赖Xid_log_event

事务在Slave上重做时,会重新产生XID。所以Slave服务器的CrashSafe并不依赖于Xid_log_event。Xid_log_event和Query_log_event("COMMIT"),只是作为事务的结尾,告诉Slave Applier去提交这个事务。因此二者在Slave上的影响是一样的。

这个机制是如何保证MySQL的CrashSafe的呢,我们来分析一下。这里我们假设用户设置了以下参数来保证可靠性:

在恢复开始前事务有以下几种状态:

根据前面2PC的过程,可知Binlog中也一定记录了该事务的的Events。所以这种事务是一致的不需要处理。

- InnoDB中是prepared状态,Binlog中有该事务的Events。

- InnoDB中是prepared状态,Binlog中没有该事务的Events。

因为Binlog还没记录,需要通知InnoDB回滚这些事务。

事务可能还没执行完,因此InnoDB中的状态还没有prepare。根据2PC的过程,Binlog中也没有该事务的events。需要通知InnoDB回滚这些事务。

从上面的事务状态可以看出:恢复时事务要提交还是回滚,是由Binlog来决定的。

-事务的Xid_log_event存在,就要提交。

-事务的Xid_log_event不存在,就要回滚。

-从Binlog中读出所有的Xid_log_event

二、如何修改mysql的binlog

MySQL的 Binlog记录着 MySQL数据库的所有变更信息,了解 Binlog的结构可以帮助我们解析Binlog,甚至对 Binlog进行一些修改,或者说是“篡改”,例如实现类似于 Oracle的 flashback的功能,恢复误删除的记录,把 update的记录再还原回去等。本文将带您探讨一下这些神奇功能的实现,您会发现比您想象地要简单得多。本文指的 Binlog是 ROW模式的 Binlog,这也是 MySQL 8里的默认模式,STATEMENT模式因为使用中有很多限制,现在用得越来越少了。

Binlog由事件(event)组成,请注意是事件(event)不是事务(transaction),一个事务可以包含多个事件。事件描述对数据库的修改内容。

现在我们已经了解了 Binlog的结构,我们可以试着修改 Binlog里的数据。例如前面举例的 Binlog删除了一条记录,我们可以试着把这条记录恢复,Binlog里面有个删除行(DELETE_ROWS_EVENT)的事件,就是这个事件删除了记录,这个事件和写行(WRITE_ROWS_EVENT)的事件的数据结构是完全一样的,只是删除行事件的类型是 32,写行事件的类型是 30,我们把对应的 Binlog位置的 32改成 30即可把已经删除的记录再插入回去。从前面的“show binlog events”里面可看到这个 DELETE_ROWS_EVENT是从位置 378开始的,这里的位置就是 Binlog文件的实际位置(以字节为单位)。从事件(event)的结构里面可以看到 type_code是在 event的第 5个字节,我们写个 Python小程序把把第383(378+5=383)字节改成 30即可。当然您也可以用二进制编辑工具来改。

由于 ROW模式的 Binlog是每一个变更都记录一条日志,因此一个简单的 SQL,在 Binlog里可能会产生一个巨无霸的事务,例如一个不带 where的 update或 delete语句,修改了全表里面的所有记录,每条记录都在 Binlog里面记录一次,结果是一个巨大的事务记录。这样的大事务经常是产生麻烦的根源。我的一个客户有一次向我抱怨,一个 Binlog前滚,滚了两天也没有动静,我把那个 Binlog解析了一下,发现里面有个事务产生了 1.4G的记录,修改了 66万条记录!下面是一个简单的找出 Binlog中大事务的 Python小程序,我们知道用 mysqlbinlog解析的 Binlog,每个事务都是以 BEGIN开头,以 COMMIT结束。我们找出 BENGIN前面的“# at”的位置,检查 COMMIT后面的“# at”位置,这两个位置相减即可计算出这个事务的大小,下面是这个 Python程序的例子。

对于大的事务,MySQL会把它分解成多个事件(注意一个是事务 TRANSACTION,另一个是事件 EVENT),事件的大小由参数 binlog-row-event-max-size决定,这个参数默认是 8K。因此我们可以把若干个事件切割成一个单独的略小的事务

ROW模式下,即使我们只更新了一条记录的其中某个字段,也会记录每个字段变更前后的值,这个行为是 binlog_row_image参数控制的,这个参数有 3个值,默认为 FULL,也就是记录列的所有修改,即使字段没有发生变更也会记录。这样我们就可以实现类似 Oracle的 flashback的功能,我个人估计 MySQL未来的版本从可能会基于 Binlog推出这样的功能。

了解了 Binlog的结构,再加上 Python这把瑞士军刀,我们还可以实现很多功能,例如我们可以统计哪个表被修改地最多?我们还可以把 Binlog切割成一段一段的,然后再重组,可以灵活地进行 MySQL数据库的修改和迁移等工作。

三、mysql开启binlog日志

mysqlbinlog是将 binlog解析成可读可执行的 SQL的重要工具。

但解析体积较大的 binlog时,如何查看 mysqlbinlog的执行进度就变成了一个问题,mysqlbinlog并未提供–progress这样的参数。

那要怎么查看 mysqlbinlog的解析进度?

我们在实验 08中介绍了如何生成随机数据。可以利用其中技巧,生成较大的 binlog,我们忽略这个过程。

从已有的 binlog开始,bin.000002大约有 1.1个 G:

大概会执行 4.6秒左右。大家仔细做实验时,可以将 binlog放大一些,让执行实验更长一些。

我们在 mysqlbinlog解析时,查看其文件句柄:

可以看到 mysqlbinlog用句柄 3读取 binlog。(我们暂时忽略句柄 4指向的临时文件,其涉及到了行格式的解析过程,我们安排在以后的实验中慢慢介绍)

获取了 mysqlbinlog处理文件句柄 3的进度,就可以大概估算 mysqlbinlog的整体进度:

可以看到 mysqlbinlog此时的进度大概是 600M左右,整体进度估算为 54%。

我们无法让 mysqlbinlog直接输出进度,于是通过观察 mysqlbinlog对 binlog的读取进度,估算mysqlbinlog的整体处理进度。