今天一流复制( Streaming Replication) 数据库一目录空间告警,经查是 pg_xlog 目录 WAL 日志文件过多,已超过阀值。
pg_xlog 是数据库重做日志,非常重要,不能直接清理,否则给数据库带来巨大灾难,以下是流复制环境下清理 pg_xlog 的方法。
查看数据库参数
查看当前 checkpoint_segments 和 wal_keep_segments1
2
3
4
5
6
7
8
9
10
11
12
13
14
15postgres@db> psql -h 127.0.0.1
psql (9.2.4)
Type "help" for help.
postgres=> show checkpoint_segments;
checkpoint_segments
---------------------
128
(1 row
postgres=> show wal_keep_segments ;
wal_keep_segments
-------------------
4096
(1 row)
查看 pg_xlog 文件数量
1 | cd $PGDATA |
备注:这比 wal_keep_segments 设置值大些,但这是正常的,因为 4156 < 4096 +128(checkpoint_segments)+1 至于 pg_xlog 最大文件数量的估算参考之前 blog: How to estimate total number of WAL segments ?
修改 postgreql.conf
1 | wal_keep_segments = 2048 |
备注:将参数 wal_keep_segments 由原来的 4096 调整到 2048。
重载配置文件1
2postgres@db> pg_ctl reload -D $PGDATA
server signaled
再次查看 wal_keep_segments1
2
3
4
5postgres=# show wal_keep_segments ;
wal_keep_segments
-------------------
2048
(1 row)
查看 pg_xlog 文件数量1
2
3 cd $PGDATA
ll pg_xlog/ | wc -l
4156
备注:此时 pg_xlog 日志文件依然没被删除,接着往下操作。
执行 Checkpoint
1 | postgres=# checkpoint; |
再次查看 pg_xlog 文件数量1
2 ll $PGDATA/pg_xlog/ | wc -l
2310
备注:手动执行 checkpoint 后,大概一半 pg_xlog 日志已被删除,空间使用率降下去了,也可以不手动操作,因为 checkpoint 操作数据库会自动执行,执行频率由参数 checkpoint_timeout 控制。