MySQL 备份引起的主从切换错误

mysqldump 备份说明 在备份 slave 的时候, 以下的 dump-slave 选项, 在执行备份 slave 的时候, 会触发 FLUSH TABLES 的执行: 严格来讲, 只要没有指定 master-data, 都会执行 FLUSH TABLES 语句 mysqldum --dump-slave=2 .........

earlyoom 工具使用说明

背景说明 在 Linux 服务器中, 程序可能因为 bug, 内存溢出等问题, 吃满系统剩余内存, 这种情况意味着开启以下系统参数不会有加速内存的回收, 因为没有可回收的内存: vm.vfs_cache_pressure = 400 vm.min_free_kbytes = 512000 如果吃满系统内存, 下一步则是系统根据 oom 评分机制抉择出哪些进程被 kill, 默认 kill 最高评分的进程. 这个过程中可能会经历一两分钟的时间,...

系统日志报警汇总

本文汇总了 Linux 系统 syslog 和物理机硬件日志相关的报警说明, 以便于系统问题的发现和诊断. syslog 日志 syslog 消息报警策略参考以下规则: ( (msg:xfs OR msg:hang OR msg:timeout OR msg:error OR msg:"Call Trace" OR msg:"hung_task_timeout_sec" OR msg:"waitingfor...

再探 audit 审计机制

在文章如何审计 Linux 系统的操作行为中, 我们详细介绍了审计系统行为的几种方式, 以及对应的优缺点. 但是在 audit 方面介绍还不够深入, 缺乏实践使用的一些准则. 本文则对 audit 机制以及相关工具做更多的延申介绍, 主要包含以下几点: auditd 工作机制 auditd 机制的延申 auditbeat 工作机制 wazuh 工作机制 Elkeid 工作机制 其它工具 packetbeat...

mysql 客户端访问崩溃排查

错误说明 近期在测试 shardingsphere-proxy 工具的时候, 接连碰到几例 mysql 客户端崩溃的情况, 各 mysql 客户端分布在不同主机, 以及不同版本上. 通过 gdb 直接跟踪可以看到如下错误所示: # 所有版本以 gdb 方式连接: gdb -ex run -ex bt --args mysql...

如何杀掉 close_wait 状态的连接

CLOSE_WAIT 连接状态说明 在 tcp 连接状态中, LISTEN, ESTABLISHED 和 TIME_WAIT 可能是最为常见的三类状态. 相比而言 CLOSE_WAIT 就比较少见, 大多数情况下 CLOSE_WAIT 状态持续的时间会很短, 如果持续时间很长, 就意味着程序处理可能出现了异常. 如下图所示: TCP A TCP B 1. ESTABLISHED...

systemd 方式启动 agent 踩坑记录

systemd 机制统一了不同 Linux 发行版的服务管理方式, 不过也引入了一些不可预知的问题. 本文则记录以 systemd 方式启动 agent(daemon 进程, 可执行系统命令, 采集数据等) 服务引入的一些问题. 重启 agent 服务时也重启服务的子进程 比如以下 systemd 服务: [Unit] Description=agent auto start [Service] Type=simple...

tcp 长连接保活注意点

tcp 长连接一直是提升系统性能的重要手段. 不过在复杂网络或者请求很少的时候, 也会通过保活等方式维持连接的建立. 保活可以用来探测连接, 进而可能释放掉已经无效的连接. 在一些跨网以及含有硬防的网络环境中, 一些网络设置可能默认会 kill 掉长时间空闲的 tcp 会话, 这种情况下 tcp 连接的保活就显得更为重要. 本文则记录了 tcp 连接保活的几点事项. 保活的方式 问题汇总 参考 保活的方式 通常包含系统层和应用层两种保活方式. 系统层 系统层主要是...

haproxy 使用及问题汇总

早期文章在云中使用 proxy protocol 中, 我们介绍了 haproxy 在云环境中的一些使用案例, 同时也包括一些 proxy protocol 使用, acl 规则限制等注意事项. 本文则主要介绍使用 haproxy 时常见的一些问题, 后期碰到的问题也会在本文中持续更新. 问题列表 haproxy 重复启动问题 max open file 受限问题 supervisord...

rclone 工具使用及问题汇总

rclone 作为文件和对象存储的管理工具, 经过近些年的发展已经完好的支持各种存储协议, 比如 HDFS, FTP, SFTP, GCS 和 S3(兼容 aws, 金山云, 腾讯云, 阿里云等)等, 逐渐有统一管理云存储之势, 从 rclone-github 来看, 各大云厂商也逐渐将各自的存储协议合并到了 rclone 中. 这在对象存储统一管理, 尤其是多云管理的场景中带来了很大的便利, 也便于我们实现诸如统一运维管理的目标. 同时,...