kafka宕机导致消费中断
故障现象:
bus_client_op_real_load_info表发布正常,订阅异常中断,重启client进程也未解决。
故障排查:
(1)查询订阅状态(loadStatus=5),正常
select * from bus_client_product_object where customerid=32070 and targettablename=’bus_client_op_real_load_info’ and ctlid=436;
(2)检查系统日志和client主进程日志,订阅子进程未发现被kill。
grep -i kill /var/log/messages(最后一次kill进程在上午10点,但故障发生在下午13点,所以和系统kill无关)****
grep -i kill log.client_32070
(3)筛选订阅日志错误信息,发现35059.databus_v4.bus_client_op_real_load_info.r被remove:
(4)具体定位报错,发现kafka消费到offset[3204757]左右消费中断:
(5)手动消费offset[3204757]记录,发现kafka产生的数据异常:
../bin/kafka_tool -broker 172.17.58.146:9092 -topic 35059.databus_v4.bus_client_op_real_load_info.r -offset 3204757 -count 1
故障总结:
13点左右kafka宕机导致的kafka数据异常,进而导致消费中断。
故障解决:
为了确保数据完整,需要重新全量发布订阅故障表。
u
文档更新时间: 2021-12-06 14:34 作者:阿力