Zabbix对Kafka topic积压数据监控的问题(bug优化)

2025-02-23 19:57:58

简述

《Zabbix对Kafka topic积压数据监控》一文的目的是通过Zabbix自动发现实现对多个消费者组的Topic及Partition的Lag进行监控。因在实际监控中发现有问题，为给感兴趣的读者不留坑，特通过此文对监控进行优化调整。

分区自动发现

# 未优化前的计算方式：
# 自动发现配置文件
vim consumer-groups.conf
#按消费者组(Group)|Topic格式，写入自动发现配置文件
test-group|test
# 执行脚本自动发现指定消费者和topic的分区
bash consumer-groups.sh discovery
{
    "data": [
        { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"0" },
        { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"1" },
        { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"3" },
        { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"2" }
    ]
}

经过上线验证，当自动发现配置文件只有一个test-group|test是没有问题的，但当我们按需求再接入test-group|test1 （即test-group消费者组的第二个Topic）时，自动发现的结果如下：

# 未优化前的计算方式：
vim consumer-groups.conf
#按消费者组(Group)|Topic格式，写入自动发现配置文件
test-group|test
test-group|test1

# 执行脚本自动发现指定消费者和topic的分区
bash consumer-groups.sh discovery
{
    "data": [
        { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"0" },
        { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"1" },
        { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"3" },
        { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"2" }
        { "{#GROUP}":"test-group", "{#TOPICP}":"test1", "{#PARTITION}":"0" },
        { "{#GROUP}":"test-group", "{#TOPICP}":"test2", "{#PARTITION}":"1" },
        { "{#GROUP}":"test-group", "{#TOPICP}":"test3", "{#PARTITION}":"2" }
    ]
}

了解Zabbix自动发现格式的同学会发现，每个Topic的Partition会出现','，这种格式是不符合规范，这就是导致我们的监控项会出现问题，因此我们需要进一步修改脚本。

经修改后，最终效果应该如下：

# 优化后的计算方式：
vim consumer-groups.conf
#按消费者组(Group)|Topic格式，写入自动发现配置文件
test-group|test
test-group|test1

# 执行脚本自动发现指定消费者和topic的分区
bash consumer-groups.sh discovery
{
    "data": [
        { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"0" },
        { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"1" },
        { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"3" },
        { "{#GROUP}":"test-group", "{#TOPICP}":"test", "{#PARTITION}":"2" }，
        { "{#GROUP}":"test-group", "{#TOPICP}":"test1", "{#PARTITION}":"0" },
        { "{#GROUP}":"test-group", "{#TOPICP}":"test1", "{#PARTITION}":"1" },
        { "{#GROUP}":"test-group", "{#TOPICP}":"test1", "{#PARTITION}":"2" }
    ]
}

获取监控项“test-group/test/分区X”的Lag

经过自动发现后的数据，我们可以进一步获取不同分区的lag

# 优化后的计算方式：
# test-group test分区0 lag
bash consumer-groups.sh lag test-group test 0
# test-group test分区1 lag
bash consumer-groups.sh lag test-group test 1
# test-group test1分区0 lag
bash consumer-groups.sh lag test-group test1 0

通过命令可以看到，我们的参数通过消费者组、Topic、Partition来获取最终的lag值，如果不加消费者区分，那么无法区分不同消费者组和不同Topic相应的lag结果：

# 未优化前的计算方式：
# 获取分区0 lag
bash consumer-groups.sh lag 0
# 获取分区1 lag
bash consumer-groups.sh lag 1
# 获取分区2 lag
bash consumer-groups.sh lag 2
# 获取分区3 lag
bash consumer-groups.sh lag 3

最终优化后脚本

# 自动发现配置文件
vim consumer-groups.conf
#按消费者组(Group)|Topic格式，写入自动发现配置文件
test-group|test
test-group|test1

# 自动发现、lag计算脚本
vim consumer-groups.sh
#!/bin/bash
##comment: 根据消费者组监控topic lag，进行监控告警
#配置文件说明
#消费者组|Topic
#test-group|test

#获取topic 信息
cal_topic() {
    if [ $# -ne 2 ]; then
        echo "parameter num error, 读取topic信息失败"
        exit 1
    else
        /usr/local/kafka/bin/./kafka-consumer-groups.sh --bootstrap-server 192.168.3.55:9092 --describe --group $1 |grep -w $2|grep -v none
    fi
}
#topic+分区自动发现
topic_discovery() {
    printf "{\n"
    printf "\t\"data\": [\n"
    m=0
    num=`cat /etc/zabbix/monitor_scripts/consumer-groups.conf|wc -l`
    for line in `cat /etc/zabbix/monitor_scripts/consumer-groups.conf`
    do
        m=`expr $m + 1`
        group=`echo ${line} | awk -F'|' '{print $1}'`
        topic=`echo ${line} | awk -F'|' '{print $2}'`
        cal_topic $group $topic > /tmp/consumer-group-tmp
        count=`cat /tmp/consumer-group-tmp|wc -l`
        n=0
        while read line
        do
             n=`expr  $n + 1`
             #判断最后一行
             if [ $n -eq $count ] && [ $m -eq $num ]; then
                 topicp=`echo $line | awk '{print $1}'`
                 partition=`echo $line  | awk '{print $2}'`
                 printf "\t\t{ \"{#GROUP}\":\"${group}\", \"{#TOPICP}\":\"${topicp}\", \"{#PARTITION}\":\"${partition}\" }\n"
             else
                 topicp=`echo $line | awk '{print $1}'`
                 partition=`echo $line  | awk '{print $2}'`
                 printf "\t\t{ \"{#GROUP}\":\"${group}\", \"{#TOPICP}\":\"${topicp}\", \"{#PARTITION}\":\"${partition}\" },\n"
             fi
        done < /tmp/consumer-group-tmp
    done
    printf "\t]\n"
    printf "}\n"
}

if [ $1 == "discovery" ]; then
    topic_discovery
elif [ $1 == "lag" ];then
    cal_topic $2 $3 > /tmp/consumer-group
    cat /tmp/consumer-group |awk -v t=$3 -v p=$4 '{if($1==t && $2==p ){print $5}}'
else
    echo "Usage: /data/scripts/consumer-group.sh discovery | lag"
fi

# 手动运行
## 自动发现
bash consumer-groups.sh discovery
## test-group test分区0 lag
bash consumer-groups.sh lag test-group test 0

接入Zabbix

1.Zabbix配置文件

vim userparameter_kafka.conf
UserParameter=topic_discovery,bash /data/scripts/consumer-groups.sh discovery
UserParameter=topic_log[*],bash /data/scripts/consumer-groups.sh lag "$1" "$2" "$3"

2.Zabbix自动发现

3.监控项配置

4.告警信息

告警主机：Kafka_192.168.3.55
主机IP：192.168.3.55
主机组：Kafka
告警时间：2022.03.21 00:23:10
告警等级：Average
告警信息：test-group/test/分区1:数据积压100
告警项目：topic_lag[test-group,test,1]
问题详情：
test-group/test/1: 62

到此这篇关于Zabbix对Kafka topic积压数据监控的文章就介绍到这了,更多相关Zabbix积压数据监控内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们！

zabbix监控mysql的实例方法

1.监控规划在创建监控项之前要尽量考虑清楚要监控什么,怎么监控,监控数据如何存储,监控数据如何展现,如何处理报警等.要进行监控的系统规划需要对Zabbix很了解,这里只是提出监控的需求. 需求一:监控MySQL的状态,当状态发生异常,发出报警: 需求二:监控MySQL的操作,并用图表展现: 2.自定义脚本监控扩展Agent Zabbix Server与Agent之间监控数据的采集主要是通过Zabbix Server主动向Agent询问某个Key的值,Agent会根据Key去调用相应的函数去获取
关于zabbix自定义监控项和触发器问题

目录一.监控端口关系说明操作二.监控服务关系说明操作三.模板的导入和导出一.监控端口关系说明触发器: 根据客户端的脚本获取值,当客户端的某项值达到要求后,将发出告警监控项:根据客户端的脚本获取值,可设定采集值得间隔时间,将值保留记录下来,可形成曲线图应用集:用来分类存放监控项,比如将监控80,8080等web服务的监控项放在WEB应用集中,将监控22,21等小服务的监控项放入SMALL应用集中. 模板:模板是一套定义好的监控项的合集,任何主机连接模板,则将模板中的监控项等
zabbix监控vmware exsi主机的图文步骤

1.进入虚拟化vcenter中,用浏览器登录(客户端没找到地方设置),新建一个只读用户zabbix. 2. 登录vcenter客户端,将新建用户授权为只读授权过后可以使用新账号登录测试一下. 3.开启exsi主机Managed Object Browser (MOB)功能,没有就默认开着的. 去web client主机系统高级设置里面打开 Config.HostAgent.plugins.solo.enableMob 4.打开zabbix,配置server参数,按照以下参数,没有的就添加进去
Zabbix对Kafka topic积压数据监控的解决方案

目录 Kafka 需求解决方案 1.监控分析 2.监控思路 (1) 消费者组管理 (2)分区自动发现 (3)获取监控项“test-group/test/分区X”的Lag (4)最终脚本 3.Zabbix 自动发现配置 4.告警信息 Kafka Apache Kafka是一个分布式发布-订阅消息系统和一个强大的队列,可以处理大量的数据,并使您能够将消息从一个端点传递到另一个端点. Kafka适合离线和在线消息消费. Kafka消息保留在磁盘上,并在群集内复制以防止数据丢失.Kafka构建在Zoo
详解ZABBIX监控ESXI主机的问题

目录一.环境二.配置zabbix服務端三.配置ESXI 四.添加主机监控一.环境 Zabbix5.2 Centos8.2 ESXI6.5 二.配置zabbix服務端 1.编译安装Zabbix-server的应加上 –with-libxml2 和 –with-libcurl 编译选项 2.yum安装zabbix的是默认安装的 3.修改zabbix配置文件: vim /etc/zabbix/zabbix_server.conf # 找到以下参数取消注释并配置相应数值 StartVMwareC
zabbix配置nginx监控的实现

目录案例:zabbix 配置 nginx 监控 1. 修改配置文件 2. 编写 nginx 监控脚本 3. 修改 zabbix 配置文件 4. 服务端验证 5. 添加模块 6. 创建应用集 7. 创建监控项 8. 定义触发器 9. 关联主机 10. nginx 模板文件案例:zabbix 配置 nginx 监控 1. 修改配置文件 stub_status 模块可参考: https://www.jb51.net/article/248979.htm vim /usr/local/nginx/c
Zabbix对Kafka topic积压数据监控的问题(bug优化)

目录简述分区自动发现获取监控项“test-group/test/分区X”的Lag 最终优化后脚本接入Zabbix 1.Zabbix配置文件 2.Zabbix自动发现 3.监控项配置 4.告警信息简述 <Zabbix对Kafka topic积压数据监控>一文的目的是通过Zabbix自动发现实现对多个消费者组的Topic及Partition的Lag进行监控.因在实际监控中发现有问题,为给感兴趣的读者不留坑,特通过此文对监控进行优化调整. 分区自动发现 # 未优化前的计算方式: # 自动发
Java Kafka 消费积压监控的示例代码

后端代码: Monitor.java代码: package com.suncreate.kafkaConsumerMonitor.service; import com.suncreate.kafkaConsumerMonitor.model.ConsumerInfo; import org.apache.kafka.clients.consumer.ConsumerConfig; import org.apache.kafka.clients.consumer.KafkaConsumer; i
python每5分钟从kafka中提取数据的例子

我就废话不多说了,直接上代码吧! import sys sys.path.append("..") from datetime import datetime from utils.kafka2file import KafkaDownloader import os """ 实现取kafka数据,文件按照取数据的间隔命名如每5分钟从kafka取数据写入文件中,文件名为当前时间加5 """ TOPIC = "rtz
分布式监控系统之Zabbix主动、被动及web监控的过程详解

前文我们了解了zabbix的网络发现功能,以及结合action实现自动发现主机并将主机添加到zabbix hosts中,链接指定模板进行监控:回顾请参考https://www.jb51.net/article/200678.htm:今天我们来了解下zabbix的主动监控.被动监控以及web监控相关话题: 1.什么是主动监控?什么是被动监控? 我们知道获取数据的方式有两种,一种是get,一种是push:在zabbix中描述主动监控和被动监控都是站在agent的一方来描述的:我们把agent主动将数
kafka topic 权限控制(设置删除权限)

Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写.Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据. 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素. 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决. 对于像Hadoop一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案.Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消
对python操作kafka写入json数据的简单demo分享

如下所示: 安装kafka支持库pip install kafka-python from kafka import KafkaProducer import json ''' 生产者demo 向test_lyl2主题中循环写入10条json数据注意事项:要写入json数据需加上value_serializer参数,如下代码 ''' producer = KafkaProducer( value_serializer=lambda v: json.dumps(v).encode('utf-8'
easyui datagrid 大数据加载效率慢,优化解决方法(推荐)

在使用easyui datagrid途中发现加载数据的效率真的不是一般的差.经测试IE8加载300条数据就感觉明显的慢了,加载2000条数据就另人崩溃用时差不多60秒,就算在google浏览器测试结果也快不了几秒. 平时听闻easyui datagrid效率底下,自己测试才发现真是使人无法忍受. 笔者只好百度,google解决方法,发现一篇文章说改 //1.3.3版本是这样的,其它版本也是这句代码 $(_1e0).html(_1e4.join("")); 改为: $(_1e0)[0].
python数据批量写入ScrolledText的优化方法

如下所示: for i in data[::-1]: self.maintenance_text.insert(tk.END, str(i['payload']) + '\n\n') self.maintenance_text.see(tk.END) 改为: str_data = '\n\n'.join([str(i) for i in data[::-1]]) self.maintenance_text.insert(tk.END, str_data) self.maintenance_tex
oracle取数据库中最新的一条数据可能会遇到的bug(两种情况)

记一次开发中遇到的坑: 第一种情况 rowid select * from table where rowid=(select max(rowid) from table ) 这种方式是取最大的rowid作为最新的数据,但是有一个隐患 :数据库一旦有删除操作,rowid不能保证每次都是递增的!即max(rowid)并不一定就是最新的数据,尽管可能不会每次复现但这个问题是绝对存在的! 第二种情况使用rownum (或相同思路) select t.* from (select ti.sysno