达内教育开设的大数据技术开发课程可以为您提供专业的大数据教学指导,帮助您掌握大数据技术开发相关知识和技能,让您可以更和更顺利实现,有能力实现升职加薪,在广州达内的大数据技术开发课程中,老师具备多年的教学经验,可以帮助学员找到适合的学习方案,让学员更提升大数据开发技术能力。

kafka的配置属性多达几百个,在生产环境中对kafka进行调优时,要如何设置Kafka的核心调优参数?在调优之前,我们要先分析业务场景,然后在吞吐量、延时、可靠性和可用性4个方面做权衡。
下面我们就从这四个方面来了解一下,从而逐一分析kafka应该设置哪些核心属性以及提供建议值。
1、吞吐量
吞吐量意味着需要尽可能提升每秒发送消息的吞吐量
常见场景:日志收集
压缩类型为什么选择lz4? 因为这种类型的压缩方式下,吞吐量较大。吞吐量时,会占用大量的网络带宽,如果不希望影响整个网络,可以设置配额。
2、低延时
低延是指producer开始发送消息到consumer接收到消息的时间差。低延时意味着每条消息需要尽可能快地完成端对端(从producer到consumer)的传递
常见场景:近实时数据的传输、聊天、视频弹幕等应用
3、可用性
提高可用性,就需要在kafka出现故障时,能够尽快地恢复。
acks对吞吐量、延时和可靠性的影响
4、可靠性优化
可靠性就是要降低丢失消息的概率。较常见的做法就是通过消息复制实现高可靠。
default.replication.factor和min.insync.replicas的区别 default.replication.factor是指分区的总的副本个数,min.insync.replicas是指ISR列表中较少的在线副本的个数(含leader),当在线的副本个数小于min.insync.replicas时,生产者发送消息会失败。default.replication.factor=3,min.insync.replicas=2表示消息总共有3个副本,当在线的副本大于或者等于2时,生产者可以继续发送消息,能够容忍1个备份不可用,否则不能发送消息。