SparkStreaming连接Kafka两种方式

黑马程序员 • 2023年5月6日 23:42 • 编程分享 • 阅读 10

Spark Streaming支持从多种数据源获取数据,其中就包括 Kafka，要想从数据源获取数据，首先要建立两者之间的连接，本节来介绍两种连接Kafka的方式。

1.Receiver based Approach:

(1)KafkaUtils.createDstream基于接收器方式，消费Kafka数据已淘汰企业中不再使用;

(2)Receiver作为常驻的Task运行在Executor等待数据，但是一个Receiver效率低，需要开启多个，再手动合并数据(union)，再进行处理，很麻烦;

(3)Receiver那台机器挂了，可能会丢失数据，所以需要开启WAL(预写日志)保证数据安全，那么效率又会降低;

(4)Receiver方式是通过zookeeper来连接kafka队列，调用Kafka高阶API,offset存储在zookeeper,由Receiver维护

(5)Spark在消费的时候为了保证数据不丢也会在Checkpoint中存一份offset,可能会出现数据不一致;

2.· Direct Approach (No Receivers):

(1)KafkaUtils.createDirectStream直连方式，Streaming中每批次的每个job直接调用Simple Consumer API获取对应Topic数据，此种方式使用最多，面试时被问的最多;

(2)Direct方式是直接连接kafka分区来获取数据，从每个分区直接读取数据大大提高并行能力

(3)Direct方式调用Kafka低阶API(底层APl)，offset自己存储和维护，默认由Spark维护在checkpoint中，消除了与zk不一致的情况

(4)当然也可以自己手动维护，把offset存在MySQL/Redis中;

两种API

Spark Streaming与Kafka集成，有两套API，原因在于Kafka Consumer API有两套，文档：

http://spatkapathe.org/docs/2.4.5/streaming-kafka-integration.html

http://spark apache.org/docs/latest/streaming-kafka-integration.html

Kafka0.8.x版本-早已淘汰

底层使用老的KafkaAPI:Old Kafika Consumer API

支持Receiver(已淘达)和Direct模式：

Kafka 0.10.x版本-开发中使用

底层使用新的KafkaAPI:New Kafka Consumer API

只支持Direct模式

两个版本API

文章来源于：王晴儿网页设计博客欢迎分享交流，转载请注明出处

本文来自投稿，不代表重蔚自留地立场，如若转载，请注明出处https://www.cwhello.com/262290.html

如有侵犯您的合法权益请发邮件951076433@qq.com联系删除

赞 (0)

黑马程序员订阅用户

0

什么是数据可视化？（怎样引入Syplot模块）

上一篇 2023年5月6日 23:42

Sqoop是什么工具？（Sqoop工作流程是什么）

下一篇 2023年5月6日 23:42

编程分享

局域网有哪些特点？

局域网的研究始于20世纪70年代，1974年英国剑桥大学研制的剑桥环网和1975年美国Xerox公司推出的实验性以太网是局域网的典型代表。随着网络技术的发展和微型计算机的普及，局域网技术迅猛发展，局域网协议和标准逐渐…

黑马程序员
2023年5月13日
004
编程分享

用vue构建用户界面有哪些好处？

前端开发者最主要的工作，就是为网站的使用者(又称为：网站的用户)构建出美观、舒适、好用的网页。vue的出现，逐渐替代了传统的jQuery + 模板引擎构建页面方式，逐渐成为在构建用户界面方面的主流开发框架。下面就…

黑马程序员
2023年5月13日
000
编程分享

维护网站的方法有哪些？

网站维护的方法虽然关于网站维护的方法没有唯一的标准，但是一般建议网站成立一个站点管理员来专门打理网站。站点的管理员必须熟悉网站建设技术和服务器管理技术，并且制定一个详细的网站维护管理制度。在公司设立…

黑马程序员
2023年5月13日
0015
编程分享

单体架构有哪些局限和问题？

随着互联网技术的发展，传统的应用架构已满足不了实际需求，微服务架构就随之产生。那么传统应用架构到底出了什么问题呢?又如何解决?接下来我们将从传统单体架构的问题开始，对为什么需要微服务架构进行详细讲解。…

黑马程序员
2023年5月6日
001
Idea安装与Idea高级配置

文章目录一、Idea基本配置 1.1 Idea简介1.2 Idea安装1.3 Idea首次驱动1.4 创建包和类1.5 字体设置1.6 Idea的项目目录1.7 Idea默认的常用快捷键1.8 Idea修改快捷键 1.9 Idea导入和关闭项目二、 Idea高级配置 2.1自定…

黑马程序员
2023年5月15日 • 编程分享
0025
编程分享

环保设备行业如何网上寻找客户？（怎么做好网络营销推广）

环保设备行业如何寻找客户？可以考虑线上推广渠道，这也是目前的主流推广趋势。对于环保行业，“互联网+”意味着从技术到产业模式的创新，给产业带来更广阔的疆域；对于环保企业，“互联网+”意味着将打开更大市场空间…

王晴儿网页设计
2023年5月25日
0045
编程分享

自动化设备生产行业公司怎么网上找客户?如何做好网络推广?

随着互联网的不断深入，再加上网络推广本身拥有其他媒体不具备的综合营销能力，企业网络推广变得越来越重要，它不仅可以宣传企业品牌形象，又可以帮助企业找到精准的客户资源。网络已经是我们必不可少的一部分了，…

王晴儿网页设计
2023年5月25日
0014
MySQL常用图形管理工具有哪些？

如果日常的开发和维护均在类似dos窗口中进行，对于编程初学者来说，上手就略微有点困难，增加了学习成本。我们一般使用mysql图形管理工具来连接Mysql，然后在图形化界面上操作Mysql。MySQL的管理维护工具非常多，除…

黑马程序员
2023年5月13日 • 编程分享
001

联系我们

QQ：951076433

在线咨询：邮件：951076433@qq.com工作时间：周一至周五，9:30-18:30，节假日休息