大数据预处理学习心得（大数据Flink数据处理）

铅笔开方 2023-01-26 05:23:29

收藏赞分享

大数据预处理学习心得（大数据Flink数据处理）(1)

大数据预处理学习心得（大数据Flink数据处理）(2)

上面我们说了flink允许子任务共享slot,等等,有几个任务,如何分配slot等等对吧.

大数据预处理学习心得（大数据Flink数据处理）(3)

大数据预处理学习心得（大数据Flink数据处理）(4)

然后我们再继续来看slot和并行度的关系,看到上面左侧,这个任务有A任务4个并行度,然后B任务4个并行度,然后C任务2个并行度,D任务4个并行度,然后E任务2个并行度...也就是对应的子任务的个数对吧.可以看到这个任务,如果分配的话.

分配到2个taskmanager,然后有4个slot就够了对吧,可以看到因为他这里最多的子任务就是4个,

然后可以看到上面的,任务的分配,实际上很简单,就是最多的子任务,需要每个slot都有一个,然后

子任务不够的话,找其中的slot去分配上就可以了.所以一般slot的个数一般都是以最多的子任务的

个数来算.

然后我们再看,同样是输入,A任务是输入,C任务也是输入,我们把A和C放到同一个slot中也没问题对吧,因为在同一个slot中,任务不是并行的对吧.

大数据预处理学习心得（大数据Flink数据处理）(5)

大数据预处理学习心得（大数据Flink数据处理）(6)

然后我们再看如果我们有3个taskmanager,然后9个slot

然后如果我们有个WordCount的并行度是1的话,并且这个并行度是配置在配置文件中的

flink-conf.yaml 中配置的Default value =1

如果是并行度是1 的话,那么可以看到就占用了一个slot对吧.

然后我们再看如果并行度是2,这个2可以在flink-conf.yaml中配置parallelism.default:2

也可以在执行任务的时候,在命令行参数中指定 ./flink -p 2 启动flink的时候指定对吧.

然后还有就是在代码中可以指定:

env.setParallelism(2)

大数据预处理学习心得（大数据Flink数据处理）(7)

大数据预处理学习心得（大数据Flink数据处理）(8)

然后我们再看如果我们设置了parallelism=9 并行度是9的话,可以看到,

每个slot中就都有3个任务了,分别是,source flatMap reduce sink对吧

然后这里其实是有问题的,因为如果我们到时候,sink操作,不是输出到控制台,而是

输出到csv文件中的话,那么如果有9个sink同时对这个Csv进行写入的话,那么这个文件

肯定会乱.

所以写入的时候,一定要只有一个slot,执行sink任务才行,所以这个时候需要给

counts.writeAsCsv(outputPath,"\n"," ").setParallelism(1);

可以看到写Csv的操作这里应该设置成1对吧,也就是允许同时一个slot来进行写

csv的操作.

展开全文

免责声明：本文仅代表文章作者的个人观点，与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺，请读者仅作参考，并自行核实相关内容。文章投诉邮箱：anhduc.ph@yahoo.com

猜您喜欢

推荐一款免费优质ppt模板的网站（堪称PPT模板终结者）

圆拜金女梦
三星手机消息不通知（提醒三星手机消费者注意）

挖墳埋自己
目前手机续航能力排行榜（一文看懂手机续航）

北漂过海
电脑用todesk怎么远程控制手机（开学季必备软件）

第目艮帶感
windows11系统如何创建d盘（微软Win11全新系统托盘开启测试）

华丽唠嗑
落地镜怎么摆放好看（落地镜安装有何讲究）

慢性失眠
c语言编程技术介绍（程序员必知的编程4大祖师爷）

旧旧回忆

秒懂生活

大数据预处理学习心得（大数据Flink数据处理）

猜您喜欢

推荐一款免费优质ppt模板的网站（堪称PPT模板终结者）

三星手机消息不通知（提醒三星手机消费者注意）

目前手机续航能力排行榜（一文看懂手机续航）

电脑用todesk怎么远程控制手机（开学季必备软件）

windows11系统如何创建d盘（微软Win11全新系统托盘开启测试）

落地镜怎么摆放好看（落地镜安装有何讲究）

c语言编程技术介绍（程序员必知的编程4大祖师爷）

热门推荐

排行榜