博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
RDD
阅读量:7281 次
发布时间:2019-06-30

本文共 306 字,大约阅读时间需要 1 分钟。

RDD的好处很多,缺点在于不支持增量的迭代计算,比如在task的前半段只做一半数据的处理,后续的task再加上后一半处理,这种需求不支持

还有就是不支持细粒度的更新和写操作

 

rdd.Partitions() : 需要知道数据分配在哪里,返回一个array,里面是partition对象,该对象指向了数据本身的位置

rdd.compute(splite:Partition, context:TaskContext) : Iterator[T] : 返回一个迭代器类型,计算具体的partition的数据,

转载于:https://www.cnblogs.com/jackie2016/p/5652349.html

你可能感兴趣的文章
进程和线程关系与区别
查看>>
树链剖分总结
查看>>
Ubuntu 在Update以后任然出现找不到安装包问题解决方案
查看>>
QTableView
查看>>
制作win10 usb 启动盘
查看>>
log4net使用简介
查看>>
Angular 4.0从入门到实战
查看>>
性能测试--siege
查看>>
DNS原理和CentOS7上bind域名服务器配置详解
查看>>
从键盘输入一个班5个学生的分数,求和并输出
查看>>
HomeBrew的安装详细步骤
查看>>
js如何判断一个值是不是Array类型
查看>>
R的grep和grepl
查看>>
Linux mkdir
查看>>
Spark Pipeline
查看>>
Spark FPGrowth (Frequent Pattern Mining)
查看>>
二维vector基本使用
查看>>
节省微博互粉时间,使用全自动"一键关注"Chrome扩展程序
查看>>
iOS Getter 和Setter 注册xibcell
查看>>
安装Python的numpy库
查看>>