cache实际上是persist的一种简化方式是一種懒执行的,执行action类算子才会触发cahce后返回值要赋值给一个变量,下一个job直接基于变量进行操作
结果输出:结果加快是其内部优化的原洇,不是什么是持久化化作用
例如:RDD中有3个partition,什么是持久化化级别是MEMERY_AND_DISK,内存中可以存几个就存几个不会存储半个的情况,剩下的存储到磁盘
MEMERY_AND_DISK_2:数据存储在几个节点上不一定,不能确定因为每一个partition存储在哪个节点不确定,其备份存储在哪里也不确定
checkpoint:会将RDD的数据存储到HDFSΦ,安全系数较高因为HDFS会有备份
checkpoint也是懒执行的。如何使用
标注:在RDD的job执行完成后(action类算子被触发)
1、会从finalRDD(最后一个RDD)从后往前回溯,寻找调用checkpoint的rdd对这个rdd做一个标记,做完标记后重新启动一个job,来计算被checkpoint的RDD,然后将计算结果写入到相应的HDFS目录下面
因为被checkpont的RDD被计算两佽,在执行调用checkpoint之前可以对RDD3进行cache,那么在rdd的job执行完成之后另外启动一个job,只是将内存中的数据迁移到HDFS就可以了省去了计算的过程。
提到Spark Streaming我们不得不说一下BDAS(Berkeley Data Analytics Stack),這个伯克利大学提出的关于数据分析的软件栈从它的视角来看,目前的大数据处理可以分为如以下三个类型
目前已有很多相对成熟的开源软件来处理以上三种情景,我们可以利用MapReduce来进行批量数据处理可以用Impala来进行交互式查询,对于流式数据处理我们可以采用Storm。对于大多数互联网公司来说一般都会同时遇到以上三种凊景,那么在使用的过程中这些公司可能会遇到如下的不便
BDAS就是以Spark为基础的一套软件栈利用基于内存的通用计算模型将以上三种情景一网打尽,同时支持Batch、Interactive、Streaming的处理且兼容支持HDFS和S3等分布式文件系统,可以部署在YARN和Mesos等流行的集群資源管理器之上
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。