`
bit1129
  • 浏览: 1052839 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

【Spark三十八】Spark Checkpoint机制

 
阅读更多

SparkContext中对于checkpoint的操作

 

  def runJob[T, U: ClassTag](
      rdd: RDD[T],
      func: (TaskContext, Iterator[T]) => U,
      partitions: Seq[Int],
      allowLocal: Boolean,
      resultHandler: (Int, U) => Unit) {
    if (dagScheduler == null) {
      throw new SparkException("SparkContext has been shutdown")
    }
    val callSite = getCallSite
    val cleanedFunc = clean(func)
    logInfo("Starting job: " + callSite.shortForm)
    dagScheduler.runJob(rdd, cleanedFunc, partitions, callSite, allowLocal,
      resultHandler, localProperties.get)
    progressBar.foreach(_.finishAll())
    rdd.doCheckpoint() ///第一次Job执行完成时,将RDD进行checkpoint,注意,此时的RDD是整个Job的最后一个RDD。
  }

 

RDD的doCheckpoint方法

 

  /**
   * Performs the checkpointing of this RDD by saving this. It is called after a job using this RDD
   * has completed (therefore the RDD has been materialized and potentially stored in memory).
   * doCheckpoint() is called recursively on the parent RDDs.
   */
  private[spark] def doCheckpoint() {
    if (!doCheckpointCalled) {
      doCheckpointCalled = true
      if (checkpointData.isDefined) {
        checkpointData.get.doCheckpoint()
      } else {
        dependencies.foreach(_.rdd.doCheckpoint())
      }
    }
  }

 

 

 

 

 

 

 

分享到:
评论

相关推荐

    spark batch checkpoint jar

    spark batch checkpoint jar

    Spark的checkpoint源码讲解

    Spark的checkpoint源码讲解

    Spark-2.3.1源码解读

    Spark的缓存,变量,shuffle数据等清理及机制 Spark-submit关于参数及部署模式的部分解析 GroupByKey VS ReduceByKey OrderedRDDFunctions那些事 高效使用mappartitions standalone模式下executor调度策略 ...

    Spark从入门到精通

    上百节课详细讲解,需要的小伙伴自行百度网盘下载,链接见附件,永久有效。 本课程主要讲解的内容包括:Scala...三、Spark核心编程 四、Spark内核源码深度剖析 五、Spark性能优化 六、Spark SQL 七、Spark Streaming

    七个pdf理解spark系列_6-CacheAndCheckpoint

    GitHub上某位大牛JerryLead对Spark的理解,大量图示,生动形象,总共7个pdf,看完对spark的原理,运行机制以及后续性能调优有很大的帮助,这是第六个pdf,讲述了cache、checkpoint的实现、使用等常见问题

    Apache Spark的设计与实现 PDF中文版

    本文档面向的是希望对 Spark 设计与实现机制,以及大数据分布式处理框架深入了解的 Geeks。 因为 Spark 社区很活跃,更新速度很快,本文档也会尽量保持同步,文档号的命名与 Spark 版本一致,只是多了一位,最后一...

    Spark分布式内存计算框架视频教程

    9.SparkStreaming Checkpoint 10.消费Kafka偏移量管理 第六章、StructuredStreaming模块 1.StructuredStreaming 概述(核心设计和编程模型) 2.入门案例:WordCount 3.输入源InputSources 4.Streaming Query 设置 5....

    精通Spark内核

    精通Spark内核:此阶段聚焦于Spark内核的设计、实现和核心源码解析,对内核中的实现架构、运行原理、性能调优和核心源码各个击破: 1, 通过源码精通Spark内核实现和任务调度; 2,精通RDD、DAGScheduler、Task...

    Spark checkPoint Demo

    import org.apache.spark.SparkConf import org.apache.spark.rdd.RDD import org.apache.spark.streaming.{Seconds, StreamingContext} import org.apache.spark.streaming.dstream.ReceiverInputDStream object ...

    checkpoint

    本文档详细的描述了spark的checkpoint的操作,帮你快速的了解

    Spark学习笔记三

    Spark 共享变量——累加器(accumulator)与广播变量(broadcast variable) 广播变量 累加器 RDD持久化 Spark中的checkpoint作用与用法 Spark的运行模式 任务提交 宽赖窄依赖 Spark任务调度

    基于Scala的Spark_Core、Spark_SQL和Spark_Streaming设计源码

    本项目基于Scala开发,包含148个文件,包括Scala源代码、CRC校验文件、TXT文本文件、以及多个checkpoint和ck文件。系统实现了基于Scala的Spark_Core、Spark_SQL和Spark_Streaming功能,界面友好,功能完善,适合用于...

    基于Apache Spark的Scala大数据处理设计源码

    本源码为基于Apache Spark的Scala大数据处理设计,共包含191个文件,其中crc文件56个,class文件39个,scala文件20个,bk文件10个,xml文件8个,txt文件2个,properties文件2个,idea/$PRODUCT_WORKSPACE_FILE$文件1...

    【SparkCore篇05】RDD缓存和checkpoint1

    (1)创建一个RDD (2)将RDD转换为携带当前时间戳不做缓存 (3)多次打印结果 (4)将RDD转换为携带当前时间戳并做缓存 (5)多次打印做了缓存的结果,

    《ApacheSpark设计与实现》.zip

    本文档面向的是希望对 Spark 设计与实现机制,以及大数据分布式处理框架深入了解的 Geeks。因为 Spark 社区很活跃,更新速度很快,本文档也会尽量保持同步,文档号的命名与 Spark 版本一致,只是多了一位,最后一位...

    Spark原理解析

    一个大牛写的Spark原理解析,中文的,主要包括以下几个方面: 1-Overview 概览 2-JobLogicalPlan Job逻辑执行图 3-JobPhysicalPlan Job物理执行图 4-shuffleDetails Shuffle过程 5-Architecture 架构 6-...

    Spark RDD弹性分布式数据集

    RDD简介 RDD创建方式 RDD的处理过程 转换算子 行动算子 RDD(Resilient Distributed Datasets弹性分布式数据集)是一个...对于丢失部分数据分区只需要根据它的lineage就可重新计算出来,而不需要做特定的checkpoint;

    Fire Framework / fire

    Fire框架在中通内部每天处理数据量高达数千亿,在外部已被数十家公司所使用。 一、就这么简单! 1.1 Flink开发示例 @Config( """ |state.checkpoints.num-retained=30 # 支持任意Flink调优参数、Fire框架参数、...

    sparkStreaming-offset-to-zk:手动管理spark streaming集成kafka的数据偏移量到zookeeper中

    下面是使用过程中记录的一些心得和博客,感兴趣的朋友可以了解下:项目简介该项目提供了一个在使用spark streaming2.3+kafka1.3的版本集成时,手动存储偏移量到zookeeper中,因为自带的checkpoint弊端太多,不利于...

    demo-kafka-sparkstream-hbase

    演示-kafka-sparkstream-hbase 通过 SparkStreaming 从 Kafka 加载数据到 HBase 表的演示。 以分钟为基础计算 MIN、MAX、AVG(SUM、CNT)。 Kafka 主题:demo-stream-...rm -rf /tmp/checkpoint * rm -rf /tmp/spark

Global site tag (gtag.js) - Google Analytics