bit1129

浏览: 1052993 次
性别:
来自: 北京

最近访客更多访客>>

xiaoyaohen24

yuxin8000

abc951654

zhongqi2513

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

【Spark二十三】未分类

博客分类：

Spark

什么是DAG

DAG是有向无环图，它的功能是在Spark运行应用程序(Application)时，首先建立一个有向无环图(DAG)，图上的每个节点是一个操作，而Spark的操作分为两类，一类是Transform，一类是Action。在应用程序执行过程中，只有遇到Action类的操作时，才会出发作业(Job)的提交。一个应用程序可以包含多个作业。在提交作业后，首先根据DAG计算这个作业包含哪些Stage，然后每个Stage分解成一些Task

SparkContext、SparkConf和SparkEnv

在实例化SparkContext的过程中，会实例化SparkEnv，为了实例化SparkEnv，Spark启动了多个环节，这从SparkEnv的构造函数中即可看到端倪

    new SparkEnv(
      executorId,
      actorSystem,
      serializer,
      closureSerializer,
      cacheManager,
      mapOutputTracker,
      shuffleManager,
      broadcastManager,
      blockTransferService,
      blockManager,
      securityManager,
      httpFileServer,
      sparkFilesDir,
      metricsSystem,
      shuffleMemoryManager,
      conf

上面的每个变量都对应着Spark的某个方面，每个变量所属的类型如下：

class SparkEnv (
    val executorId: String,
    val actorSystem: ActorSystem,
    val serializer: Serializer,
    val closureSerializer: Serializer,
    val cacheManager: CacheManager,
    val mapOutputTracker: MapOutputTracker,
    val shuffleManager: ShuffleManager,
    val broadcastManager: BroadcastManager,
    val blockTransferService: BlockTransferService,
    val blockManager: BlockManager,
    val securityManager: SecurityManager,
    val httpFileServer: HttpFileServer,
    val sparkFilesDir: String,
    val metricsSystem: MetricsSystem,
    val shuffleMemoryManager: ShuffleMemoryManager,
    val conf: SparkConf) extends Logging {
        ////方法体
    }

Spark对于SparkEnv的ScalaDoc说明是：

/**
 * :: DeveloperApi ::
 * Holds all the runtime environment objects for a running Spark instance (either master or worker),
 * including the serializer, Akka actor system, block manager, map output tracker, etc. Currently
 * Spark code finds the SparkEnv through a global variable, so all the threads can access the same
 * SparkEnv. It can be accessed by SparkEnv.get (e.g. after creating a SparkContext).
 *
 * NOTE: This is not intended for external use. This is exposed for Shark and may be made private
 *       in a future release.
 */

3. 如果
val rdd = sc.textFile("file:///D:/words")，如果words是一个目录，而它底下有N个文本文件，那么最终的数据结果中有N个文件，分别是part-00000到part-0000X(X=N-1)，这表示Spark对N个文件进行了分区，产生N个分区，每个分区对应一个Task？理论是这样，实际上，分区数还要看文件划分的block块个数

package spark.examples.rdd

import org.apache.spark.{SparkContext, SparkConf}

object SparkSaveMultiFiles {

  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("SparkRDDJoin").setMaster("local");
    val sc = new SparkContext(conf);
    val rdd = sc.textFile("file:///D:/wordcount")
    val result = rdd.filter(_.contains("WordCount"))
    result.foreach(println)
  }
}

如上代码，d:/wordcount目录保存了多个文本文件

分享到：

【Spark二四】Spark内核源码剖析 | 【Spark二十二】在Intellij Idea中调试运 ...

2015-01-15 22:00
浏览 744
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

【Spark二十三】未分类

什么是DAG

SparkContext、SparkConf和SparkEnv

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

【Spark二十三】未分类

什么是DAG

SparkContext、SparkConf和SparkEnv

评论

发表评论

相关推荐

【Spark109】Windows上运行spark-shell

【Spark108】Spark SQL动态代码生成四

【Spark107】Spark SQL动态代码生成三

【Spark106】Spark SQL动态代码生成二

【Spark105】Spark SQL动态代码生成一

【Spark105】Spark任务调度

【Spark104】Spark源代码构建打包

【Spark103】Task not serializable

【Spark102】Spark存储模块BlockManager剖析

【Spark101】Scala Promise/Future在Spark中的应用

【Spark100】Spark Streaming Checkpoint的一个坑

【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析

【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析

【Spark九十七】RDD API之aggregateByKey

【Spark九十六】RDD API之combineByKey

【Spark九十五】Spark Shell操作Spark SQL

【Spark九十四】spark-sql工具的使用

【Spark九十三】Spark读写Sequence File

【Spark九十二】Spark SQL操作Parquet格式的数据

【Spark九十一】Spark Streaming整合Kafka一些值得关注的问题

最近访客更多访客>>