`
bit1129
  • 浏览: 1052262 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

【Spark十八】Spark History Server

 
阅读更多

本文包括如下内容:

 

  • Spark History Server的作用

  • 配置Spark History Server

  • 运行Spark History Server

  • 查看Spark程序的运行信息

Spark History Server的作用

在 运行Spark应用程序的时候,driver会提供一个webUI用于展现应用程序的运行信息,但是该webUI随着应用程序的完成而关闭端口。也就是说,这个服务是伴随Spark应用程序的运行周期的,也就是当应用程序运行完成后,将无法查看应用程序的历史记录。Spark history server就是为了应对这种情况而产生的,通过配置,Spark应用程序在运行完应用程序之后,将应用程序的运行信息写入指定目录,而Spark history server可以将这些运行信息装载并以web的方式供用户浏览

 

伴随Spark应用程序而启动的web查看服务的默认端口号是4040,或者4041(如果当前端口被占用,比如4040被占用,那么Spark会抛一个异常,但是不影响应用继续运行,driver会使用这个已用的端口加1,以此类推)

 

 

 

配置Spark History Server

1. 在Spark的conf目录下,将spark-defaults.conf.template改名为spark-defaults.conf

mv spark-defaults.conf.template spark-defaults.conf

 

2. 对spark-defaults.conf作如下配置

 

///Spark Master的IP/Port
spark.master                     spark://hadoop.master:7077
///是否记录作业产生的事件或者运行状态(job,stage等使用内存等信息)
spark.eventLog.enabled           true
///如果记录作业产生的事件或者运行状态,则将事件写入什么位置
spark.eventLog.dir               hdfs://hadoop.master:9000/user/hadoop/sparkevtlog
///http history的监听端口号,通过http://hadoop.master:18080访问
spark.history.ui.port            18080

 

 

启动Spark History Server

1, 使用如下命令启动History Server

 

[hadoop@hadoop sbin]$sbin/start-history-server.sh

 

启动完成后,发现18080并没有监听,到Spark的logs目录下查看history server的启动日志,发现报如下错误:

 

 

Caused by: java.lang.IllegalArgumentException: Log directory specified does not exist: file:/tmp/spark-events. Did you configure the correct one through spark.fs.history.logDirectory?

 

2. 将spark.fs.history.logDirectory配置到conf/spark-defaults.conf目录里,发现并不起作用,

 

3.查看start-history-server.sh脚本内容,发现这个参数可以作为启动脚本的第一个参数传递:

 

if [ $# != 0 ]; then
  echo "Using command line arguments for setting the log directory is deprecated. Please "
  echo "set the spark.history.fs.logDirectory configuration option instead."
  export SPARK_HISTORY_OPTS="$SPARK_HISTORY_OPTS -Dspark.history.fs.logDirectory=$1"
fi

 所以使用如下命令启动History Server

 

./start-history-server.sh hdfs://hadoop.master:9000/user/hadoop/sparkhistorylog

 

查看作业的执行情况

1. 当History第一次启动,从没有作业执行,那么History Server上不显示内容(只提示没有Job信息可供查看)

2. 使用spark-submit提交一个作业,保证SparkContext调用了stop方法,否则History Server不会显示历史信息

3.访问http://hadoop.master:18080得到如下结果

 

 

 

查看作业信息

点击App ID访问http://192.168.26.136:18080/history/app-20150110055201-0002/,可以打开这个Spark程序的执行情况。

可以查看如下信息:

  • Spark程序启动几个作业

  • 这个Spark程序一个Job包含多少Stages

  • 这个Spark程序一共包含多少个Stages

  • Stage的详细信息

  • 这个Spark程序是几个Executor执行完成的

 

1. 在这个Spark程序启动几个Job


 

 2. Spark程序一个Job包含多少Stages

 



 

 

3. Spark程序一共包含多少个Stages

 

 

 

4. Stage的详细信息

 

 

 

5. Spark程序是几个Executor执行完成的



 

 

 

 

 

 

 

 

 

 

 

 

 

 

  • 大小: 18.4 KB
  • 大小: 48.6 KB
  • 大小: 71.4 KB
  • 大小: 71.8 KB
  • 大小: 31.3 KB
  • 大小: 41.4 KB
分享到:
评论

相关推荐

    spark-hive-thriftserver_2.11-2.1.3-SNAPSHOT-123456.jar

    spark-hive-thriftserver_2.11-2.1.spark-hive-thrift

    编译的spark-hive_2.11-2.3.0和 spark-hive-thriftserver_2.11-2.3.0.jar

    spark-hive_2.11-2.3.0...spark-hive-thriftserver_2.11-2.3.0.jar log4j-2.15.0.jar slf4j-api-1.7.7.jar slf4j-log4j12-1.7.25.jar curator-client-2.4.0.jar curator-framework-2.4.0.jar curator-recipes-2.4.0.jar

    spark-job-server Build程序包

    费了老鼻子劲,用sbt编译spark job server 版本信息 V0.7 Scala 2.10

    Spark零基础思维导图(内含spark-core ,spark-streaming,spark-sql),总结的很全面.zip

    Spark零基础思维导图(内含spark-core ,spark-streaming,spark-sql),总结的很全面。 Spark零基础思维导图(内含spark-core ,spark-streaming,spark-sql)。 Spark零基础思维导图(内含spark-core ,spark-streaming,...

    2.Spark编译与部署(下)--Spark编译安装.pdf

    1.Spark及其生态圈简介.pdf 2.Spark编译与部署(上)--基础环境搭建.pdf 2.Spark编译与部署(下)--Spark编译安装.pdf 2.Spark编译与部署(中)--Hadoop编译安装.pdf 3.Spark编程模型(上)--概念及SparkShell实战....

    Spark 入门实战系列

    Spark 入门实战系列,适合初学者,文档包括十部分内容,质量很好,为了感谢文档作者,也为了帮助更多的人入门,传播作者的心血,特此友情转贴: 1.Spark及其生态圈简介.pdf 2.Spark编译与部署(上)--基础环境搭建....

    大数据Spark企业级实战

    《大数据Spark企业级实战》详细解析了企业级Spark开发所需的几乎所有技术内容,涵盖Spark的架构设计、Spark的集群搭建、Spark内核的解析、Spark SQL、MLLib、GraphX、Spark Streaming、Tachyon、SparkR、Spark多语言...

    Spark和TiDB (Spark on TiDB)

    SparkTI (Spark on TiDB)是TiDB基于Apache Spark的独立于原生系统的计算引擎。它将Spark和TiDB深度集成,在原有MySQL Workload之外借助Spark支持了更多样的用户场景和API。这个项目在SparkSQL和Catalyst引擎之外实现...

    基于spark的大数据论文资料

    本资料是集合20篇知网被引最高的基于spark的大数据论文,包括大数据Spark技术研究_刘峰波、大数据下基于Spark的电商实时推荐系统的设计与实现_岑凯伦、基于Spark的Apriori算法的改进_牛海玲、基于Spark的大数据混合...

    实验七:Spark初级编程实践

    使用命令./bin/spark-shell启动spark 图2启动spark 2. Spark读取文件系统的数据 (1) 在spark-shell中读取Linux系统本地文件“/home/hadoop/test.txt”,然后统计出文件的行数; 图3 spark统计行数 (2) 在spark-...

    spark sftp

    // Construct Spark dataframe using file in FTP server DataFrame df = spark.read(). format("com.springml.spark.sftp"). option("host", "SFTP_HOST"). option("username", "SFTP_USER"). option("password...

    IT十八掌_Spark阶段学习笔记(Spark+Mahout+机器学习)

    IT十八掌第三期大数据配套学习笔记! 1.Spark简介 2.Spark部署和运行 3.Spark程序开发 4. Spark编程模型 5.作业执行解析 6.Spark SQL与DataFrame 7.深入Spark Streaming 8.Spark MLlib与机器学习 9.GraphX与SparkR 10...

    spark3.0入门到精通

    ├─Spark-day01 │ 01-[了解]-Spark发展历史和特点介绍.mp4 │ 03-[掌握]-Spark环境搭建-Standalone集群模式.mp4 │ 06-[理解]-Spark环境搭建-On-Yarn-两种模式.mp4 │ 07-[掌握]-Spark环境搭建-On-Yarn-两种...

    8.SparkMLlib(上)--机器学习及SparkMLlib简介.pdf

    1.Spark及其生态圈简介.pdf 2.Spark编译与部署(上)--基础环境搭建.pdf 2.Spark编译与部署(下)--Spark编译安装.pdf 2.Spark编译与部署(中)--Hadoop编译安装.pdf 3.Spark编程模型(上)--概念及SparkShell实战....

    Apache Spark 2 for Beginners [2016]

    Apache Spark 2.0 for Beginners English | ISBN: 1785885006 | 2016 | Key Features This book offers an easy introduction to the Spark framework published on the latest version of Apache Spark 2 Perform ...

    Spark全面精讲(基于Spark2版本+含Spark调优+超多案例)【不是王家林版本】

    0基础spark,基于spark2,内容完整全面,学完精通spark

    Spark实战高手之路 - Spark亚太研究院.part4.rar

    Spark实战高手之路 【Spark亚太研究院系列丛书】《Spark机器学习库(v1.2.0)》-王宇舟 【Spark亚太研究院系列丛书】Spark实战高手之路-第1章(1) 【Spark亚太研究院系列丛书】Spark实战高手之路-第1章(2) ...

    基于Scala的Spark Thrift Server设计源码

    本设计源码提供了一个基于Scala的Spark Thrift Server。项目包含12731个文件,主要使用Scala、Java、Python、Shell、JavaScript、CSS、HTML、Ruby和C编程语言。文件类型包括3539个Scala源代码文件、1559个Q文件、...

    Spark经典论文合集

    An Architecture for Fast and General Data Processing on Large Clusters.pdf Discretized Streams An ...Spark SQL Relational Data Processing in Spark.pdf spark.pdf 大型集群上的快速和通用数据处理架构.pdf

    spark Linux 版本安装包

    spark Linux 版本安装包spark Linux 版本安装包spark Linux 版本安装包spark Linux 版本安装包spark Linux 版本安装包spark Linux 版本安装包spark Linux 版本安装包spark Linux 版本安装包spark Linux 版本安装包...

Global site tag (gtag.js) - Google Analytics