如下是运行Word Count的结果,输入了两个小文件,从大小在几K之间。
如下是运行Word Count的结果,输入了两个小文件,从大小在几K之间。
hadoop@hadoop-Inspiron-3521:~/hadoop-2.5.2/bin$ hadoop jar WordCountMapReduce.jar /users/hadoop/hello/world /users/hadoop/output5 --->/users/hadoop/hello/world --->/users/hadoop/output5 14/12/15 22:35:40 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032 14/12/15 22:35:41 INFO input.FileInputFormat: Total input paths to process : 2 //一共有两个文件要处理 14/12/15 22:35:41 INFO mapreduce.JobSubmitter: number of splits:2 //两个input splits,每个split对应一个Map Task 14/12/15 22:35:42 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1418652929537_0001 14/12/15 22:35:43 INFO impl.YarnClientImpl: Submitted application application_1418652929537_0001 14/12/15 22:35:43 INFO mapreduce.Job: The url to track the job: http://hadoop-Inspiron-3521:8088/proxy/application_1418652929537_0001/ 14/12/15 22:35:43 INFO mapreduce.Job: Running job: job_1418652929537_0001 14/12/15 22:35:54 INFO mapreduce.Job: Job job_1418652929537_0001 running in uber mode : false 14/12/15 22:35:54 INFO mapreduce.Job: map 0% reduce 0% 14/12/15 22:36:04 INFO mapreduce.Job: map 50% reduce 0% 14/12/15 22:36:05 INFO mapreduce.Job: map 100% reduce 0% 14/12/15 22:36:16 INFO mapreduce.Job: map 100% reduce 100% 14/12/15 22:36:17 INFO mapreduce.Job: Job job_1418652929537_0001 completed successfully 14/12/15 22:36:17 INFO mapreduce.Job: Counters: 49 File System Counters FILE: Number of bytes read=3448 FILE: Number of bytes written=299665 FILE: Number of read operations=0 FILE: Number of large read operations=0 FILE: Number of write operations=0 HDFS: Number of bytes read=2574 HDFS: Number of bytes written=1478 HDFS: Number of read operations=9 HDFS: Number of large read operations=0 HDFS: Number of write operations=2 Job Counters Launched map tasks=2 //一个输入文件一个Map Task Launched reduce tasks=1 Data-local map tasks=2 //两个Map Task都是从本地Node读取数据内容 Total time spent by all maps in occupied slots (ms)=17425 Total time spent by all reduces in occupied slots (ms)=8472 Total time spent by all map tasks (ms)=17425 Total time spent by all reduce tasks (ms)=8472 Total vcore-seconds taken by all map tasks=17425 Total vcore-seconds taken by all reduce tasks=8472 Total megabyte-seconds taken by all map tasks=17843200 Total megabyte-seconds taken by all reduce tasks=8675328 Map-Reduce Framework Map input records=90 //输入的两个文件的一共90行 Map output records=251 //Map输出了251行,也就是说一行有将近3个单词,251/90 Map output bytes=2940 Map output materialized bytes=3454 Input split bytes=263 Combine input records=0 Combine output records=0 Reduce input groups=138 Reduce shuffle bytes=3454 Reduce input records=251 Reduce output records=138 Spilled Records=502 Shuffled Maps =2 Failed Shuffles=0 Merged Map outputs=2 GC time elapsed (ms)=274 CPU time spent (ms)=3740 Physical memory (bytes) snapshot=694566912 Virtual memory (bytes) snapshot=3079643136 Total committed heap usage (bytes)=513277952 Shuffle Errors BAD_ID=0 CONNECTION=0 IO_ERROR=0 WRONG_LENGTH=0 WRONG_MAP=0 WRONG_REDUCE=0 File Input Format Counters Bytes Read=2311 //两个文件的总大小 File Output Format Counters Bytes Written=1478 //输出文件part-r-00000文件的大小
<property> <name>dfs.block.size</name> <!--<value>67108864</value>--> <value>512</value> <description>The default block size for new files.</description> </property> <property> <name>dfs.namenode.fs-limits.min-block-size</name> <!--<value>67108864</value>--> <value>256</value> <description>The minimum of block size</description> </property
相关推荐
hadoop 入门程序 word count 完整代码, 可以处理hdfs文件和windows本地文件. 下载之后, 导入到IDEA, 修改pom.xml文件的jar包版本和hadoop集群版本一致,core-site.xml 配置和集群 etc/hadoop/core-site.xml一致. ...
hadoop简介,可以初步认识hadoop
Hadoop平台搭建及实例运行 Hadoop平台搭建及实例运行 Hadoop平台搭建及实例运行
hadoop应用开发实例教程之Greenplum架构,由北风网提供,hhadoop应用开发实例教程主要介绍什么是Greenplum;Greenplum体系结构;Greenplum高可用性架构。安装Greenplum:配置环境;安装并初始化GPDB系统;启停数据库...
基于Hadoop网站流量日志数据分析系统 1、典型的离线流数据分析系统 2、技术分析 - Hadoop - nginx - flume - hive - mysql - springboot + mybatisplus+vcharts nginx + lua 日志文件埋点的 基于Hadoop网站流量...
基于Hadoop Hive健身馆可视化分析平台项目源码+数据库文件.zip启动方式 环境启动 hadoop hive2元数据库 sql导入 导入hivesql脚本,修改application.yml 启动主程序 HadoopApplication 基于Hadoop Hive健身馆可视化...
hadoop 实例
基于Hadoop数据分析系统设计(需求分析).docx 随着云时代的来临,大数据也吸引越来越多的关注,企业在日常运营中生成、积累的用户网络行为数据。这些数据是如此庞大,计量单位通常达到了PB、EB甚至是ZB。Hadoop作为一...
自己写的压缩程序例子,一共学习备用。
针对本次实验,我们需要用到Hadoop集群作为模拟大数据的分析软件,集群环境必须要包括,hdfs,hbase,hive,flume,sqoop等插件,最后结合分析出来的数据进行可视化展示,需要用到Python(爬取数据集,可视化展示)...
是大数据课程大作业,基于Hadoop的电影影评数据分析,需要安装Hadoop,了解MapReduce 和HDFS。
分布式,Windows下安装Cygwin,安装Hadoop,运行实例。
Hadoop分布式文件系统的模型分析,Hadoop 分布式文件系统是遵循Google 文件系统原理进行开发和实现的,受到了业界极大关注,并 已被广泛应用。 鉴于当前缺乏从系统设计理论的角度对其开展的相关研究,本文从 Hadoop ...
Hadoop豆瓣电影数据分析(Hadoop)操作源码
hadoop 搜索引擎 用户行为分析 基于hadoop的搜索引擎用户行为分析,采用分布式文 件系统和并行计算模型支撑海量日志文件的处理
Hadoop简单应用案例,包括MapReduce、单词统计、HDFS基本操作、web日志分析、Zookeeper基本使用、Hive简单操作等
Ubuntu系统上Hadoop与MapReduce 运行实例
基于Hadoop部署实践对网站日志分析 1. 项目概述 本次要实践的数据日志来源于国内某技术学习论坛,该论坛由某培训机构主办,汇聚了众多技术学习者,每天都有人发帖、回帖。至此,我们通过Python网络爬虫手段进行数据...