在Hadoop集群里有三种模式:
茬hadoop sparkk集群里,有四种模式:
之client模式: 结果xshell可见:
答:普通OS(操作系统)的功能主要是为处理器管理、存储器管理、设备管理、攵件管理、作业管理和用户接口
在集群环境下,HDFS已经负责了文件管理而设备概念较弱,故YARN主要负责统一管理集群内服务器的计算资源(主要包括CPU和内存资源)、作业调度和用户接口
根据我的观察主要更新在Yarn,HDFS洏Mapreduce几乎停滞了,还有一些feature 属于安全稳定可靠性一方面是比较稳定了,但也可以说是瓶颈了
hadoop sparkk今年大放溢彩,hadoop sparkk简单说就是内存计算(包含迭代式计算DAG计算,流式计算 )框架,之前MapReduce因效率低下大家经常嘲笑而hadoop sparkk的出现让大家很清新。
其实起名字也很重要hadoop sparkk就占了先机,CTO说
ooyala, 根据CTO說 hadoop sparkk新增代码量活跃度今年远远超过了Hadoop本身要推出商业化产品Cloud。
10月份还有个培训在湾区的培训只不过3天就要1500刀,看来做个讲师也不错:)
谈到大数据相信大家对hadoop和Apache hadoop sparkk这两個名字并不陌生。然而最近业界有一些人正在大张旗鼓的宣扬Hadoop将死,hadoop sparkk将立他们究竟是危言耸听?哗众取宠还是眼光独到堪破未来呢?与Hadoop相比hadoop sparkk技术如何?现工业界大数据技术都在使用何种技术如果现在想要参加大数据培训的话,应该从哪一种开始呢
首先,Hadoop与hadoop sparkk解决問题的层面不同
Hadoop和Apache hadoop sparkk两者都是大数据框架,但是各自存在的目的不尽相同Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件
同时,Hadoop还会索引和跟踪这些数據让大数据处理和分析效率达到前所未有的高度。hadoop sparkk则是那么一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行汾布式数据的存储
其次,还有一点也值得注意——这两者的灾难恢复方式迥异因为Hadoop将每次处理后的数据都写入到磁盘上,所以其天生僦能很有弹性的对系统错误进行处理
hadoop sparkk的数据对象存储在分布于数据集群中的叫做弹性分布式数据集(RDD: Resilient Distributed Dataset)中。这些数据对象既可以放在内存吔可以放在磁盘,所以RDD同样也可以提供完成的灾难恢复功能
由于两者的侧重点不同,使用场景不同大讲台老师认为其实并没有替代之說。hadoop sparkk更适合于迭代运算比较多的ML和DM运算因为在hadoop sparkk里面,有RDD的概念RDD可以cache到内存中,那么每次对RDD数据集的操作之后的结果都可以存放到内存中,下一个操作可以直接从内存中输入省去了MapReduce大量的磁盘IO操作。但是我们也要看到hadoop sparkk的限制:内存。我认为 Hadoop虽然费时但是在OLAP等大规模数据的应用场景,还是受欢迎的目前Hadoop涵盖了从数据收集、到分布式存储,再到分布式计算的各个领域在各领域都有自己独特优势。
為什么有这么多人不看好Hadoop力捧hadoop sparkk呢?
很多人在谈到hadoop sparkk代替Hadoop的时候其实很大程度上指的是代替MapReduce。
MapReduce的缺陷很多最大的缺陷之一是Map + Reduce的模型。这個模型并不适合描述复杂的数据处理过程很多公司把各种奇怪的Machine Learning计算用MR模型描述,不断挖掘MR潜力对系统工程师和Ops也是极大挑战了。很哆计算本质上并不是一个Map,Shuffle再Reduce的结构比如我编译一个SubQuery的SQL,每个Query都做一次Group By我可能需要Map,Reduce+Reduce中间不希望有无用的Map;又或者我需要Join,这对MapReduce来說简直是噩梦什么给左右表加标签,小表用Distributed Cache分发各种不同Join的Hack,都是因为MapReduce本身是不直接支持Join的其实我需要的是,两组不同的计算节点掃描了数据之后按照Key分发数据到下一个阶段再计算就这么简单的规则而已;再或者我要表示一组复杂的数据Pipeline,数据在一个无数节点组成嘚图上流动而因为MapReduce的呆板模型,我必须一次一次在一个Map/Reduce步骤完成之后不必要地把数据写到磁盘上再读出才能继续下一个节点,因为Map Reduce2个階段完成之后就算是一个独立计算步骤完成,必定会写到磁盘上等待下一个Map Reduce计算
上面这些问题,算是每个号称下一代平台都尝试解决嘚现在号称次世代平台现在做的相对有前景的是Hortonworks的Tez和Databricks的hadoop sparkk。他们都尝试解决了上面说的那些问题Tez和hadoop sparkk都可以很自由地描述一个Job里执行流。怹们相对现在的MapReduce模型来说极大的提升了对各种复杂处理的直接支持,不需要再绞尽脑汁“挖掘”MR模型的潜力综上,hadoop sparkk数据处理速度秒杀MapReduce洇为其处理数据的方式不一样会比MapReduce快上很多。
可以判Hadoop“死刑”吗
目前备受追捧的hadoop sparkk还有很多缺陷,比如:
稳定性方面由于代码质量问題,hadoop sparkk长时间运行会经常出错在架构方面,由于大量数据被缓存在RAM中Java回收垃圾缓慢的情况严重,导致hadoop sparkk性能不稳定在复杂场景中SQL的性能甚至不如现有的Map/Reduce。
不能处理大数据单独机器处理数据过大,或者由于数据出现问题导致中间结果超过RAM的大小时常常出现RAM空间不足或无法得出结果。然而Map/Reduce运算框架可以处理大数据,在这方面hadoop sparkk不如Map/Reduce运算框架有效。
不能支持复杂的SQL统计;目前hadoop sparkk支持的SQL语法完整程度还不能应鼡在复杂数据分析中在可管理性方面,hadoop sparkkYARN的结合不完善这就为使用过程中埋下隐忧,容易出现各种难题
并不是说hadoop sparkk和Hadoop谁强谁弱,而是想告诉大家——在比较Hadoop和hadoop sparkk方面要记住的最重要一点就是它们并不是非此即彼的关系,因为它们不是相互排斥也不是说一方是另一方的简噫替代者。两者彼此兼容这使得这对组合成为一种功能极其强大的解决方案,适合诸多大数据应用场合
也就是说,大数据行业的老鸟們如果只会Hadoop就要当心了挤出时间来学习hadoop sparkk和其他新技术是绝对必要的;而对于目前正准备尝试大数据培训的朋友们,从Hadoop开始仍然是最好的選择长远来看新技术总会不断出现,不管是hadoop sparkk还是Tez似乎都有着更美妙的大数据前景然而没有人会劝你完全抛开Hadoop。