当前位置:技术分享 > 技术参考 > 正文

Spark框架内存技术获得广泛支持 包括戴尔、Pivotal2014-11-10 17:16:29 | 编辑:hely | 查看: | 评论:0

很多供应商都表示对Spark给予支持,包括戴尔和主要的Hadoop发行版供应商Cloudera、Hortonworks、MapR和Pivotal。
\


日前,在美国纽约召开了Strata + Hadoop全球大会,不过,会上Spark无疑出尽了风头,Apache Spark成为此次大会的中心,关于它的分论坛参与度也极高,很多供应商也都表示对Spark给予支持,包括戴尔和主要的Hadoop发行版供应商Cloudera、Hortonworks、MapR和Pivotal。

Spark软件诞生之初,是作为第一代Hadoop中央处理组件MapReduce的替代品出现的,脱胎于美国加州大学伯克利分校的实验室,之后成为Apache项目的重要部分,今年早些时候发布了1.0版本。官方表示,在Spark上运行的Hadoop批处理应用程序能比在MapReduce上快100倍。

除了MapReduce支持的批处理应用程序,Spark还支持很多其他应用程序,比如迭代和机器学习应用程序,尤其是包含不断更新的事件数据流的应用程序。目前,这些应用已经包括音乐推荐引擎和基因研究。Spark包含很多机器学习算法、支持SQL查询的API接口,图处理和通用数据流。

Spark全面的能力吸引了广泛的关注,尤其是希望提升大数据处理能力的供应商。Gartner分析师Merv Adrian认为:“起码现在来看,Spark比Hadoop适用于更多的业务用例。

Spark还适用于内存处理,和与磁盘绑定的MapReduce相比,又是一个飞跃。451调研公司的分析师Matthew Aslett表示:“我们观察Spark很久了,对它的内存能力印象很深,尤其是它可以在单一内存引擎上运行多种分析方式。”

戴尔支持Spark框架

在Strata + Hadoop全球大会上,很多供应商都纷纷加入Spark阵营,表示对Spark进行支持,包括主要的Hadoop发行版供应商Cloudera、Hortonworks、MapR和Pivotal,以及其他硬件和软件厂商。

戴尔在它为Cloudera Enterprise提供的In-Memory Appliance中加入了Spark框架,支持48个计算节点。目前,已经有一家大型零售商在做店内基于RFID的产品追踪时用到了它。同时,Urika-XA分析系统、Nano-scale材料结构分析和Alpine数据实验室也都开始支持Spark。

Guavus是一家为通讯和市场营销公司搭建运营分析平台的软件供应商,公司负责核心系统的副总裁Eric Carr表示:“Spark提供及时的数据流分析,相比于Hadoop,Spark的机器学习更能胜任迭代的内存处理。”

Guavus将Spark和HDFS结合使用,Carr表示:“Hadoop 2 发布的资源管理器Yarn很重要,它让部署Spark成为了可能,通过Yarn,用户可以插入Spark、Storm和其他Hadoop兼容技术组件解决问题,同时仍然使用HDFS作为底层文件系统。

Spark的不足

至于缺陷,Carr认为Spark在使用SQL查询语言探测数据时,效果还不理想。其实,Impala、Storm、Stinger和Tez等Hadoop工具都面临这样的问题。再有一点是,在讨论Hadoop时人们经常提到的,它还处于软件发展的初级阶段。对此,Aslett和Adrian也表示认同。

另外,Aslett也提醒道,如果组织没有充分考虑自己的需求而盲目采用Spark技术,也会导致很多问题。就像Carr说的,“如果你用了内存处理,你就要付出很高的成本,因为内存处理很贵,这时候就要具体考虑自己的业务用例了。”

Adrain认为,虽然在大数据管理和分析领域,Spark发展很快,但它还需要成长,它还处于青少年阶段。

上一篇:盘点:大数据处理必备的十大工具 谷歌分析大数据怎么它就这么快?下一篇:

公众平台

搜索"raincent"或扫描下面的二维码