当前位置:技术分享 > 技术参考 > 正文

Spark深入视频产业 优化大数据处理2014-10-29 09:42:23 | 编辑:hely | 查看: | 评论:0

移动化、大屏化和多元化的发展趋势,让视频网站的竞争日益白热化。在这其中,视频网站的后台技术也成了一个看不见“硝烟”的战场。

移动化、大屏化和多元化的发展趋势,让视频网站的竞争日益白热化。在这其中,视频网站的后台技术也成了一个看不见“硝烟”的战场。

在2013年艾美奖颁奖典礼上,Netflix的首部原创剧集《纸牌屋》获得了9项大奖的提名,并最终斩获最佳导演和最佳选角两项大奖。Netflix网站根据用户数据发现,一部影片如果同时满足这几个要素,就可能大卖——BBC同名剧、导演大卫·芬奇、老戏骨凯文·史派西。于是有了大火的《纸牌屋》。

移动化、大屏化和多元化的发展趋势,让视频网站的竞争日益白热化。在这其中,视频网站的后台技术也成了一个看不见“硝烟”的战场。

\

 
在2013年艾美奖颁奖典礼上,Netflix的首部原创剧集《纸牌屋》获得了9项大奖的提名,并最终斩获最佳导演和最佳选角两项大奖。Netflix网站根据用户数据发现,一部影片如果同时满足这几个要素,就可能大卖——BBC同名剧、导演大卫·芬奇、老戏骨凯文·史派西。于是有了大火的《纸牌屋》。
 
《纸牌屋》的成功背后,大数据到底起到了多大的作用,可能很难用具体的数字来确认。但是可以肯定的是,当前视频网站的发展,已经离不开大数据技术的推动,视频网站自身已经成为这股大潮中的弄潮儿。
 
优酷土豆集团(下称优酷)专注于视频领域,是中国网络视频行业领军企业之一。优酷从2009年就开始采用Hadoop大数据平台,最初只是10多个节点的规模,2013年整个集群节点达到了300个,每天处理数据量达到200TB。
 
优酷首席技术官姚健曾经表示,对优酷而言,通过用户的每次播放流程,优酷的后台系统都会对页面浏览、评论收藏、视频播放以及播放时的各种操作进行记录。经处理后的分析结果会反馈给内部不同的业务模块,对优酷在产品、内容运营、用户的个性化推荐及广告投放等方面的提升,都起到了关键作用。
 
“对优酷来说,从网站页面设计、内容推荐到广告投放,都离不开大数据技术的支持。”优酷土豆集团大数据团队技术总监卢学裕表示,优酷通过对各种数据进行分析处理后,不但能够为广告主呈现出用户行为特征,提供广告投放价值的分析,而且在用户体验优化方面都有很大的帮助。
 
优酷大数据团队大数据平台架构师傅杰表示,一直以来,优酷都在使用MapReduce和Hive来处理大数据,特别是一些视频推荐挖掘的数据都是通过MapReduce来处理。在这个过程中,优酷发现有一些场景其实并不适合MapReduce,处理效率不尽如人意。
 
随着优酷业务发展的不断壮大,分析的数据量也自然就越来越大。之前使用Hadoop处理一些诸如机器学习、图计算等迭代式计算问题时,处理速度成为了瓶颈。内部的分析人员提交任务后要等上很长时间才能得到结果,等待时间之长已经有些令人不能忍受。最终,在英特尔公司的帮助下,优酷将Spark引入到了自身的大数据计算框架中,作为整个Hadoop集群的补充。其效果还是相当令人满意的,以图计算为例,相同的数据量,在以往的平台上需要80多分钟,在4节点的Spark集群上,用时只需要5分钟左右。
 
Spark是一个通用的并行计算框架,由伯克利大学的AMP实验室开发,已经成为继Hadoop之后又一大热门开源项目。相比于Hadoop,Spark的优势在于:

1.     Spark的中间数据放在内存中,对于迭代运算效率比较高:弹性分布式数据集(RDD)作为原始数据的抽象,和一些数据保存在内存中缓存供以后使用。省去了MapReduce大量的磁盘IO操作。这对于迭代比较常见的机器学习算法来说,提升效率比较大。
 
2.   Spark比Hadoop更通用:Spark提供的数据集操作类型有很多种,不像Hadoop只提供了Map和Reduce两种操作。比如map, filter, flatMap,sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等多种操作类型,他们把这些操作称为Transformations。这些多种多样的数据集操作类型,给上层应用者提供了方便。各个处理节点之间的通信模型不再像Hadoop那样就是唯一的Data Shuffle一种模式。用户可以命名,物化,控制中间结果的分区等。可以说编程模型比Hadoop更灵活。
 

《纸牌屋》的成功背后,大数据到底起到了多大的作用,可能很难用具体的数字来确认。但是可以肯定的是,当前视频网站的发展,已经离不开大数据技术的推动,视频网站自身已经成为这股大潮中的弄潮儿。

优酷土豆集团(下称优酷)专注于视频领域,是中国网络视频行业领军企业之一。优酷从2009年就开始采用Hadoop大数据平台,最初只是10多个节点的规模,2013年整个集群节点达到了300个,每天处理数据量达到200TB。

优酷首席技术官姚健曾经表示,对优酷而言,通过用户的每次播放流程,优酷的后台系统都会对页面浏览、评论收藏、视频播放以及播放时的各种操作进行记录。经处理后的分析结果会反馈给内部不同的业务模块,对优酷在产品、内容运营、用户的个性化推荐及广告投放等方面的提升,都起到了关键作用。

“对优酷来说,从网站页面设计、内容推荐到广告投放,都离不开大数据技术的支持。”优酷土豆集团大数据团队技术总监卢学裕表示,优酷通过对各种数据进行分析处理后,不但能够为广告主呈现出用户行为特征,提供广告投放价值的分析,而且在用户体验优化方面都有很大的帮助。

优酷大数据团队大数据平台架构师傅杰表示,一直以来,优酷都在使用MapReduce和Hive来处理大数据,特别是一些视频推荐挖掘的数据都是通过MapReduce来处理。在这个过程中,优酷发现有一些场景其实并不适合MapReduce,处理效率不尽如人意。

随着优酷业务发展的不断壮大,分析的数据量也自然就越来越大。之前使用Hadoop处理一些诸如机器学习、图计算等迭代式计算问题时,处理速度成为了瓶颈。内部的分析人员提交任务后要等上很长时间才能得到结果,等待时间之长已经有些令人不能忍受。最终,在英特尔公司的帮助下,优酷将Spark引入到了自身的大数据计算框架中,作为整个Hadoop集群的补充。其效果还是相当令人满意的,以图计算为例,相同的数据量,在以往的平台上需要80多分钟,在4节点的Spark集群上,用时只需要5分钟左右。

Spark是一个通用的并行计算框架,由伯克利大学的AMP实验室开发,已经成为继Hadoop之后又一大热门开源项目。相比于Hadoop,Spark的优势在于:

1. Spark的中间数据放在内存中,对于迭代运算效率比较高:弹性分布式数据集(RDD)作为原始数据的抽象,和一些数据保存在内存中缓存供以后使用。省去了MapReduce大量的磁盘IO操作。这对于迭代比较常见的机器学习算法来说,提升效率比较大。

2. Spark比Hadoop更通用:Spark提供的数据集操作类型有很多种,不像Hadoop只提供了Map和Reduce两种操作。比如map, filter, flatMap,sample, groupByKey, reduceByKey, union, join, cogroup, mapValues, sort,partionBy等多种操作类型,他们把这些操作称为Transformations。这些多种多样的数据集操作类型,给上层应用者提供了方便。各个处理节点之间的通信模型不再像Hadoop那样就是唯一的Data Shuffle一种模式。用户可以命名,物化,控制中间结果的分区等。可以说编程模型比Hadoop更灵活。

上一篇:大数据吐槽:“人工特征工程+线性模型”的尽头 Facebook软件架构:Tao和BLOB的实现原理下一篇:

公众平台

搜索"raincent"或扫描下面的二维码