`
cloudeagle_bupt
  • 浏览: 536278 次
文章分类
社区版块
存档分类
最新评论

讨论:Hadoop社区与中国云计算开源展望

 
阅读更多

转自:http://cloud.it168.com/a2010/0908/1100/000001100889_all.shtml


【IT168 评论】日前,由中科院计算所主办的“Hadoop 中国2010云计算大会 - Hadoop in China 2010”于9月4日在京落下帷幕【图文专题】,共有600多名来自企业、高校、科研院所的Hadoop技术爱好者参加了此次盛会。

  在所有演讲结束后,大会还组织了主题为《Hadoop与中国云计算开源展望》的小组讨论,由Yahoo软件研发(北京)有限公司搜索与分布式计算架构师韩轶平主持,参与讨论的主要有IBM中国开发中心信息管理极限分析开发部门经理王远洪、Facebook软件工程师何永强、Facebook软件工程师Guanghao Shen、Yahoo软件研发(北京)有限公司研发总监郑皓、中科院计算所副研究员查礼、百度系统部高经工程师王守彦、Facebook软件工程师邵铮、Facebook软件工程师陈俊仰、江南计算所朱鸿宇等人(如下图从左到右依次排序)。


▲Hadoop与中国云计算开源展望讨论,推荐阅读《从互联网到学术界 Hadoop社区渐成气候
--IT168访中科院计算所副研究员查礼博士

  这些年轻的Hadoop技术专家们呼吁,为了促进Hadoop开源社区在国内的发展,推动Hadoop技术的研发和普及应用,希望各大科研机构和企业界,不仅要使用Hadoop的开源技术,更要想办法参与到社区互动中来,共同为Hadoop添砖加瓦,贡献自己的才智。

  如何为社区做贡献

  问:企业和科研机构如何支持Hadoop社区的发展壮大?除了“获取”,应该怎样去为社区做“贡献”?

  计算所查礼:作为科研机构,我们希望Hadoop能够得到广泛的应用。早在2008年,我们原本是希望自己从头开始做一套分布式存储系统,但经过调研,发现Hadoop的HDFS能够满足我们的一部分需求,而且跟完全自己开发的模式相比,投入会少很多。后来,我们在这个基础上做了一些工作,反过来也贡献给了开源社区。我们的观点是,取之于开源,用之于开源。只有回馈社区才能保证社区的良性循环,如果大家只知道索取,不去贡献,社区就不会有很大发展。

  Yahoo郑皓:不论是学校、研究机构,还是企业,首先要做的是去使用开源,推广开源,使其成为标准,这就是对开源最好的鼓励和支持,是开源社区最大的动力。其次,要把自己的东西共享出来。Hadoop有70%的源代码都是Yahoo贡献出来的,而且我们会继续从活动、社区、技术支持等方面进一步促进Hadoop在中国的推广。

  IBM王远洪:互联网企业的规模很大,对于Hadoop很积极,但我觉得为了壮大Hadoop社区,还应该考虑其他企业,比如传统领域,象银行就有很多数据需要做大规模处理,做数据挖掘和分析,但银行又不象互联网企业那么激进,所以要有一些专门做Hadoop的企业来开发一些工具和应用,提供服务。IBM也在开发Hadoop相关的产品,预计今年年底就会发布,可以提供企业级的支持,毕竟社区里的交流还是很有限的,而且目国内社区的交流氛围还不够,需要大家一起来参与。

  Facebook陈俊仰:贡献不仅利人,其实也方便自己。自己开发出来的东西要共享出来,让别人知道和使用。如果不共享,别人做了些修改,你原来的东西可能就不能运行,需要重新开发,就会很麻烦。

  百度王守彦:百度今年推出了SCE,基本上是对Hadoop的计算层进行了重写,对性能改进有很大帮助,而且未来有很大的提升空间,相信对业界会有较大的价值。我们现在很想推出去给大家试用,希望我们的代码变成大家都能用的标准,大家一起来完善。

  江南所朱鸿宇:我其实从0.12版本就开始接触Hadoop,但由于有政府背景,不便开放出来。去年我参加过巴黎的一个Hadoop相关会议,发现有一半都是中国人。所以我觉得,以中国人的智慧,一定会对社区做出巨大的贡献,不管你是在国内加入,还是在国外工作。


  成为一个Commitor

  问:我想请问一下Facebook的几位工程师,在Hadoop社区做开源开发对个人发展有什么帮助?能否分享一下各位从事Hadoop工作的相关经历?

  【编者按】在Hadoop社区,对技术有贡献并被认可的人称为Commitor,这些Commitor可以说是Hadoop社区里的技术大牛,而且确实对Hadoop的发展做出了自己的贡献,或者是解决了某些Bug,或者是开发了某种功能模块。对于Hadoop技术爱好者而言,成为Commitor无疑是一种无尚的光荣。而且,随着Hadoop的应用越来越广泛,企业对Hadoop人才的需求越来越多,因此“薪情”也是绝对一路看涨。在此次Hadoop云计算大会上,以邵铮为代表的4位来自Facebook的软件工程师就成为许多技术爱好者们羡慕的对象。

  Facebook 何永强:我在中科院计算所读博士的时候,曾经在很短时间内提交了5-6个的Hadoop的补丁,当然也得到了郑皓、邵铮几位的大力帮助。后来我转做HIVE开发,4个月之后成为HIVE的Commitor,1个月之后到Facebook做实习生,实习期满后成为了全程的工程师。

  Facebook Guanghao Shen:我其实是在做Hadoop上面的应用,我在写应用时就发现Hadoop还有很多Bug,会阻碍我的应用开发。解决掉这些Bug,并成功提交给社区,是一件确实很让人激动的事情。

  Facebook邵铮:我成为Commitor的时间相对比较长。我简单谈一下自己的经历,我是2005年底加入Yahoo公司的,当时是做搜索引擎,当时的生产环境使用的是另一套系统,Hadoop项目还处在实验阶段。到2006年,我开始转向Hadoop项目,当时发现Hadoop还存在一些问题,比如性能和稳定性都大大低于预期。2008年,我离开Yahoo到了Facebook,那时Facebook已经决定使用Hadoop。从Yahoo到Facebook,我的工作内容和性质没有太大变化,以前学到的东西还可以在新的岗位上继续使用,这或许就是开源的魅力吧。到了Facebook半年之后,我成为了Hadoop Commitor,由于当时的业务重点是HIVE,我花了很多时间写代码,到今年年初为止我可能是项目组里写代码最多的一个。现在我在做另一个开源项目,并会与Hadoop进行整合。

  问:你们在Hadoop社区上花费的时间是怎么分配的?

  Facebook邵铮:在2008-2009年我做整个HIVE开发的过程中,平均每周的工作时间是50-60个小时,我有将近10个小时花在开源社区问题解答和交流上,本职工作占40-50小时。由于开源也是我的兴趣,所以我能够把工作和生活结合得比较好。当然,另外跟Facebook公司本身很支持开源社区也是很有关系的。

  百度王守彦:我向来鼓励团队,至少一周当中有一天时间去做与社区有关的事情,由于我们是一个Team,这个时间其实是可以匀出来的。

  Yahoo郑皓:对开源的贡献可能不只说在社区上花了多少时间,更重要的是你的工作成果也可以贡献出来。Yahoo就有很多这样的例子,比如,Hadoop有70%的代码都是Yahoo贡献出来的,现在Facebook和百度也开始贡献,希望明年会有越来越多的公司参与进来。其实在Yahoo,可能几年前谁也不会想到把公司内部很成熟的产品开源出来,但现在公司却有专门的项目来看哪些技术可以与业界共享,一起来提高。


  商业机密与开源精神的平衡

  问:在企业的软件研发过程中,有一些内容是很机密的,这与开源精神显然存在矛盾。而且管理层和技术人员在对待哪些代码是机密信息这个问题上,也可能存在分歧。有什么办法可以解决这些矛盾?

  百度王守彦:这个问题确实在国内表现得比较明显,也确实是一个矛盾。我的看法是,在有了互联网之后,一项计算机技术保持领先优势的时间不会超过1年,因为互联网传播知识的速度太快了,不到几个月就有其他公司也会做。所以说,对于那些对核心竞争力有价值的技术,我们可以采取这样的策略,即将上一个版本发布,并控制好与新版本之间的时间差,这样处理就能让商业价值与开源精神之间达到平衡。

  另外,我们也要看到,开源其实反过来对企业开发也是有帮助的。比如百度这次把我们做的项目开放出来,就是希望有人可以给我们提建议,或许能帮助我们找到更优的方法。毕竟我们项目组只有几十个人,但全球社区有很多人,这些人可能不一定会去做,但一定会有想法让你借鉴。另外,从开源社区我们也能发现合适的人才。

  总之,技术人员有责任去说服自己的老板。十年前,当知识传播速度不够快的时间,封闭会带来价值,但今天知识传播越来越快,封闭只会让路越走越短。现在许多企业管理层的思维模式还没有转变过来,但我相信迟早会转过来。

  Facebook邵铮:说服老板除了讲道理,也可以摆事实,举一些例子。比如我们公司就是这样的例子,Facebook其实很早就开始支持开源软件。我们认为最大的核心竞争力是社区网,而底层的架构虽然能带来价值,但不一定是最核心的竞争力,所以我们必须和社区所有公司一起来做,而不是闭门造车,否则只会与业界差距越来越大。Facebook目前只有400个工程师,但在全球却有超过5亿的用户,即1:100万,为了维持这个比例,必须和社区合作。

  当然,Facebook也不是把所有的代码都开放出来,也确实有一些机密的东西。我们知道,一般开源软件都会提供API接口,我们做HIVE开发时也是这样,这些API有一些特殊的实现,将特殊的逻辑放在单独的模块中,这些模块是机密的,但底层的HIVE是开放的。通过这些API接口,就可以把机密的逻辑与开源的部分隔离开。

  关于Hadoop:

  Hadoop主要提供了一套名为HDFS的分布式文件系统以及支持Map-Reduce的计算框架。此外,还提供构建在HDFS 和Map/Reduce之上的可扩展的数据仓库Hive,结构化数据库HBase,数据流高层语言Pig,高性能分布式协同服务ZooKeeper,以及面向大规模分布式系统的数据收集软件Chukwa等。

  自2002年Apache设置相关项目以来,源于互联网的Hadoop也渐渐在互联网领域扎下了根。如Yahoo!使用4000节点的机群运行Hadoop,支持广告系统和 Web搜索的研究;Facebook使用1000节点的机群运行Hadoop,存储日志数据,支持其上的数据分析和机器学习;百度用Hadoop每天处理1PB的数据,进行搜索日志分析和网页数据挖掘工作;中移动研究院基于Hadoop开发了“大云”(Big Cloud)系统,不但用于相关数据分析,还对外提供服务;淘宝的Hadoop系统用于存储并处理电子商务的交易相关数据。

  Hadoop技术除已经在互联网领域得到广泛应用之外,同时也受到了学术界的普遍关注。国内的高校和科研院所基于Hadoop在数据存储、资源管理、作业调度、 性能优化、系统高可用性和安全性方面进行研究,相关研究成果多以开源形式贡献给Hadoop社区。

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics