spark工作的一个流程(Spark核心技术与实践)

spark工作的一个流程(Spark核心技术与实践)(1)

Spark是当前最流行的开源大数据内存计算框架,采用Scala语言实现,由UC伯克利大学AMPLab实验室开发(2009)并于2010年开源,在2014年成为Apache基金会的顶级项目。2014年至2015年,Spark经历了高速发展,Databricks 2015 Spark调查报告显示:2014年9月至2015年9月,已经有超过600个Spark源码贡献者,而在此之前的12个月人数只有315,Spark超越Hadoop,无可争议地成为大数据领域内最活跃的开源项目。除此之外,已经有超过200个公司为Spark奉献过源代码,使Spark社区成为迄今为止开发人员参与最多的社区。

Spark虽然也可以使用Python、R、Java语言进行多语言编程,但要想深入地理解Spark整体架构、运行原理及实现细节,Scala语言的学习必不可少。Spark的学习应该循序渐进,先学习语言的核心基本语法如函数式编程、面向对象编程、模式匹配、类型系统、隐式转换及并发编程模型等,在此基础上学习Spark的编程模型如常用RDD的类型、操作及计算原理等,再学习Spark的五大核心组件以对Spark中的交互式数据查询、图计算、流式计算及机器学习等有较深入的理解。具备一定基础后,通过对Spark内核源码如任务调度、底层资源管理、Shuffle等进行分析,掌握Spark的内核原理,在此基础上分析Spark SQL、Spark流计算、Spark机器学习及Spark图计算等核心组件的源码实现,从而掌握各大组件的设计理念与思想。除此之外,还应该对Spark生态圈中重要的技术框架如Docker、Kafka及Alluxio等,Spark的性能调优等重要内容进行学习,从而做到真正掌握Spark核心技术。

本期程序员封面报道,带来了以下实践分享:

  • Spark学习指南(周志湖,绿城集团数据中心平台架构师、数据开发主管)
  • Streaming DataFrame:无限增长的表格(朱诗雄,Databricks软件开发工程师)
  • 层次化存储:以高性价比终结Spark的I/O瓶颈(俞育才,英特尔大数据团队工程师)
  • Spark在美团的实践(曾林西,李雪蕤,秦思源,毕岩,黄忠)
  • 向Spark开炮:1.6版本问题总结与趟坑(岑玉海,滴滴出行数据架构工程师)
  • Spark在蘑菇街的实践(马永刚,蘑菇街数据平台开发工程师)
  • Spark MLlib 2.0前瞻(梁堰波,明略数据技术合伙人)
  • 科大讯飞基于Spark的用户留存运营分析及技术实现(于俊,万文强,刘丹月)

资讯

  • Wired:太空探索中十二个最大的挑战
  • Wired:智能设备当道:嵌入下一代传感器的高尔夫球杆、网球拍、棒球棍将会比以往更加智能
  • CACM:希望、恐惧与软件混淆
  • RSA“西游记”:六进三番赴盛会,审时度势探真经(严绍文,安天企业安全业务线副总经理)
  • 透过GDC 2016浅谈VR的现在和未来(贾涛,睿悦信息Nibiru联合创始人)
  • CSDN十大资讯
  • 业界声音

技术

Android市场的渠道分散已不是什么新鲜事,但如何高效打包仍是令许多开发者头疼的问题。本篇文章着重介绍了目前最新的三种打包方案,并且从安全方面对这三种方案进行点评,相信会给开发者带来新的助力。

  • 使用Cocos开发一款简单的3D VR抓钱游戏(卞安,火石镇CEO)

2016年被公认为“虚拟现实元年”,VR与游戏的结合更成为了行业瞩目的焦点。本文通过一款简单的3D VR抓钱游戏讲述了使用Cocos引擎来开发VR游戏的具体方法。

  • 汽车之家移动主App服务端架构变迁(汤泉,汽车之家移动服务端架构师)

汽车之家移动主App服务端架构经历了从外包的无架构概念,到流量激增后的架构调整、重构等。本文主要介绍了其主App服务端架构演进历程中面临的主要挑战、解决思路和实施过程。

作者这几年接触了很多企业,有个意外发现,就是设计并非是最难被企业理解的,研究才是。“研究”这两个字,在本土企业里的含义可谓扑朔迷离。大一点的企业都有自己的“研究院”,小一点的企业可能会有自己的“研究团队”。这些网罗了不少高学历人员的“研究院”和“研究团队”,有多少是真正在做研究呢?

作者加入阿里已近7年,常为新人解答疑问,在诸多答案中,他将最有价值的总结于此。作者说,解答或许不一定都对,但却是真心话。有些事自己也不一定实践得好,他也在学习中,但要先具备这种意识才行。

  • 谈谈Unikernel(林帆,ThoughtWorks公司DevOps技术咨询师)

Docker收购当下掌握Unikernel社区主导话语权的Unikernel Systems公司,从Docker创建libcontainer成为独立容器引擎,到创建Swarm成为独立集群方案,如今Docker开始投入真金白银,搅入Unikernel这片充满机遇的蓝海,这个举动足以看出Docker公司的远见。

  • 高并发金融应用架构优化与平台创新(李亚琼,BoCloud博云CTO)

小微金融、场景金融等新兴银行金融业务亟需一种新型的弹性架构来应对高并发、大流量的业务冲击,同时,要满足应用快速版本迭代升级、敏捷运维管理等需求。本文分享了BoCloud博云如何利用互联网应用架构与Docker容器技术帮助银行业应对“互联网 ”挑战,建设基于PaaS平台的敏捷IT架构。

  • CaffeOnSpark解决了三大问题——对话雅虎机器学习平台负责人(记者/周建丁 CSDN编辑)

Andy Feng是Apache Storm的Committer,同时也是雅虎公司负责大数据与机器学习平台的副总裁。他带领雅虎机器学习团队基于开源的Spark和Caffe开发了深度学习框架CaffeOnSpark,以支持雅虎的业务团队在Hadoop和Spark集群上无缝地完成大数据处理、传统机器学习和深度学习任务,并在CaffeOnSpark较为成熟之后将其开源(github/yahoo/CaffeOnSpark)。Andy Feng接受《程序员》记者专访,从研发初衷、设计思想、技术架构、实现和应用情况等角度对CaffeOnSpark进行了解读。

  • 关于Docker你不知道的事——Docker Machine(晏东,精灵云联合创始人)

除了众所周知的Docker Engine,Docker还有一个非常重要的开源项目Docker Machine。本文将介绍Docker Machine的相关信息。

  • 光学雷达(LiDAR)——在无人驾驶技术中的应用(刘博聪,刘少山,James Peng)

本文为无人驾驶技术系列文章的第一篇。无人驾驶汽车的成功涉及高精地图、实时定位以及障碍物检测等多项技术,而这些技术都离不开光学雷达(LiDAR)。本文将深入解析光学雷达是如何被广泛应用到无人车的各项技术中。文章首先介绍光学雷达的工作原理,包括如何通过激光扫描出点云;然后详细解释光学雷达在无人驾驶技术中的应用,包括地图绘制、定位以及障碍物检测;最后讨论光学雷达技术目前面临的挑战,包括外部环境干扰、数据量大、成本高等问题。后续的文章将讨论ROS系统、高精地图、路径规划、底层控制和视觉识别等技术。

当前设计模式十分流行,但设计模式到底是什么?不知能有多少人说得清楚。本文通过简明语言介绍设计模式,并重点介绍了LBS引擎架构,包括技术要点、失败案例、设计建议及具体设计案例。

  • 阅文集团分布式文件系统的设计与实现(徐海峰,阅文集团首席架构师)

阅文是腾讯与盛大文学整合成立的集团,它们设计并部署了一套分布式文件系统(DFS),运行在廉价的Linux系统中,具有良好的可伸缩性和海量数据访问能力,以为其书库提供存储与访问能力,本文主要讨论这套系统的架构和特性。

知识库专栏

  • AngularJS知识库内容精选
  • AngularJS学习指南
  • YY游戏云平台在AngularJS上的实践总结(李泽扬(giantray),多玩YY升龙游戏云平台前端开发工程师)
  • 深入了解Angular:ngModel绑定值不更改的解决技巧(雪狼、破狼、彭洪 伟)

百味

漫画——你的时间去哪了?(西乔)

订阅2016年程序员(含iPad、Android及印刷版)请访问 dingyue.programmer

订阅咨询:

• 在线咨询(QQ):2251809102

• 电话咨询:010-64351436

• 邮箱咨询:reader@csdn

• 更多消息,欢迎关注“程序员编辑部”

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页