88 优惠券
2020年3月1日到期。满 200 元可用
立即使用
立即使用
  • 参会报名
  • 课程介绍
  • 课程大纲
  • 讲师介绍
  • 课程费用
  • 手机下单 手机扫码下单

首页 > 商务会议 > IT互联网会议 > 刘刚培训公开课:Hadoop与Spark大数据架构专题(2017年2月 上海站) 更新时间:2017-06-24T15:45:40

刘刚培训公开课:Hadoop与Spark大数据架构专题(2017年2月 上海站)
收藏3人
分享到
官方合作

刘刚培训公开课:Hadoop与Spark大数据架构专题(2017年2月 上海站) 已截止报名

会议时间: 2017-02-25 08:00至 2017-02-26 18:00结束

会议地点: 上海  详细地址会前通知   周边酒店预订

主办单位: 麦思博软件技术有限公司

行业热销热门关注看了又看 换一换

        课程介绍

        课程信息 主办方介绍


        刘刚培训公开课:Hadoop与Spark大数据架构专题(2017年2月 上海站)

        刘刚培训公开课:Hadoop与Spark大数据架构专题(2017年2月 上海站)宣传图

        培训特色

        当下是大数据时代,为构建大数据平台,技术人员需要对分布式计算平台有一定深入的理解和应用。MapReduce作为一个经典的分布式计算框架,已经广为人知,且得到了广泛的应用,但MapReduce自身存在很多问题,包括迭代式计算和DAG计算等类型的数据挖掘与机器学习算法性能低下,不能很好地利用内存资源,编程复杂度较高等。为了克服MapReduce的众多问题,新型计算框架出现了。

        目标收益

        本课程将为大家全面而又深入的介绍SparkHadoop平台的构建流程,涉及Spark、Hadoo系统基础知识,概念及架构, Spark、Hadoo实战技巧,Spark、Hadoo经典案例等。

        通过本课程实践,帮助学员对Spark、Hadoo生态系统有一个清晰明了的认识;理解Spark、Hadoo系统适用的场景;掌握Spark、Hadoo等初中级应用开发技能;搭建稳定可靠的Spar、Hadoo k集群,满足生产环境的标准;了解和清楚大数据应用的几个行业中的经典案例,包括阿里巴巴,华为等。

        培训对象

        各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题,需要梳理解答的团队和个人,效果最佳。

        学员基础

        了解Linux系统及相关语言环境

        课程时长

        2天

        查看更多

        麦思博软件技术有限公司 麦思博软件技术有限公司

        麦思博(msup)有限公司发源美国西雅图,2007年创办,是一家面向技术型组织的培训咨询机构,服务于技术团队的技能提升、软件工程的实际应用和产品品质的创新与超越。强调人员、技术、流程和管理的有机结合,注重角色岗位的技能提升与职业发展,以及技术团队复合管理与协作。每年超过1000家企业续单参与msup旗下公开课、工作坊、案例研究、国际游学等培训项目。

        课程大纲


        主题

        内容

        第一天 上午

        Spark生态介绍

         Mapreduce、storm和spark模型的比较和使用场景介绍
         Spark产生背景
         Spark(内存计算框架)
         SparkSteaming(流式计算框架)
         Spark SQL(ad-hoc)
         Mllib(MachineLearning)
         GraphX(bagel将被代)
         DlinkDB介绍
         SparkR介绍

        Spark安装部署

         Spark安装简介
         Spark的源码编译
         Spark Standalone安装
         Spark Standalone HA安装
         Spark应用程序部署工具spark-submit

        Spark运行架构和解析

         Spark的运行架构
        • 基本术语
        • 运行架构
        • Spark on Standalone运行过程
        • Spark on YARN 运行过程
         Spark应用程序的配置
         Spark运行实例解析
        • Spark on Standalone实例解析
        • Spark on YARN实例解析

        第一天 下午

        Spark编程模型和解析

         python开发环境搭建
         Spark的编程模型
         Spark编程模型解析
         Partition实现机制
         RDD的特点、操作、依赖关系
         Transformation RDD详解
         Action RDD详解
         Spark的累加器详解
         Spark的广播变量详解
         Spark容错机制
        — lineage和checkpoint详解

        文件读写操作

         Spark支持哪些文件的读写
         Spark读Hive的数据
         Spark读Json格式的数据
         Spark读Hbase的数据

        第二天 上午

        Spark应用优化

         partition优化详解
         文件压缩格式(ORC、Parquet)
         持久化类型选择
         灵活使用Join操作
         Spark配置参数的优化
        RDD的优化


        Spark Streaming原理和实践

         Spark Streaming原理
        • Spark流式处理架构
        • DStream的特点
        • Dstream的操作和RDD的区别
        • SatefulRDD和windowRDD实战
        • Kafka+Spark Steaming实战
        • Spark Streaming的优化
         Kafka+Spark Streaming实例
        • 文本实例
         网络数据处理

        第二天下午

        Spark SQL原理和实践

         Spark SQL原理
        • Spark SQL的Catalyst优化器
        • Spark SQL内核
        • Spark SQL和Hive
         DataFrame和DataSet架构
         Fataframe、DataSet和Spark SQL的比较
         SparkSQL parquet格式实战
         Spark SQL的实例和编程
        • Spark SQL的实例操作demo
         Spark SQL的编程

        案例实战

         基于spark日志分析
         Kafka+Spark Streaming实时计算实战
         Spark SQL实战
         Spark在大型互联网使用案例分享
         大数据在大型银行的使用案例分享

        查看更多

        讲师介绍


        刘刚培训公开课:Hadoop与Spark大数据架构专题(2017年2月 上海站)Spark大数据架构专题(2017年2月 上海站)" src="http://pic.huodongjia.com/event/2017-06-24/1498290210.2.jpg"/>

        Gavin.Liu 刘刚

        Teradata

        云平台系统架构师

        毕业于大连理工大学,本科,有多年大数据分析类大型项目的架构实施经验,目前任职TD,先后服务于北京大学软件研究所、高德软件、阿里巴巴和Teradata,实施过基于Hadoop平台PageRank算法的实现、高德大数据中心的建设(300+的Hadoop集群开发、优化、运维和提供服务)、阿里巴巴OPDS大数据平台维护、内蒙移动大数据平台试点(Hadoop)、台湾远传Hadoop平台开发和优化、兰州银行大数据平台的架构和开发(Hadoop)、招商银行的大数据咨询规划和设施。在大数据架构、数据集成、数据挖掘/机器学习、实时推荐和营销方面有丰富经验,了解大数据在互联网的使用场景。

        1)编写并出版《Hadoop应用开发技术详解》图书,销售10000+册——机械工业出版社(2014-01)

        2)专利《海量数据基于记录级别的容错》

        3)在infoQ和CSDN等技术论坛都有采访和发表过文章

        4)2015 China hadoop summit 的特约演讲嘉宾

        专业技能:

        1)能熟练的运用Linux系统开发和shell编程,

        2)精通java、熟悉python、R语言

        3)熟悉struts、spring、hibernate开发

        4)熟练运用mysql、oracle等关系型数据库,Cassendra、mongoDB、Redis等NoSql数据库

        7)熟练运用flumeNG、scribe等日志收集工具

        8)熟练运用ganglia和Nagios、openTSDB对hadoop集群进行监控

        9)熟练运用storm、spark 分布式计算模型,spark Streaming、Mllib和graphx

        10)精通MR的编程、Mahout、hbase、Oozie、Kafka、Impala、Tez、hive等应用

        11)精通hadoop平台的搭建、优化、监控和其生态系统组件的使用。

        12)熟悉openstack和docker虚拟化技术

        认证:

        国考——软件设计师(中级)—2009年

        近期案例:

        兰州银行,大数据平台,架构师,2014年

        内蒙移动,大数据平台试点(Hadoop),架构师,2014年

        远传电信(台湾),Hadoop平台优化解决方案和实施,架构师,2014年

        招商银行大数据咨询项目规划和设施,架构师 2015年

        交通银行大数据平台规划和设施,架构师 2015年

        高德软件,高德集团大数据中心的建设、从15个Hadoop节点经过5次的扩容到300+节点,机房换了两个,负责Hadoop平台的开发、优化、运维和给兄弟部门提供服务等,Hadoop部门经理,2011.03 -2013.01年

        阿里巴巴大数据高级架构师,负责OPDS平台架构、开发和运维 2013-2014.04年

        查看更多

        课程费用

        课程费用


        课程费用:5800元/人

        查看更多

        温馨提示
        酒店与住宿: 为防止极端情况下活动延期或取消,建议“异地客户”与活动家客服确认参会信息后,再安排出行与住宿。
        退款规则: 活动各项资源需提前采购,购票后不支持退款,可以换人参加。

        还有若干场即将举行的 大数据大会

        猜你喜欢

        部分参会单位

        主办方没有公开参会单位

        邮件提醒通知

        分享到微信 ×

        打开微信,点击底部的“发现”,
        使用“扫一扫”即可将网页分享至朋友圈。

        录入信息

        请录入信息,方便生成邀请函