Cloudera Developer training for Spark and Hadoop(CCA-175)
时间:2017-06-27 08:00 至 2017-06-30 18:00
地点:上海
- 参会报名
- 会议介绍
- 会议日程
- 会议嘉宾
- 参会指南
-
手机下单
首页 > 商务会议 > IT互联网会议 > Cloudera Developer training for Spark and Hadoop(CCA-175) 更新时间:2017-06-16T11:26:45
Cloudera Developer training for Spark and Hadoop(CCA-175) 已截止报名会议时间: 2017-06-27 08:00至 2017-06-30 18:00结束 主办单位: cloudera
|
会议介绍
会议内容 主办方介绍
Cloudera Developer training for Spark and Hadoop(CCA-175)宣传图
Spark 及 Hadoop 开发员培训
学习如何将数据导入到 Apache Hadoop 机群并使用 Spark、Hive、Flume、Sqoop、Impala 及其他 Hadoop 生态系统工具对数据进行各种操作和处理分析
在为期四天的培训中,学员将学习关键概念和掌握使用最新技术和工具将数据采集到 Hadoop 机群并进行处理。通过学习掌握诸如 Spark、Hive、Flume、Sqoop 和 Impala 这样的 Hadoop 生态系统工具和技术,Hadoop 开发员将具备解决实际大数据问题和挑战的能力。本课程包含了大量的实操及编程练习来帮助学员熟悉并掌握各种工具,并最终获得在实际工作中针对特定的问题或场景来选取最佳解决工具或技术的能力。
“通过 Cloudera 的培训,让我们在使用大数据核心平台 Hadoop 方面,能把握现在、更能信心百倍地在未来面对和赢得更多的大数据挑战。”
——Persado
培训内容
通过讲师在课堂上的讲解,以及实操练习,学员将学习 Apache Spark 及如何将其集成到整个 Hadoop 生态系统中去,包括以下内容:
数据是如何在 Hadoop 机群里进行分布式存储及处理的
如何使用 Sqoop 和 Flume 导入数据
如何使用 Apache Spark 处理分布式数据
如何使用 Impala 及 Hive 将结构化数据建模成表并进行分析查询
如何根据数据使用场景来确定最佳存储格式
数据存储最佳实践
培训对象及学员基础
本课程适合准备报考 CCA Spark 及 Hadoop 开发员认证考试的技术人员。虽然通过该认证考试,考生仍然需要做进一步的学习和准备,但是本课程涵盖了在该认证考试中考核的很多主题和知识点。
在参加完本培训后,我们建议学员参加此课程的一个后继课程:“设计和创建大数据应用”。
查看更多
由于Hadoop深受客户欢迎,许多公司都推出了各自版本的Hadoop,也有一些公司则围绕Hadoop开发产品。在Hadoop生态系统中,规模最大、知名度最高的公司则是Cloudera。Cloudera由来自Facebook、谷歌和雅虎的前工程师杰夫·哈默巴切(Jeff Hammerbacher)、克里斯托弗·比塞格利亚(Christophe Bisciglia)、埃姆·阿瓦达拉(Amr Awadallah)以及现任CEO、甲骨文前高管迈克·奥尔森(Mike Olson)在2008年创建。
会议日程 (最终日程以会议现场为准)
课程介绍
Hadoop 及生态系统介绍
-
传统大规模系统的问题
-
Hadoop !
-
Hadoop 生态系统
Hadoop 体系结构及 HDFS
-
机群环境下的分布式处理
-
存储:HDFS 体系结构
-
存储:使用 HDFS
-
资源管理:YARN 体系结构
-
资源管理:使用 YARN
使用 Apache Sqoop 导入关系数据
-
Sqoop 简介
-
数据的基本导入导出
-
减少传输的数据量
-
改善 Sqoop 性能
-
Sqoop 2
Impala 及 Hive 介绍
-
简介
-
为什么使用 Impala 及 Hive
-
Hive 和传统数据库的比较
-
Hive 应用场景
使用 Impala 及 Hive 管理数据及建模
-
数据存储
-
创建数据库及表
-
表数据导入
-
HCatalog
-
Impala 元数据缓存
数据格式
-
选择文件格式
-
支持不同文件格式的工具
-
Avro 数据格式定义模式
-
在 Hive 及 Sqoop 里使用 Avro
-
Avro 格式数据模式变更
-
压缩
数据分区
-
分区概述
-
Impala 及 Hive 里的数据分区
Apache Flume 实时数据采集
-
什么是 Apache Flume
-
Flume 基本体系结构
-
Flume 源
-
Flume 槽
-
Flume 通道
-
Flume 配置
Spark 基础
-
什么是 Apache Spark
-
使用 Spark Shell
-
RDDs( 可恢复的分布式数据集)
-
Spark 里的函数式编程
Spark RDD
-
RDD
-
键值对 RDD
-
MapReduce
-
其他键值对 RDD 操作
编写和部署 Spark 应用
-
Spark 应用对比 Spark Shell
-
创建 SparkContext
-
创建 Spark 应用(Scala 和 Java)
-
运行 Spark 应用
-
Spark 应用 WebUI
-
配置 Spark 属性
-
运行日志
Spark 的并行处理
-
回顾:机群环境里的Spark
-
RDD 分区
-
基于文件RDD 的分区
-
HDFS 和本地化数据
-
执行并行操作
-
执行阶段及任务
Spark 缓存和持久化
-
RDD 演变
-
缓存
-
分布式持久化
Spark 数据处理的常见模式
-
常见 Spark 应用案例
-
迭代式算法
-
图处理及分析
-
机器学习
-
例子:K -Means
预览:Spark SQL
-
Spark SQL 和 SQL Context
-
创建 DataFrames
-
变更及查询 DataFrames
-
保存 DataFrames
-
Spark SQL 对比 Impala
总结
查看更多
会议嘉宾
参会指南
会议门票
8500元/人次,包含一次对应的考试(如果来参加培训的人不考试,仅参加培训的价格为6500/人次)
CCA Spark and Hadoop Developer (CCA175) 开发者认证
认证准备建议:Spark and Hadoop开发者培训
考试形式:120分钟;70%通过;解决10~12基于CDH5机群上需通过实际操作的问题
查看更多
温馨提示
酒店与住宿:
为防止极端情况下活动延期或取消,建议“异地客户”与活动家客服确认参会信息后,再安排出行与住宿。
退款规则:
活动各项资源需提前采购,购票后不支持退款,可以换人参加。
您可能还会关注
-
DAMS2024中国数据智能管理峰会(上海)
2024-11-29 上海
-
2024中国医药医疗CIO年会
2024-12-27 上海
-
SECON 2024全球软件工程技术大会·上海
2024-11-15 上海
-
2024PM产品力领航者大会
2025-05-16 上海