Cloudera 数据分析师培训班
时间:2017-06-13 08:00 至 2017-06-16 18:00
地点:重庆
- 参会报名
- 会议通知
- 会议日程
- 会议嘉宾
- 参会指南
-
手机下单
Cloudera 数据分析师培训班 已截止报名会议时间: 2017-06-13 08:00至 2017-06-16 18:00结束 会议地点: 重庆 重庆渝北区仙桃数据谷 重庆市渝北区仙桃街道数据谷东路19号 周边酒店预订 会议规模:30人 主办单位: 重庆翰海睿智大数据科技有限公司
|
会议通知
会议内容 主办方介绍
Cloudera 数据分析师培训班宣传图
重庆 Cloudera 授权大数据培训基地Cloudera 数据分析师培训班开班通知
为发展大数据行业和提高各企事业单位员工的技术,现定于6月13---16日在重庆渝北区仙桃数据谷进行Cloudera 数据分析师培训,届时将邀请您到现场进行大数据行业的学习和交流。
课程简介
Cloudera 大学提供的为期四天的数据分析培训课程专注于Apache Pig、 Hive 和Cloudera Impala,将教会您如何将传统的数据分析和商业智能技术应 用到大数据领域。Cloudera 为数据专业人员提供了基于SQL 和其它熟悉的脚 本编程语言的工具,用来访问、操作、转换和分析复杂数据集。
证书介绍
CCA数据分析师
CCA数据分析师需具备在基于Cloudera CDH部署的大数据平台上使用Hive和Impala 进行分析并产生报告的技能。结束本课程培训后,我们建议学员准备并注册参加Cloudera CCA 数据分析师认证考试。通过并获得该证书是向公司及客户证明个人在Hadoop数据分析领域的技术和专长的有力依据。
培训地点
重庆渝北区仙桃数据谷(数据谷东路19号)
查看更多
重庆翰海海睿智大数据科技有限公司成立于 2016 年。公司是重 庆市经信委、重庆市北区人民政府与美国 Cloudera 于 2016 年底 签署的 MOU 合作项目的执行单位。 公司由多名国际大数据行业技术专家和 IT 教育行业运营专家组成,核 心团队成员均在大数据领域和 IT 教育领域具备超过 10 年年的运营经验。 位于位于重庆渝北区的仙桃国际数据谷,整体面积超过 3000 平米, 分为培训场地、实训场地、办公区域及服务设施等部分,并享受园区提供的 配套设施。 是国内首家 Cloudera 授权大数据培训基地 ,全国唯一 Cloudera 教育行业推广运营中心!
会议日程 (最终日程以会议现场为准)
时间 | 课程安排 |
6月13日08:00 | 签到 |
6月13日08:30-11:30 | Hadoop 基础知识 · Hadoop 动机 · Hadoop 概览 · 数据存储:HDFS · 分布式数据处理:YARN、MapReduce和Spark · 数据处理与分析:Pig、Hive 和Impala · 数据集成:Sqoop · 其它的Hadoop 数据工具 · 练习分析场景说明 Pig 简介 · Pig 是什么? · Pig 的特点 · Pig 使用案例 · 与Pig 的交互 |
6月13日13:00-17:30 | Pig 基本数据分析 · PigLatin 语法 · 加载数据 · 简单数据类型 · 字段定义 · 数据输出 · 架构查看 · 数据筛选和排序 · 常用函数 使用Pig 处理复杂的数据 · 数据存储格式 · 复合/ 嵌套数据类型 · 数据分组 · 复杂数据内置函数 · 遍历分组数据 |
6月14日08:30-11:30 | Pig 多数据集操作 · 数据集合并技术 · 在Pig 中联接数据集 · 集合运算 · 拆分数据集 Pig 故障诊断和性能优化 · Pig 故障排除 · 日志 · 使用Hadoop 的Web UI · 数据采样及调试 · 性能概述 · 了解执行计划 · 提高Pig 作业性能的技巧 |
6月14日13:00-17:30 | Hive 和Impala 简介 · 什么是Hive ? · 什么是Impala ? · 为什么使用Hive 和Impala · 架构和数据存储 · Hive 及Impala 与传统数据库的比较 · Hive 使用案例 使用Hive 和Impala 进行数据查询 · 数据库和表 · 基本的Hive 和Impala 查询语言语法 · 数据类型 · 使用Hue 来执行查询 · 使用Beeline(Hive Shell) · 使用Impala Shell |
6月15日08:30-11:30 | Hive 及Impala 数据管理 · 数据存储 · 创建数据库和表 · 加载数据 · 修改数据库和表 · 使用视图简化查询 · 存储查询结果 数据存储和性能 · 对表进行分区 · 分区表的数据加载 · 何时使用分区 · 文件格式的选取 · 使用Avro 及Parquet 文件格式 |
6月15日13:00-17:30 | 使用Hive 和 Impala 进行关系数据分析 · 连接数据集 · 常见的内置函数 · 聚合和窗口函数 复杂数据类型 · 在Hive 里使用复杂数据 · 在Impala 里使用复杂数据 |
6月16日08:30-11:30 | 使用Hive 及Impala 分析文本数据 · 在Hive 及Impala 里使用正则表达式 · 在Hive 里通过SerDe 加载处理文本 · 情感分析及n-gram Hive 优化 · 了解查询性能 · Bucketing(分桶) · 索引数据 · Hive on Spark Impala 优化 · Impala 如何执行查询 · 改善Impala 性能 |
6月16日13:00-17:30 | 扩展Hive 及Impala · 使用SerDe 加载特殊格式文件 · 通过定制脚本来转换数据 · 用户自定义函数 · 参数化查询 选择最佳工具 · 比较Pig、Hive、Impala 和关系数据库 · 该选择哪一个? |
课程大纲:Cloudera 数据分析师培训
Hadoop 基础知识
· Hadoop 动机
· Hadoop 概览
· 数据存储:HDFS
· 分布式数据处理:YARN、MapReduce 和Spark
· 数据处理与分析:Pig、Hive 和Impala
· 数据集成:Sqoop
· 其它的Hadoop 数据工具
· 练习分析场景说明
Pig 简介
· Pig 是什么?
· Pig 的特点
· Pig 使用案例
· 与Pig 的交互
Pig 基本数据分析
· PigLatin 语法
· 加载数据
· 简单数据类型
· 字段定义
· 数据输出
· 架构查看
· 数据筛选和排序
· 常用函数
使用Pig 处理复杂的数据
· 数据存储格式
· 复合/ 嵌套数据类型
· 数据分组
· 复杂数据内置函数
· 遍历分组数据
Pig 多数据集操作
· 数据集合并技术
· 在Pig中联接数据集
· 集合运算
· 拆分数据集
Pig 故障诊断和性能优化
· Pig 故障排除
· 日志
· 使用Hadoop 的Web UI
· 数据采样及调试
· 性能概述
· 了解执行计划
· 提高Pig 作业性能的技巧
Hive 和Impala 简介
· 什么是Hive ?
· 什么是Impala ?
· 为什么使用Hive和Impala
· 架构和数据存储
· Hive及Impala 与传统数据库的比较
· Hive 使用案例
使用Hive 和Impala 进行数据查询
· 数据库和表
· 基本的Hive 和Impala 查询语言语法
· 数据类型
· 使用Hue 来执行查询
· 使用Beeline(Hive Shell)
· 使用Impala Shell
Hive及Impala数据管理
· 数据存储
· 创建数据库和表
· 加载数据
· 修改数据库和表
· 使用视图简化查询
· 存储查询结果
数据存储和性能
· 对表进行分区
· 分区表的数据加载
· 何时使用分区
· 文件格式的选取
· 使用Avro及Parquet文件格式
使用Hive 和 Impala 进行关系数据分析
· 连接数据集
· 常见的内置函数
· 聚合和窗口函数
复杂数据类型
· 在Hive里使用复杂数据
· 在Impala里使用复杂数据
使用Hive及Impala分析文本数据
· 在Hive及Impala里使用正则表达式
· 在Hive里通过SerDe加载处理文本
· 情感分析及n-gram
Hive 优化
· 了解查询性能
· Bucketing(分桶)
· 索引数据
· Hive on Spark
Impala优化
· Impala如何执行查询
· 改善Impala性能
扩展Hive及Impala
· 使用SerDe加载特殊格式文件
· 通过定制脚本来转换数据
· 用户自定义函数
· 参数化查询
选择最佳工具
· 比较Pig、Hive、Impala 和关系数据库
· 该选择哪一个?
总结
查看更多
参会指南
会议门票 场馆介绍
课程培训班学费:12000元(含:课程费 9200 元,认证考试费 2800 元)
课程费含培训费、教材费、午餐(数据谷)、实验费、交通费、住宿费自理(推荐数据谷窝趣单间、双人间)
查看更多
重庆仙桃数据谷,“美国有苹果,中国有仙桃”,2014年3月17日,重庆市政府第40次常务会研究,决定规划建设仙桃大数据产业园。主要布局大数据、云计算和跨境电子商务等新兴产业,致力于积聚大数据全产业链,包括数据感知、存储、挖掘分析及应用等,建成后将解决已签约龙头企业的落地和发展问题,促进大数据和跨境电子商务平台集中布局、集约化发展。同时通过集中布局,吸引基于大数据业务的风投、私募基金和物流企业扎堆发展,形成产业集聚和辐射效应。2014年4月,重庆仙桃数据谷正式启动规划建设,项目选址于重庆市渝北区双龙湖街道仙桃村,规划范围总面积为2674亩,项目实际总占地为1346亩(环路外边线围合范围面积),谷内总建设用地面积为1267亩。其中,市政设施及绿化用地为306亩,房屋建筑用地为961亩其中,市政设施及绿化用地为306亩,房屋建筑用地为961亩。分为商务楼宇产业区和租赁式公寓等配套生活区,其中产业办公楼宇约81万平方米,酒店、公寓等配套建筑约39万平方米,规划常住人口2万人,注册企业10万家(含虚拟注册),引进龙头企业50家、核心企业300家。
温馨提示
酒店与住宿:
为防止极端情况下活动延期或取消,建议“异地客户”与活动家客服确认参会信息后,再安排出行与住宿。
退款规则:
活动各项资源需提前采购,购票后不支持退款,可以换人参加。
您可能还会关注
-
DAMS2024中国数据智能管理峰会(上海)
2024-11-29 上海
-
2024中国医药医疗CIO年会
2024-12-27 上海
-
2024PM产品力领航者大会
2025-05-16 上海
-
AiCon深圳2025|全球人工智能与大模型应用峰会
2025-08-22 深圳