全国高校网络爬虫与数据处理实战专题师资研修班1月线上班
时间:2021-01-19 09:00 至 2021-01-25 18:00
地点:线上活动
- 参会报名
- 会议介绍
- 会议日程
- 会议嘉宾
- 参会指南
-
手机下单
全国高校网络爬虫与数据处理实战专题师资研修班1月线上班 已截止报名课程时间: 2021-01-19 09:00至 2021-01-25 18:00结束 课程地点: 线上活动 主办单位: 全国高校大数据教育创新联盟
|
会议介绍
会议内容 主办方介绍
全国高校网络爬虫与数据处理实战专题师资研修班1月线上班宣传图
(2021年第一期)
主办单位:全国高校大数据教育创新联盟
泰迪杯数据挖掘挑战赛组委会
承办单位:广东泰迪智能科技股份有限公司
协办单位:人民邮电出版社有限公司
北京泰迪云智信息技术研究院
当今世界,科技进步日新月异,互联网、云计算、大数据等现代信息技术深刻改变着人类的思维、生产、生活、学习方式,深刻展示了世界发展的前景。针对目前高校在人工智能专业建设过程中出现的师资不足、相关落地动手实战应用能力欠缺、授课过程中相关行业实战案例项目缺失等问题,进一步提升教学能力和科研能力,全国大数据教育创新联盟联合泰迪杯数据挖掘挑战赛组委会联合推出全国高校大数据与人工智能师资研修班,每年在全国范围内滚动开展八期,截止目前已在全国巡回举办30余场,参训教师近3000人次。2021年第一期全国高校网络爬虫与数据处理实战专题师资研修班将于2021年1月19-25日上以云课堂形式举办,现将有关详细安排通知如下:
一、课程介绍
人工智能时代的来临,随着互联网数据越来越开放,越来越丰富。基于大数据来做的事也越来越多。数据分析服务、互联网金融、数据建模、医疗病例分析、自然语言处理、信息聚类,这些都是大数据的应用场景,而大数据的来源都是利用网络爬虫来实现。
本次培训采用“云课堂线上精讲+专家技术在线答疑指导+学员群内实操答疑+助教指导”结合的方式,包含前置基础课程学习阶段和核心课程学习阶段,讲解数据采集常用手段、数据清洗、数据可视化和项目代码实践,梳理技术框架。
二、课程目标及收获
1、通过学习本次课程,可以完整地学习数据获取、清洗、统计、分析、可视化等数据处理周期的主要技术,也可以培养计算思维、数据思维及采用程序设计方法解决计算问题的实战能力。
2、本课程配套有基础知识内容,可使零基学员础快速入门,带领学员迅速掌握Python编程,了解网络爬虫的基本概念及相关实现,讲解常见的爬虫套路并利用相关实战帮助学员提高数据采集能力,避免没有数据可分析的尴尬。
3、核心课程部分由讲师手把手一起进行实操演练,在具体应用场景中全面掌握相关技能,助力实训教学工作、实际动手的能力。内容以代码落地为主,以理论讲解为根,以公式推导为辅,通过讲解具体应用,全面解析专业必备技能,为相关课程开设和备课、应对科研和项目开发打下坚实基础。
4、全面实践数据分析流程,包括数据采集、数据处理、数据探索、数据可视化等课程提供知识讲解,注重案例实战,提供在线答疑等服务,助力夯实理论基础,掌握核心技术,全面提升专业授课能力。
5、无论是前置学习篇还是案例集训篇,相关代码、源数据、PPT、案例素材全部提供下载,即学即用,教学更轻松!视频内容支持回看(支持六个月内免费回看),以便复习和参考。
6、参加线上课程学习的学员,如后续本人参加线下课程继续深造,持线上缴费凭证可享受一次免费学习机会(仅限参加同一培训专题方向的线下课程)。
证书认证
学员经在线培训并考试合格后,可以获得由工业和信息化部教育与考试中心颁发“高级Python技术应用工程师职业技术证书”,证书可登录国家工业和信息化部教育与考试中心官网查询。
查看更多
会议日程 (最终日程以会议现场为准)
三、课程大纲
基础篇 (报名成功后即可开始学习) |
|||||
时间 |
课程内容 |
学习平台 |
|||
正式培训前 |
Python编程基础 1准备工作 2列表操作 3程序流程控制语句 4字符串操作 4.1字符串及其索引&切片 4.2字符串的常见方法 4.3字典的创建及索引 4.4字典常用操作 4.5字典推导式 5Python文件读取操作 5.1Python读取文件 5.2练习3:统计小说中的单词频次 6函数 6.1Python函数自定义 6.2练习4:自定义求序列偶数个数的函数 7面向对象与模块 7.1Python方法与函数对比介绍 7.2Python面向对象示例 7.3Python模块使用 7.4第三方库的安装与调用 8注意事项 8.1Python工作路径说明 8.2模块命名及存放路径的注意事项 8.3结语 |
泰迪云课堂 |
|||
核心课程篇 |
|||||
时间 |
课程内容 |
学习平台 |
|||
专题讲座 |
|||||
1月19日 18:00-19:00 |
主讲:冯国灿教授 主题内容:计算机视觉技术及其应用 |
泰迪云课堂 |
|||
第一课 Python数据处理与可视化 |
|||||
1月19日 19:00-21:30 |
1 Python数据分析概述 1.1认识数据分析 1.2熟悉Python数据分析的工具 1.3安装Python3的Anaconda发行版 1.4掌握Jupyter Notebook常用功能 2 NumPy数值计算基础 2.1认识NumPy数组对象ndarray 2.2认识NumPy矩阵与通用函数 2.3利用NumPy进行统计分析 3 Matplotlib数据可视化基础 3.1了解绘图基础语法与常用参数 3.2分析特征间的关系 3.3分析特征内部数据分布与分散状况 4 Pandas统计分析基础 4.1读写不同数据源的数据 4.2掌握DataFrame的常用操作 4.3转换与处理时间序列数据 4.4使用分组聚合进行组内计算 4.5创建透视表与交叉表 |
泰迪云课堂 |
|||
第一课作业 |
个人PC |
||||
在线答疑 |
微信群 |
||||
第二课 Python网络爬虫:概述与静态网页采集 |
|||||
1月20日 19:00-21:30 |
1.1 Python网络爬虫实战介绍 1.2 认识爬虫 1.3 认识反爬虫 1.4 Python爬虫环境 2 网页前端基础 2.1 概述 2.2 HTTP请求方法与过程 2.3 常见HTTP状态码 2.4 HTTP头部信息 2.5 认识cookies 2.6 小结 3 简单静态网页爬取 3.1 静态网页爬取概述 3.2 使用urllib3实现HTTP请求 3.3 使用requests库实现HTTP请求 3.4 谷歌开发者工具介绍 3.5 正则表达式介绍 3.6 使用正则表达式获取网页标题信息 3.7 使用XPath进行网页解析 3.8 使用BeautifulSoup进行网页解析 3.9 数据存储 3.10 小结 |
泰迪云课堂 |
|||
第二课作业 |
个人PC |
||||
在线答疑 |
微信群 |
||||
第三课 Python网络爬虫:动态网页采集与模拟登陆 |
|||||
1月21日 19:00-21:30 |
4 常规动态网页爬取 4.1 常规动态网页爬取概述 4.2 逆向分析爬取动态网页 4.3 使用Selenium打开浏览对象 4.4 Selenium页面等待 4.5 使用Selenium获取图书信息 4.6 小结 5 模拟登录 5.1 模拟登录概述 5.2 查找表单数据入口及提交数据 5.3 验证码人工处理与代理IP 5.4 使用POST请求方法登录 5.5 使用浏览器cookies登录 5.6 基于表单登录的cookies登录 5.7 小结 |
泰迪云课堂 |
|||
第三课作业 |
个人PC |
||||
在线答疑 |
微信群 |
||||
第四课 Python网络爬虫:终端协议分析与Scrapy爬虫 |
|||||
1月22日 19:00-21:30 |
6 终端协议分析 6.1 终端协议分析概述 6.2 了解HTTP Analyzer工具 6.3 爬取千千音乐PC客户端数据 6.4 小结 7 Scrapy爬虫 7.1 了解scrapy爬虫框架 7.2 熟悉scrapy的常用命令 7.3 创建scrapy爬虫项目:爬取网页动态信息 7.4 修改ItemsPipelines脚本 7.5 编写spiders脚本 7.6 修改setting脚本 7.7 定制中间件 |
泰迪云课堂 |
|||
操作演练 |
个人PC |
||||
在线答疑 |
微信群 |
||||
第五课 数据采集与处理实战:《流浪地球》豆瓣影评采集与分析 |
|||||
1月23日 19:00-21:30 |
1.1 案例背景与挖掘目标 2.1 短评数据爬取介绍 2.2 安装selenium及配置chromedriver 2.3 获取用户名 2.4 获取短评正文 2.5 设置cookies 2.6 获取用户居住地和入会时间信息 2.7 单页数据整理 2.8 自定义获取单页数据的函数 2.9 判定网页是否已被加载 2.10 翻页爬取 2.11 代码整理及小结 3.1 短评正文数据预处理 3.2 词频统计 3.3 绘制整体评论数据的词云图 3.4 好评差评词云图绘制及小结 3.5 评分分数分布统计 4.1 短评数量与日期的关系 4.2 短评数量与时刻的关系 4.3 不同评分数量与时间的关系 4.4 评论最多的前十个城市 4.5 评分数量与城市的关系 5.1 总结 |
泰迪云课堂 |
|||
操作演练 |
个人PC |
||||
在线答疑 |
微信群 |
||||
第六课 数据采集与处理实战:大数据岗位人才招聘信息的分析与挖掘 |
|||||
1月24日 19:00-21:30 |
1.1背景与目标 2.1信息爬取介绍 2.2获取岗位名称数据 2.3获取目录页的所有字段信息 2.4获取二级网址的网页链接 2.5获取二级网址的所有字段信息 2.6对单一目录页中的所有二级网页信息进行抓取 2.7将第一个目录页的数据进行保存 2.8批量爬取及数据保存 3.1已爬取数据介绍 3.2根据岗位名筛选招聘信息_batch 3.3统一岗位名称 3.4根据工资列筛选数据 3.5完成工资数据处理 3.6工作地点字段处理 3.7公司类型字段处理 3.8行业字段数据处理 3.9工作描述字段处理_batch 3.10公司规模字段处理 3.11数据预处理小结 4.1热门招聘岗位可视化 4.2热门行业及公司招聘分析 4.3热门岗位的工资水平 4.4可视化综合分析_batch 4.5岗位技能分析 5总结 |
泰迪云课堂 |
|||
操作演练 |
个人PC |
||||
在线答疑 |
微信群 |
||||
自行安排 |
拓展自学 Python爬虫助力疫情数据追踪 1明确项目需求与目标 2环境准备 3获取疫情数据(全球、中国各省及各地区数据) 4疫情数据分析 5疫情数据可视化 6完成分析报告 |
泰迪云课堂 |
|||
第七课 认证考试 |
|||||
1月25日 19:00-21:30 |
工信部教育与考试中心高级Python技术应用工程师职业技术认证在线考试 |
泰迪云课堂 |
查看更多
会议嘉宾 (最终出席嘉宾以会议现场为准)
课程主讲师资介绍
冯国灿 博士,中山大学数学学院教授,博士生导师。泰迪杯数据挖掘挑战赛组委会委员,中国工业与应用数学会常务理事,广东省工业与应用数学学会理事长, 2000-2002英国格莱莫根大学数字图像实验室和布拉德福大学数字媒体实验室做博士后研究员。主要从事模式识别、计算机视觉研究,参加主持包括国家自然科学基金等科学基金20多项,发表学术论文100余篇,入选2014-2019爱思唯尔计算机科学中国高被引学者排行榜。
张敏 广东泰迪科技高级数据分析师、培训总监,从事用户数据分析和数据挖掘工作六年,具有丰富的大数据挖掘理论及实践培训经验,对数据具有较高的敏感度,根据数据对其进行全面的统计分析。精通Python、R语言、Matlab等多种数据挖掘工具。擅长市场发展情况监控、精确营销方面的数据挖掘工作。有为南方电网、珠江数码等大型企业长期提供实施服务的经验,主导了电子商务网站用户行为分析及网页智能推荐服务、中医证型关联规则挖掘、电信业务话单量预测、航空公司客户价值分析等多个项目。2017年“泰迪杯数据挖掘挑战赛教练员培训”主讲讲师,2018年广东省Python与深度学习技术师资培训班主讲讲师,2018年第一/三/五期全国高校大数据核心技术与应用师资研修班主讲讲师、2019年第一/二/三期全国高校大数据与人工智能师资研修班主讲讲师,2019年国家电网大数据竞赛河北、湖南省、甘肃省电力系统培训班主讲讲师,先后负责过西安理工大学、广东工业大学、广西师范学院、广西科技大学、闽江学院、广东石油化工学院、上海健康医学院等高校实训课程及德生科技等企业内训和数据挖掘就业班的课程。组织、参与编写图书《Python编程基础》、《Python数据分析与应用》、《R语言编程基础》等。
杨惠 广东泰迪科技高级数据分析师,具备丰富的培训经验,曾为多家企业、院校服务过专业培训工作。如PPV商业培训、泰迪大数据师资培训、珠海城职院数据分析培训; 2018年第一、三、五期全国高校大数据核心技术与应用师资研修班主讲讲师、2019年第一、三、五期全国高校大数据与人工智能师资研修班主讲讲师,2019年国家电网大数据竞赛河北省电力系统培训班主讲讲师。从事数据挖掘工作五年,擅长文本挖掘及深度神经网络RNN,熟悉常用机器学习算法原理及应用,如神经网络、SVM、决策树、贝叶斯等算法;精通R、Python、MATLAB等常用数据挖掘处理工具。具有丰富的实践项目经验。如“京东电商产品评论情感分析”项目;“珠江数码大数据营销推荐应用”项目;“电子商务网站智能推荐服务”项目。
查看更多
参会指南
会议门票
报名材料及费用说明
1. 报名材料:报名申请表、身份证复印件、两寸近期正面免冠彩色半身证件照电子版 (要求:背景:白色,格式:JPG,大小:14-20K)。
2. 培训费用:1980 元/人,包含(报名费、学习费、资料费、证书费)。
3. 全部课程内容共计70课时,课程视频内容六个月内面向学员免费开放,可以反复学习。
4、参加线上课程学习的学员,如后续本人参加线下课程继续深造,持线上缴费凭证可享受一次免费学习机会(仅限参加同一培训专题方向的线下课程)。
查看更多
温馨提示
酒店与住宿:
为防止极端情况下活动延期或取消,建议“异地客户”与活动家客服确认参会信息后,再安排出行与住宿。
退款规则:
活动各项资源需提前采购,购票后不支持退款,可以换人参加。