北京培训首页 > 北京培训课程 > 数据库工程师培训课程 > Python爬虫及文本分析学术应用

Python爬虫及文本分析学术应用

课程级别入门级培训周期一周以内
培训时间全日制

咨询电话 400-656-1390

微信咨询

微信扫二维码免费咨询

我们将给您发送更多独

家资料和课程视频！

课程说明

课程级别	入门级
培训周期	一周以内
上课时间	全日制
上课地址	北京市海淀区厂洼街3号丹龙大厦B3018

课程简介

一、课程亮点：

　　本课程致力于讲授完整的结构化数据、文本数据的获取、存储、读取、处理和分析过程，我们期望课程可以帮助到广大的用户，包括所有想要使用python编程语言实现数据获取和文本分析的在校师生、以及致力于将数据分析与挖掘的价值广泛运用到实际场景的商业人士。

　　二、学习目标：

　　不再单一依靠开源公开数据网站的数据，适当摆脱对统计年鉴、wind数据库、知网数据的依赖，能够从更多元的渠道获取数据，使用python更的处理数据，并用更前沿的技术分析和挖掘数据信息，为我们的科研工作减轻中间工作负担。

　　三、课程内容：

　　01章概述爬虫与文本分析概述

　　01-01结构化数据/文本数据的获取方法概述

　　01-02的编程语言实现结构化数据处理与文本分析的价值

　　02章编程基础

　　02-01python编程基础(标准数据类型，控制流，自定义函数，类，os文件处理模块)

　　02-02python重要数据科学计算库(Numpy，Pandas，Matplotlib，Pyecherts，wordcloud)

　　03章数据获取

　　03-01爬虫基础(网络爬虫简介，爬虫的基本原理，HTML 简介，数据存储)

　　03-02网页抓取(使用 Urllib网页抓取，requests实战)

　　03-03BeautifulSoup4(简介，安装，BS 对象的种类，遍历文档树，搜索文档树)

　　03-04Xpath(什么是Xpath，Xpath开发工具，Xpath常用规则)

　　03-05动态渲染页面抓取(Selenium的安装，基本使用，声明浏览器对象，访问页面，定位元素，节点交互，动作链，执行 JavaScript，获取节点信息，延时等待，前进后退，Cookies，选项卡管理，异常处理)

　　03-06爬虫实战(网站的爬取，基电商评价文本爬取)

　　04章数据存储与读取

　　04-01可供读取数据类型介绍(excel、pdf、txt、html、mysql数据库文件介绍)

　　04-02数据的存储(将数据存储到excel表，txt文本，word文档)

　　04-03数据的读取(python批量读取多个多子表excel，python读取txt文件，word文档)

　　05章数据处理

　　05-01正则表达式(什么是正则表达式，正则表达式匹配规则，re模块的使用)

　　05-02文本处理常用方法(字符串的不变性，排序行，段落格式化，二进制转化为ASCII，重复字词过滤，提取邮件地址，提取URL地址，大写转换，符号化，删除停用词，同义词与反义词处理，文本翻译，单词替换，拼写检查，WordNet接口，语料访问，标记单词，块和裂口，块分类，文本分类，双字母组，文字改写，文字换行，频率分布，文字摘要，词干算法，约束搜索)

　　05-03结构化数据处理--数据清洗(numpy数值计算要点串讲，Pandas数据处理串讲，python统计图表展示)

　　06章文本分析实战

　　06-01重要的库(jieba库简介)

　　06-02关键词提取(关键词任务概述，TF-IDF算法原理，相似文章原理介绍，实例：红楼梦文本分析的实现，文件与词库的读取，完成分词与词云图的绘制)

　　06-03文本分类(新闻素材介绍，新闻内容的关键词提取，词向量转化与ngram模型，朴素贝叶斯算法完成新闻分类)

课程内容以实际授课为准

学习课程：

软件开发
软件测试
数据库
Web前端
大数据
人工智能

您的基础：

零基础
有HTML基础
有PHP基础
有C语言基础
有JAVA基础
其他计算机语言基础

学习方式：

周末班
全日制白班
随到随学

免费通话申请试听

学校课程导航

查看更多课程

热门课程推荐

培训资讯

我们的服务

用户帮助

帮助中心

关于厚学

服务支持

Python爬虫及文本分析学术应用

其他职业资格

软件系统

北京有AI工程师的培训吗

北京有python数据分析培训吗

北京有业务数据分析师培训吗

AI工程师培训，北京哪家有

北京有AI工程师培训班吗