请留下您的手机号
我们即刻安排课程老师为您回电!
您好
请留下您的联系方式,我们将主动给您回电!
第一时间为您安排就近试听!
Python爬虫及文本分析学术应用

Python爬虫及文本分析学术应用

Python爬虫及文本分析学术应用
课程级别入门级 培训周期一周以内
培训时间全日制
咨询电话 400-656-1390
微信咨询

微信扫二维码免费咨询

我们将给您发送更多独

家资料和课程视频!

Python爬虫及文本分析学术应用
课程说明
课程级别 入门级
培训周期 一周以内
上课时间 全日制
上课地址 北京市海淀区厂洼街3号丹龙大厦B3018
课程简介

  

一、课程亮点:

  本课程致力于讲授完整的结构化数据、文本数据的获取、存储、读取、处理和分析过程,我们期望课程可以帮助到广大的用户,包括所有想要使用python编程语言实现数据获取和文本分析的在校师生、以及致力于将数据分析与挖掘的价值广泛运用到实际场景的商业人士。

  二、学习目标:

  不再单一依靠开源公开数据网站的数据,适当摆脱对统计年鉴、wind数据库、知网数据的依赖,能够从更多元的渠道获取数据,使用python更的处理数据,并用更前沿的技术分析和挖掘数据信息,为我们的科研工作减轻中间工作负担。

  三、课程内容:

  01章概述 爬虫与文本分析概述

  01-01结构化数据/文本数据的获取方法概述

  01-02的编程语言实现结构化数据处理与文本分析的价值

  02章编程基础

  02-01python编程基础(标准数据类型,控制流,自定义函数,类,os文件处理模块)

  02-02python重要数据科学计算库(Numpy,Pandas,Matplotlib,Pyecherts,wordcloud)

  03章数据获取

  03-01爬虫基础(网络爬虫简介,爬虫的基本原理,HTML 简介,数据存储)

  03-02网页抓取(使用 Urllib网页抓取,requests实战)

  03-03BeautifulSoup4(简介,安装,BS 对象的种类,遍历文档树,搜索文档树)

  03-04Xpath(什么是Xpath,Xpath开发工具,Xpath常用规则)

  03-05动态渲染页面抓取(Selenium的安装,基本使用,声明浏览器对象,访问页面,定位元素,节点交互,动作链,执行 JavaScript,获取节点信息,延时等待,前进后退,Cookies,选项卡管理,异常处理)

  03-06爬虫实战(网站的爬取,基电商评价文本爬取)

  04章数据存储与读取

  04-01可供读取数据类型介绍(excel、pdf、txt、html、mysql数据库文件介绍)

  04-02数据的存储(将数据存储到excel表,txt文本,word文档)

  04-03数据的读取(python批量读取多个多子表excel,python读取txt文件,word文档)

  05章数据处理

  05-01正则表达式(什么是正则表达式,正则表达式匹配规则,re模块的使用)

  05-02文本处理常用方法(字符串的不变性,排序行,段落格式化,二进制转化为ASCII,重复字词过滤,提取邮件地址,提取URL地址,大写转换,符号化,删除停用词,同义词与反义词处理,文本翻译,单词替换,拼写检查,WordNet接口,语料访问,标记单词,块和裂口,块分类,文本分类,双字母组,文字改写,文字换行,频率分布,文字摘要,词干算法,约束搜索)

  05-03结构化数据处理--数据清洗(numpy数值计算要点串讲,Pandas数据处理串讲,python统计图表展示)

  06章文本分析实战

  06-01重要的库(jieba库简介)

  06-02关键词提取(关键词任务概述,TF-IDF算法原理,相似文章原理介绍,实例:红楼梦文本分析的实现,文件与词库的读取,完成分词与词云图的绘制)

  06-03文本分类(新闻素材介绍,新闻内容的关键词提取,词向量转化与ngram模型,朴素贝叶斯算法完成新闻分类)


课程内容以实际授课为准
  • 软件开发
  • 软件测试
  • 数据库
  • Web前端
  • 大数据
  • 人工智能
  • 零基础
  • 有HTML基础
  • 有PHP基础
  • 有C语言基础
  • 有JAVA基础
  • 其他计算机语言基础
  • 周末班
  • 全日制白班
  • 随到随学
免费通话 申请试听
已被浏览
214
查看更多课程

校/区/安/排

筛选:
北京
全部校区 ABCD EFGHJ KLMNP QRSTW XYZ
北京
北京 B
如荷学
  • 如荷学
  • 如荷学
    • 学校地址: 北京市海淀区厂洼街3号丹龙大厦B3018
点击查看完整地图