课程介绍
本门课程主要讲解网络爬虫介绍、WEB基础知识、正则表达式、使用Java的网络编程实现网络爬虫、使用WebMagic框架快速实现网络爬虫。
课程详情
第1章 初识网络爬虫
1-1 网络爬虫介绍
1-2 WEB基础知识
1-3 HTML
1-4 正则表达式
1-5 爬虫入门案例-获取天气预报信息
1-6 爬虫入门案例-从网上获取《三国演义》全文
第2章 WebMagic框架入门
2-1 WebMagic概览
2-2 使用WebMagic框架获取天气预报
2-3 使用WebMagic框架获取《三国演义》全文
第3章 编写基本的爬虫
3-1 实现PageProcessor(上)
3-2 实现PageProcessor(下)
3-3 使用Selectable抽取元素
3-4 使用Pipeline保存结果
3-5 爬虫的配置、启动和终止
3-6 Jsoup和Xsoup
3-7 爬虫的监控
3-8 配置代理
3-9 处理非HTTP GET请求
第4章 使用注解编写爬虫
4-1 常用爬虫注解
4-2 结果的类型转换
4-3 完整的流程案例