吾爱编程

标题: 完整的小说站点爬虫-spring-mybatis-jsoup-http-client [打印本页]

作者: admin 时间: 2018-3-7 10:34
标题: 完整的小说站点爬虫-spring-mybatis-jsoup-http-client
课程内容：7 t6 I& G: B# I& i: V/ X( U7 l7 n
迷小说的站友们有福利啦，大的小说平台收费很吓人，wap端小说站小广告实在是不堪忍受。所以这是一个没有任何广告的自己的小说站点，想看什么看什么。2 ^* \! d3 N4 `" q

介绍一下如何运行这（几）个项目：
第一个项目：novel.spider（姑且叫他为spider吧）-jsoup,http-client. y* r8 k# X; Z9 X2 ?
提供了三个最为底层的方法：  j. D1 s, Y; j! {
ChapterFactory.getChapterSpider(NovelSiteEnum novelSiteEnum).getChapters(NovelSpiderUtil.getRelativeUrl(NovelSiteEnum novelSiteEnum, url))  获取一个爬取对应网站的章节的实体，并执行爬取任务( D: `$ t0 |2 @/ {* p3 t
ContentFactory.getContentSpider(NovelSiteEnum novelSiteEnum).getContent(NovelSpiderUtil.getRelativeUrl(NovelSiteEnum novelSiteEnum,url)) 获取一个爬取对应网站的内容的实体，并执行爬取任务
NovelDownloaderObserver observer = new NovelDownloaderObserver(url) 下载小说...0 _8 K8 L3 s: E! g3 P$ z

这三个都依赖于一个方法：NovelSpiderUtil.setRootPath(path) 该方法用来指定爬取规则的配置文件存放的路径，以及下载的小说存放在哪个文件夹下$ ^) s- F& k2 T% W# A4 {5 ^
该项目下有个测试类，可以参考一下使用方式：NovelSpiderTest.JAVA$ K" o9 v& S0 N# C7 R

第二个项目：novel.book.storage（用来爬取某个网站的所有书列表）-mybatis
唯一的难点就是指定好配置文件，以及配置好数据库的连接信息。config目录下还有一个sql文件，该文件用来创建数据库和表，没有库爬到的数据没地方存呀。
这个项目很简单，总共2个类+1个接口，就不细说了！
0 }  O) t7 f- j- I! x

第三个项目：novel （这是一个web站点）-spring,mybatis% A' j' }/ N6 `
稍微重要点的类是NovelController和NovelServiceImpl（写这个实现类的是才发现之前给自己挖的坑有多么的深，所以在spider项目里面多了一个抽象...）' V$ C. X  {/ F, |; v. x# P  X! A

稍微要注意的是，NovelServiceImpl中也调用了NovelSpiderUtil.setRootPath(path)方法来指定配置文件的位置。4 c, z5 H2 w$ u7 I3 Q8 M/ Y

下载地址：

作者: rover99x 时间: 2018-3-10 14:45
感谢提供教程

欢迎光临吾爱编程 (http://www.52pg.net/)