吾爱编程

标题: 完整的小说站点爬虫-spring-mybatis-jsoup-http-client [打印本页]

作者: admin    时间: 2018-3-7 10:34
标题: 完整的小说站点爬虫-spring-mybatis-jsoup-http-client
课程内容:7 t6 I& G: B# I& i: V/ X( U7 l7 n
迷小说的站友们有福利啦,大的小说平台收费很吓人,wap端小说站小广告实在是不堪忍受。所以这是一个没有任何广告的自己的小说站点,想看什么看什么。2 ^* \! d3 N4 `" q


介绍一下如何运行这(几)个项目:
第一个项目:novel.spider(姑且叫他为spider吧)-jsoup,http-client. y* r8 k# X; Z9 X2 ?
提供了三个最为底层的方法:  j. D1 s, Y; j! {
ChapterFactory.getChapterSpider(NovelSiteEnum novelSiteEnum).getChapters(NovelSpiderUtil.getRelativeUrl(NovelSiteEnum novelSiteEnum, url))  获取一个爬取对应网站的章节的实体,并执行爬取任务( D: `$ t0 |2 @/ {* p3 t
ContentFactory.getContentSpider(NovelSiteEnum novelSiteEnum).getContent(NovelSpiderUtil.getRelativeUrl(NovelSiteEnum novelSiteEnum,url)) 获取一个爬取对应网站的内容的实体,并执行爬取任务
NovelDownloaderObserver observer = new NovelDownloaderObserver(url) 下载小说...0 _8 K8 L3 s: E! g3 P$ z

这三个都依赖于一个方法:NovelSpiderUtil.setRootPath(path) 该方法用来指定爬取规则的配置文件存放的路径,以及下载的小说存放在哪个文件夹下$ ^) s- F& k2 T% W# A4 {5 ^
该项目下有个测试类,可以参考一下使用方式:NovelSpiderTest.JAVA$ K" o9 v& S0 N# C7 R

第二个项目:novel.book.storage(用来爬取某个网站的所有书列表)-mybatis
唯一的难点就是指定好配置文件,以及配置好数据库的连接信息。config目录下还有一个sql文件,该文件用来创建数据库和表,没有库爬到的数据没地方存呀。
这个项目很简单,总共2个类+1个接口,就不细说了!
0 }  O) t7 f- j- I! x

第三个项目:novel (这是一个web站点)-spring,mybatis% A' j' }/ N6 `
稍微重要点的类是NovelController和NovelServiceImpl(写这个实现类的是才发现之前给自己挖的坑有多么的深,所以在spider项目里面多了一个抽象...)' V$ C. X  {/ F, |; v. x# P  X! A

稍微要注意的是,NovelServiceImpl中也调用了NovelSpiderUtil.setRootPath(path)方法来指定配置文件的位置。4 c, z5 H2 w$ u7 I3 Q8 M/ Y

下载地址:


作者: rover99x    时间: 2018-3-10 14:45
感谢提供教程




欢迎光临 吾爱编程 (http://www.52pg.net/) Powered by Discuz! X3.2