其他编程

    今日:1948| 主题:307
收藏本版 (8)
发表新帖

[百度网盘]完整的小说站点爬虫-spring-mybatis-jsoup-http-client

[复制链接]
admin 发表于 2018-3-7 10:34:35
3511 1
课程内容:7 t6 I& G: B# I& i: V/ X( U7 l7 n
迷小说的站友们有福利啦,大的小说平台收费很吓人,wap端小说站小广告实在是不堪忍受。所以这是一个没有任何广告的自己的小说站点,想看什么看什么。2 ^* \! d3 N4 `" q


介绍一下如何运行这(几)个项目:
第一个项目:novel.spider(姑且叫他为spider吧)-jsoup,http-client. y* r8 k# X; Z9 X2 ?
提供了三个最为底层的方法:  j. D1 s, Y; j! {
ChapterFactory.getChapterSpider(NovelSiteEnum novelSiteEnum).getChapters(NovelSpiderUtil.getRelativeUrl(NovelSiteEnum novelSiteEnum, url))  获取一个爬取对应网站的章节的实体,并执行爬取任务( D: `$ t0 |2 @/ {* p3 t
ContentFactory.getContentSpider(NovelSiteEnum novelSiteEnum).getContent(NovelSpiderUtil.getRelativeUrl(NovelSiteEnum novelSiteEnum,url)) 获取一个爬取对应网站的内容的实体,并执行爬取任务
NovelDownloaderObserver observer = new NovelDownloaderObserver(url) 下载小说...0 _8 K8 L3 s: E! g3 P$ z

这三个都依赖于一个方法:NovelSpiderUtil.setRootPath(path) 该方法用来指定爬取规则的配置文件存放的路径,以及下载的小说存放在哪个文件夹下$ ^) s- F& k2 T% W# A4 {5 ^
该项目下有个测试类,可以参考一下使用方式:NovelSpiderTest.JAVA$ K" o9 v& S0 N# C7 R

第二个项目:novel.book.storage(用来爬取某个网站的所有书列表)-mybatis
唯一的难点就是指定好配置文件,以及配置好数据库的连接信息。config目录下还有一个sql文件,该文件用来创建数据库和表,没有库爬到的数据没地方存呀。
这个项目很简单,总共2个类+1个接口,就不细说了!
0 }  O) t7 f- j- I! x

第三个项目:novel (这是一个web站点)-spring,mybatis% A' j' }/ N6 `
稍微重要点的类是NovelController和NovelServiceImpl(写这个实现类的是才发现之前给自己挖的坑有多么的深,所以在spider项目里面多了一个抽象...)' V$ C. X  {/ F, |; v. x# P  X! A

稍微要注意的是,NovelServiceImpl中也调用了NovelSpiderUtil.setRootPath(path)方法来指定配置文件的位置。4 c, z5 H2 w$ u7 I3 Q8 M/ Y

下载地址:
游客,如果您要查看本帖隐藏内容请回复





上一篇:陶荣祺比特币的经济解释比特币入门与投资音频教程
下一篇:BIM工程师零基础速成班(视频+直播+答疑+证书)(价值1680元)
回复

使用道具 举报

rover99x 发表于 2018-3-10 14:45:24
感谢提供教程
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

返回顶部 返回列表

平台简介

吾爱编程网:http://www.52pg.net/是IT技能学习交流平台,我们提供了丰富的移动端开发、php开发、web前端开发、android开发、Java开发、Python开发、大数据开发、区块链开发、人工智能开发以及html5等大量的实战视频教程资源。(如果我们有侵犯了您权益的资源请联系我们删除)

点击这里给我发消息|Archiver|手机版|小黑屋|站点地图|吾爱编程  |网站地图

Powered by Discuz! X3.2??? 2017-2020 Comsenz Inc.??吾爱编程网