个人登录
数狐在线-做最好的在线学习社区java c# liferay jsp
资源名: 2017版头条号文章采集软件!
所需要积分
0
版本号
可见码
私有
文档类型
效率工具
资源类型
JAVA
提供者
数狐在线
2017
4
22
资源介绍


使用方法:

 一,点击初始化按钮,在那本地进行目录结构建立



第二步  把需要下载的文件地址放到URLS.txt文件里

这个文件存放到 C盘 nn目录下就可以了
里面的内容也很简单,例如:
http://www.toutiao.com/c/user/1841887729/#mid=5770189116
http://www.toutiao.com/c/user/50037120070/#mid=50115158725

就是放上需要采集的作者专栏地址

步骤三,点击菜单条上的 【头条号】菜单,会出现个对话窗口


先点 【下一页】 会出现一个头条号的专栏地址,填到上面的文本框里,然后开始点【访问】 专栏地址,会显示到主窗口里,你可以向下拖动下,因为头条号的文章,需要拉滚动条,才能显示的更多。
当你感觉差不多了展示的内容。

步骤四,保存文章



然后重复执行 步骤三与步骤四,直到当你点击【下一页】的时候提示你文件已经下载完毕为止!
这时候你会在c: nlog里看到已经保存好的文件,后面我们会对这些文件进行解析!

这里的思路就是,先下载完,再解析,解析的步骤如下:

A,登录






B,选择解析模版

这个软件的运行原理是,你需要先制定解析规则,就是如何分离出标题等内容。
当你登录成功后,需要再次点击下登录按钮,你就会看到模版了 ,你需要选择





选择第一篇文章,模板文件,单击后,会展示模版的细节,这个模板本身不用管,我已经配置好了。

C,分析解析模版



点击【解析模版】按钮,程序执行后,会告诉你解析完成!

D,设置需要采集的文章数目和间隔时间



这里的重点是,需要分别按文件数,和间隔秒 两个按钮,千万别忘记了一个没按,文件数和
间隔时间,主要是文件数,比如前面你下载了10个文件,这里最大设置为不能超过10.

E,开始启动采集

点击前面的【解析数据】按钮 解析完成后 点击【导出数据】按钮,你去目录c: n outiao里就会
看到采集后的最后结果,是个TXT文件,final.txt 你可以把该文件导入到EXCEL文件,进行分析。









下载地址1
链接: http://pan.baidu.com/s/1kVwUut5 密码: nvkr
下载地址2
链接: http://pan.baidu.com/s/1kVwUut5 密码: nvkr
下载地址3
链接: http://pan.baidu.com/s/1kVwUut5 密码: nvkr
下载地址4
链接: http://pan.baidu.com/s/1kVwUut5 密码: nvkr
试看地址1
链接: http://pan.baidu.com/s/1kVwUut5 密码: nvkr
试看地址2
链接: http://pan.baidu.com/s/1kVwUut5 密码: nvkr
试看地址3
链接: http://pan.baidu.com/s/1kVwUut5 密码: nvkr
试看地址4
链接: http://pan.baidu.com/s/1kVwUut5 密码: nvkr
图片地址1
图片地址2
图片地址3
图片地址4
合作企业