根据大家的反应 我们原始版本的目录站群采集的文章都是一个目标站的,用的人太多了 造成了 采集回来的文章 重复率太高  收录比较困难 上权重到权重

3以后非常之难!本软件开发的目的 就是为了目录站群 包含(独立目录站群)等等 现在百度针对内容文章的要求越来越高! 一篇好的文章可以马上收录 立即有排名!所以我们要以文章为主来发展我们的目录站群。

原创_文章采集软件_伪原创+繁体转换+ASCII插入_配合目录站群的神器 图1

软件介绍:
本软件的采集原理是根据 “织梦采集规则设计”如果你懂织梦采集规则的话 添加采集规则很简单。
1.自定义采集目标站!填写相关的采集标签
2.保存采集规则到软件下
3.设置 相关伪原创等操作和每次采集的数量
4.填写文章保存到哪个目录【重点如果用在目录站群 一定吧文章保存目录选择 目录站群 的caiji文件夹下的booy 文件里面】
5.采集完成访问自定网址【重点这个访问填写你的sheng.php链接 也就是我们以前说的要刷流量的链接 例如www.xunso.net/sheng.php
不懂的多看看视频教程 好好研究下
记住在自己电脑上 写规则 然后在把规则传到服务器软件下 直接使用  软件可以在服务器上面挂机一直采集

rule 这个文件是保存和存放采集规则的
--------------------------------------------------------------------------------

(一)  列表规则
模式:
1、  文本导入  把待采集的列表页网址文本导入即可,每条网址一行。Txt 记事本一行一条 采集列表链接

2、  手动复制,适合少量列表页地址,直接把地址复制进入编辑框即可,一条一行。
3、  自定义规则。设置好匹配规则和页数范围,会自动生成。
规则例子:https://www.xingzuo360.cn/chuantongjieri/jizaojie/p{页数}.html。
     数据范围设置:
      这个设置主要提高取出文章链接的解析速度。一般列表页的所有文章链接会在一个ul中循环,设置了这个ul前后的关键代码数据后,软件会直接取出有效的文章链接数据,提高后续处理速度。
http://www.antimonopolylaw.org/youshi/list_21_5.html


(二)  文章链接规则
文章网址规则:<a href="{文章链接}"   找到列表页要取出的文章链接,用{文章链接}标签标示即可。
网址组合规则:针对有些链接不是完整的带http或https的,可以用此规则处理。例子:https:{文章链接}。这个处理结果是对取出的文章链接前面+https。根据需要运用即可。
网址必须含有/必须没有:针对采集的网址做判断,有效快速过滤无效数据。
多页链接规则:有的网站文章是多页,需要配置此项。一般例子:{文章链接}?page={页数}。
页码匹配规则:配合多页链接规则。找到文章的页码代码,用标签{页数}代替即可。一般例子:<span class="pc">{页数}</span>。注意此处取出的是最大页数。

(三)  文章内容规则
编码方式:右键网页,查看源代码即可查看。
标题规则:<h1 class="dc_title">{标题}</h1>
内容规则:<div id="xz360ArticleContent"class="dc_article_content">{内容}</div>
过滤规则:可以添加内置的过滤。也可以自定义过滤掉一些不需要的文本。
替换规则:自定义替换到文章内的指定内容。例子:星座-星象
(四)  采集配置
同义词替换:内置同义词文本,在目录tyc\tyc.txt下,可以自行添加完善修改。
简体转换繁体,插入ascii ,按需勾选即可。
循环间隔:单位分钟,不设置,则只执行一次。
数量限制:采集到指定数量停止运行。不设置则直到所有链接采集完毕。
保存目录:设置采集文章的保存路径。
完成访问:采集完成访问指定连接。一行一条即可。
PS:所有规则,配置完后,命名保存,存放位置:rule\规则名.ini。后续如需使用,直接读入已有规则即可。如果需要修改,读入后,修改保存即可。
标签:{页数} {文章链接}  {标题} {内容}

-----------------------------------------------------------------------
下载链接:包含视频