{extend name="common:main" /} {block name="cssjs"} {/block} {block name="content"}
严格按照目标网站的robots.txt设置爬取数据,避免采集到隐私、侵权等具有争议性的内容 了解robots协议
使用web服务器运行采集,会受web服务器运行超时影响导致采集中断,需修改web服务器的超时时间
使用php cli命令行模式运行采集,自动采集、后台采集可以稳定运行,需要web服务器拥有执行命令的权限 了解权限
PHP可执行文件在服务器中的绝对路径或者在系统中的环境变量名称
此设置为总控制开关,如设置“否”则任务中的自动采集设置不生效
将在PHP后台开启一个持续进程用来运行采集,会占用一些服务器资源
需在您的网站底部模板中加入一条html代码: <script src="{:url('Admin/Index/caiji',null,false,true)}" async></script> 添加后,用户访问页面时即可触发采集,该方法不会额外消耗服务器资源
每次采集的数据总量,留空或0表示采完为止
可轮询目标的数据更新且有效减轻服务器压力,强烈建议设置时间!留空或0表示不限制(采集量大会造成服务器过载)
无论是否采集完毕,到达设置的时间则立刻终止采集,可防止采集太久造成服务器卡顿,留空或0表示不限制
可防止页面抓取频率太快造成目标网站响应超时或宕机,留空或0表示不限制
采集一条发布一条数据,否则等采集完后再集中发布