在使用火车采集器时经常会遇到这个符号,它是变量的通用符号,
如果我们只需要知道这个变量的变化规律,而不需要关心这个变量到底是什么,这时就可使用这个符号代替。
7.[参数]
用来匹配某项准备提取信息的标记标签,如想要在代码中提取组合出某种格式。
以从代码"mClk(this,'108484','134217', '168475','1');"中提取组合出新的地址格式为例。
"mClk(this,'[参数]','[参数]', '[参数]','1'); ",按照次序,108484参数就是参数1,依次类推。
实际需要的地址为以下的地址格式:bbs/read.php?id=[参数1]& sort=[参数3]&action=[参数2],
上面代码中的3个参数和下面地址中的id,soft和action参数要对应相应的值,
次序不要颠倒。这样就组合成了新的地址格式。
8.起始网址
用来获取下级链接地址的入口网址,可以为一条或多条,
可以通过添加起始网址向导添加同格式多条网址或导入文本网址。
如果没有定义多级网址的获取方法,这些地址即作为内容页网址进行内容采集。
9.多级网址
依次根据列表里面的多级网址顺序采集分析地址,通过依次采集分析到最后一级得到内容页地址。
多级网址的获取可以使用页面自动分析和手动获取的方法采集下级网址,
在采集的过程中,可以同时采集列表分页及提取列表页附加参数。
10.Cookie
是在Http请求访问中记录您的用户信息即登录信息的一段用于与服务器进行交互的字符串。
在浏览器中使用时通常还会以文本形式记录到您的IE缓存目录中,
以便下次在有效期内不用输入用户信息即可继续访问验证权限的网页。
11.User-Agent
浏览器标识,是用来向服务器通知您使用的客户端类型,
在某些需要登录的网页可能需要同时验证Cookie和User-Agent,
所以需要您将其设置为与本机浏览器同样的格式。
12.分页
列表或内容页面较长,分成多个页面显示,采集时需要将所有子页的内容组合起来,
这样的子页面就是分页(列表分页或内容分页)。
13.多页
有些情况下,需要采集一个页面对应的网址,图片等内容时,
需要另外打开一个新的页面才能采集到这些信息,这些另外打开的页面则称为多页。
14.网页编码
是在网页中指定其特定字符编码格式的库,例如一般在网页中都要有如下一句:
,
这样的字句指示此网页的字符集编码是GB2312。
火车采集器对一般的网页可以做到自动识别,
也罗列出了大部分的网页编码格式,可以直接在采集器中手动选择指定相应的编码格式。
15.代理
是指网络中的代理服务器,可以代理网络用户去取得所需要的网络信息。
代理的功能有可以突破自身ip的访问限制访问国外站点,
访问一些单位或团体内部资源,突破电信的ip封锁和隐藏真实的ip等。
16.插件
在火车采集器,插件是指可以对采集到的数据进行特定处理的一个外部程序,
编写好插件后,采集器可以把数据传递给插件,然后对数据进行处理,再把数据传给采集器。
(可自行开发,也可联系客服定制。)
17.Cron表达式
在火车采集器计划任务管理器的设置中,可以设置完整的cron表达式来表示对任务的计划执行。
它是一个由6或7个子表达式组成的字符串。每一个表达式代表一个域,
每个域描述了一个单独的日程细节且每个域之间使用空格分隔,它由两种格式组成。
Seconds Minutes Hours DayofMonth Month DayofWeek Year
Seconds Minutes Hours DayofMonth Month DayofWeek
一个Cron表达式至少有6或7个有空格分隔的时间元素,每个时间元素都使用数字,但还可以出现如下特殊字符,他们的含义分别表示:
1.Seconds 秒 (允许值为0-59,允许的特殊符号,- * /)
2.Minutes 分钟 (允许值为0-59,允许的特殊符号,- * /)
3.Hours 小时 (允许值为0-23,允许的特殊符号,- * /)
4.Day-of-Month 月中的天 (允许值为1-31,允许的特殊符号,- * / ? L W C)
5.Month 月 (允许值为1-12或者JAN-DEC,允许的特殊符号,- * /)
6.Day-of-Week 周中的天 (允许值为1-7或者SUN-SAT,允许的特殊符号,- * / ? L C #)
7.Year (optional field) 年(可选的域,允许值为留空或者1970-2099,允许的特殊符号,- * /)
特殊字符含义:
(1) * 表示该域的任意值。如在Minutes域使用,即表示每分钟都会触发事件。
(2) ? 只能用在DayofMonth和DayofWeek两个域。实际上不会匹配域的任意值,因为DayofMonth和DayofWeek会相互影响。如想在 每月的20日触发调度,不管20日是周几,则只能使用如下写法:13 13 15 20 * ?,其中最后一位只能用?,而不能用,如果使用*表示每月的20号15时13分13秒不管是周几都会触发,实际上不是的。
(3) – 表示范围,如在Minutes域中使用5-20,表示5到20分钟每分钟触发一次
(4) / 表示起始时间开始触发,然后每隔固定时间触发一次。如在Minutes域中使用5/20,表示从分钟数5开始每隔20分钟触发一次,结果25,45,05等分别触发一次。
(5) , 表示列出枚举值。如在Minutes域中使用5,20,则表示5分钟和20分钟每分钟触发一次。
(6) L 表示最后,只能出现在DayofMonth和DayofWeek域。
(7) W 表示有效工作日(周一到周五),只能出现在DayofMonth域中,系统将在离指定日期最近的有效工作日触发事件。另外,W的最近寻找不会跨过月份。
(8) # 用于确定每个月第几个星期几,只能出现在DayofMonth域中。如4#2表示某月的第二个星期四。
完整的corn表达式如0 15 08 ? * MON-FRI 表示每周一到周五的早上8点15分开始定时更新数据。