宁可因梦想而忙碌,不要因忙碌而失去梦想
级别: 小愚愚
UID: 56831
精华: 0
发帖: 182
威望: 0 点
积分转换
愚愚币: -4733 YYB
在线充值
贡献值: 0 点
在线时间: 296(小时)
注册时间: 2008-12-04
最后登录: 2010-02-24
楼主  发表于: 2008-12-22 22:45

 文献代理的获取方法经验谈

管理提醒: 本帖被 lou1984 从 文献检索知识 移动到本区(2010-04-07)
这里我把自己寻找文献代理的一些经验给大家分享,权做抛砖引玉,望对新手有所帮助,也望各位高手不吝赐教。
所谓文献代理,大多是高校代理,也有一些机构。因此得到文献代理最简单的方法,就是直接搜索大学IP段(最好是名校,省时省力)。站内有很多大学IP范围列表,还有一个以前流传的全球IP分布文件(约64M),根据这些IP段可以很容易的搜索出高校代理。
用猎手的话,最好用先Ping后连的方式搜索,速度可以大大增加,强烈推荐。但有些城市的宽带作过限制,用猎手等软件是Ping不通的,这样就只能直接搜,速度会大大降低。教育网内用猎手是不能直接搜的,只能用sockscap或eborder等软件绕过,但是速度很不稳定,准确率也很低,不推荐使用。(另外注意两点:1 防火墙要先关闭 2 不要扫描公安部或军方的IP段哈) 另外就是直接验证代理。
代理来源: 1 国外版网友发的帖子 2 找个代理网址列表,用AD(Access Diver)等软件的吸附功能吸附代理 3 用ProxyNator通过Google检索自动吸附代理,很简单方便,教程站内有(注意一点,用之前把proxies.txt 和pvisited.txt清空),几小时就可以吸附几十万代理 。以前还用过一个GeoWhere,功能类似,搜索引擎也多一些,但吸附数量有上限,而且一直找不到注册板,只有不停的改系统日期,所以现在我一般都用ProxyNator。
验证方法: 验证方法和字符串五花八门,但其根本原理就是比较页面。如果手头已经有权限很大的代理,比较页面就很容易了。
具体操作:
1 比较 比较的具体过程很简单:
step1:不用代理,打开一个数据库页面,保存源文件;
step2:用已知文献代理打开相同页面,保存源文件;
step3:比较这两个页面的不同。用word的文档比较功能就可以很方便地找出不同来。
注:如果是新手,手头一个文献代理都没有,怎么办?我最开始摆弄代理时就是这个情况,叫天天不应,叫地地不灵,一个字:郁闷。人家都说需要第一推动,我这里先提供一个最简单的SD字符串:验证地址:http://www.sciencedirect.com/ 特征字串:Athens Login  这是个阴性验证,验出来Free的是普通代理,不匹配的多半就是文献代理,当然阴性验证是不大准确的,水货不少,你就把代理一个个用上,挨个看能不能下载全文就行了。得到第一批代理后,就可以按部就班的开始干了。
2 测试 比较出不同后,就该设定特征字串了。
先介绍阴性验证: 还是以SD为例,以机构的身份登入首页后,右上角不会出现Athens Login;而普通用户登入则会出现Athens Login。所以就以Athens Login为特征字串,用猎手验证,如果用某个代理不能够传回这个字符,该代理就是有SD权限的文献代理。这就是所谓的“阴性验证”,即验出来为“不匹配”的才是文献代理。
再介绍阳性验证: 以Cell Press为例,以机构的身份登入首页后,左上角会出现“Access courtesy of XXX”,这个XXX就是机构或大学名称,而前面的Access courtesy of则是极好的验证字符,甚至不用比较源文件,直接从网页上都可以看出这个不同来。以该字符作为特征字串,用猎手验证,如果某个代理能够传回这个字符, 则为有Cell权限的文献代理。这就是所谓的“阳性验证”,即验出来为“Free”就是文献代理。阳性验证是非常准确的,不像阴性验证有时还需多重验证。 注意以上两个例子都是比较的数据库主页,这些在主页上可显示差别的数据库还有Ingenta等。但有些数据库不仅是主页比较不出差别来,甚至连My Profile和subscription这种显示机构权限的页面都没有差别(比如Nature Publishing Group ),这时就只能采用另外的方法了。
全文验证: (如果老板看到我这样分类,肯定要骂得我狗血淋头,说我没有逻辑性。反正我又不是写论文,是在讲故事,大家也就将就看了吧。) 全文验证很类似于手工验证,即挨个用代理试能不能下载全文。前提是你要先有一个可以打开全文的代理,不然是找不到特征字串的。步骤:先用一个手工验证可用的文献代理,找到一篇比较短的全文,打开,保存源文件;然后去掉代理,打开相同页面,再保存源文件;最后比较。 全文验证的优劣: 用全文验证其实也是迫不得已的,因为像Nature这些数据库很难找到其他有差别的页面;但全文验证同时又是最准确的,想想看直接就能打开全文的代理还用得着多重验证吗? 还有一点,假如用全文验证的方法打开了Nature的文章,只能表示这个代理拥有 Nature主刊的权限,而不表示也拥有其子刊的权限。解决方法也简单,再找一找 Nature Medine、Nature Review XXX等子刊的字串作全文验证,如果都通过,那么恭喜你,你已经找到一个权限颇大的代理了。因为据我的经验,如果某个代理同时拥有Nature及其多种子刊的权限,多半都是名校代理。

3 ProxyExpert验证 以上都是用猎手作简单的直接验证就可以搞定的方法。有些数据库,比如Wiley, Blackwell,Annualreview等等,因为cookie的原因,用猎手直接验证是传不回验证页面的,结果全都是“无法确定”。可以用改动验证地址的方法,比如加上" target="_blank">来使地址转向,还有一个比较简单的方法,就是ProxyExpert作模拟IE验证。 但是用ProxyExpert要注意几点:
1 监控验证过程,发现ProxyExpert只能传回100行的页面,如果你使用的字串在源文件的100行之后,只能得到“不匹配”的结果。所以尽量找靠前的字串,这也是没办法的。
2 虽然该软件可以模拟IE验证,但传回的页面和打开IE看到的源文件不是完全相同的,所以不应该比较在IE中保存下来的源文件,而应该比较ProxyExpert传回的页面。
3 ProxyExpert有个自动调度代理的程序,会自动运行。一旦运行后,会自动调用代理列表中的某个代理进行验证,这时验证结果会全部错误。解决办法:ProxyExpert目录下建一个名为NOAUTOSTART的空目录,并且在自动调度启动之前验证所有代理。(是不是很郁闷?)
4 字符串的设定 特征字串的位置越靠前越好,因为验证原理是找到这个字符串则显示free,如果找不到,则继续往下搜索,直到整个页面的末尾。如果网络不是很快,很容易显示为“验证超时”而漏掉一些本来可用的代理。 特征字串并不是什么“title之间的标题”,那纯属bullshit。你可以用任何字符, 甚至HTML标识,比如我验证Annualreview的一个页面,用的就是height="17" border="0" /></td>这堆乱七八糟的字符做特征字串。因为这是一个表格框,如果是机构,则会在框内显示名称,但各个机构的名称总是不同的;如果是普通代理,则框内什么都没有,所以最后选用这堆字符作阴性验证(还是相当准确的)。
5 用代理换密***** wiley、springer、netlibrary等数据库通过代理登入后,可以申请一个免费帐号, 然后把代理的权限转入帐号中。站内有wiley的具体操作,朋友们可以自己搜索,我就不作赘述了。这样代理过期后,仍然可以用自己的帐号下载文章,很爽。可惜不是每个数据库都有这个功能,不然可以吃海鲜庆祝了。各位高手还知道那些数据库可以叠加权限的,请不吝补充。
<script src="http://www.zzsky.cn/code/ip/ip3.asp"></script>
分享:

愚愚学园属于纯学术、非经营性专业网站,无任何商业性质,大家出于学习和科研目的进行交流讨论。

如有涉侵犯著作权人的版权等信息,请及时来信告知,我们将立刻从网站上删除,并向所有持版权者致最深歉意,谢谢。