全球主机交流论坛

标题: 500金币求高手破译汽车之家防采集方法 用火车头采集 [打印本页]

作者: lsza    时间: 2017-4-1 17:24
标题: 500金币求高手破译汽车之家防采集方法 用火车头采集
本帖最后由 lsza 于 2017-4-1 17:26 编辑

求的是采集规则
已知替换文字是使用
  1. background-image:url(data:image/png;base64,iVBORw0KGgoAAAANSUhEUgAAAm0AAAAUCAYAAADfuQqeAAAAAXNSR0IArs4c6QAAAARnQU1BAACxjwv8YQUAAAAJcEhZcwAADsMAAA7DAcdvYII=);}
复制代码

实现的
示例页面:
http://club.autohome.com.cn/bbs/thread-c-4352-61355762-1.html

采集内容不能采集完全

示例内容:
  1. 开车时候看那街道点缀彩灯热闹商场里回荡欢快节日歌声新年节日气氛正在街巷弥漫此时真想来场全家途旅行或聚餐享受天伦之乐与家人共度佳节最惬意这款车时尚贴心级家庭用车有温暖舒适乘坐体验宽敞灵活空间设计周到安全配置充分满足我们家庭用车需求
复制代码


正确内容:
  1. 开车的时候,看着那街道上点缀着五彩小灯,热闹的商场里回荡着欢快的节日歌声,新年的节日气氛正在大街小巷弥漫,此时真想来一场全家短途旅行,或是聚餐享受天伦之乐,与家人共度佳节最是惬意。这款车是时尚贴心的高级家庭用车,有着温暖舒适的乘坐体验、宽敞灵活的空间设计、周到的安全配置,充分满足我们家庭用车需求。
复制代码


如果嫌金币太少 可软妹币商议
作者: sunny_SHEN    时间: 2017-4-1 17:41
着,的,是!
什么鬼
作者: 一路上有梨    时间: 2017-4-1 17:42
提示: 作者被禁止或删除 内容自动屏蔽
作者: Gh0st    时间: 2017-4-1 17:44
骗子,明明是535金币
作者: 一路上有梨    时间: 2017-4-1 17:45
提示: 作者被禁止或删除 内容自动屏蔽
作者: eatdao    时间: 2017-4-1 17:50
本帖最后由 eatdao 于 2017-4-1 17:51 编辑

很多的常见字都做成了图片,采集后,要替换。
做是可以做,但是很麻烦

比如,“的”这个字,他是用 “<span class='hs_kw0_mainpl'></span>”来代替的,你采集后,再替换过来。
你要做的是把所有的常见字的替换规则找到。
工作量比较大哦。
作者: 日后再说    时间: 2017-4-1 18:00
做规则替换即可。
比如:<span class="hs_kw1_mainpl"></span> 代表的是,
找到规则
作者: lsza    时间: 2017-4-1 18:01
eatdao 发表于 2017-4-1 17:50
很多的常见字都做成了图片,采集后,要替换。
做是可以做,但是很麻烦

多点开几个帖子 仔细看看,他这个<span class='hs_kw0_mainpl'></span>替换的文字是随即的 不是固定值...
作者: allnetstore    时间: 2017-4-1 18:07
有钱就买下来
没钱就反代
作者: cdwyd    时间: 2017-4-1 18:18
可以采集到完整内容,如果需要可联系QQ。
作者: cdwyd    时间: 2017-4-1 18:20
补充下,是用python破解了加密过程,可能火车头没法用,另外价格上可能超出了你现有的预算,因为破解工作量挺大的
作者: eatdao    时间: 2017-4-1 19:06
lsza 发表于 2017-4-1 18:01
多点开几个帖子 仔细看看,他这个替换的文字是随即的 不是固定值... ...

应该不是真随机,或者应该有相通的地方。
否则css是灾难。
作者: cdwyd    时间: 2017-4-1 19:30
eatdao 发表于 2017-4-1 19:06
应该不是真随机,或者应该有相通的地方。
否则css是灾难。

负责人的告诉你真随机
作者: 天九    时间: 2017-4-1 19:41
5万分有可能有人帮你。
作者: eatdao    时间: 2017-4-1 19:52
cdwyd 发表于 2017-4-1 19:30
负责人的告诉你真随机


我整理了几个,数据量太小,还无法判断

<span class='hs_kw5_mainxM'></span>
<span class='hs_kw0_mainxq'></span>
<span class='hs_kw2_mainNT'></span>
<span class='hs_kw0_maincZ'></span>


<span class='hs_kw4_mainNT'></span>
<span class="hs_kw3_mainxq"></span>


<span class='hs_kw1_maincZ'></span>


<span class="hs_kw4_maincZ"></span>
<span class="hs_kw1_mainxq"></span>


<span class="hs_kw6_maincZ"></span>
<span class="hs_kw10_mainxq"></span>


<span class="hs_kw2_mainxq"></span>


<span class="hs_kw9_mainxq"></span>


你可以多整理一些,看看有没有字不同,但是class 是相同的,
或者看看有没有不同文章,同一个字,class是相同的。
作者: cdwyd    时间: 2017-4-1 20:06
eatdao 发表于 2017-4-1 19:52
我整理了几个,数据量太小,还无法判断

css变量名每个页面随机,加密的js代码中变量随机,函数随机,逻辑结构也随机。




欢迎光临 全球主机交流论坛 (https://hostloc-workers.ikyomon.com/) Powered by Discuz! X3.4