全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 844|回复: 11
打印 上一主题 下一主题

火车头的大佬了? 一包烟钱,帮忙写一下西瓜视频的分页

[复制链接]
跳转到指定楼层
1#
发表于 2020-9-29 21:03:13 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 改过自新 于 2020-9-29 21:49 编辑

如这个地址:https://www.ixigua.com/home/1508145346906638/video/?subtype=played&notea=true

如何用火车头拼接出多页地址,一包烟钱30不成敬意,要告诉我原理哈。


第一个回复的大佬得,pm我留下qq或wx,我加你发红包。谢谢


自己解决了,谢谢各位大佬。
推荐
发表于 2020-9-30 09:46:53 | 只看该作者
本帖最后由 yjsx86 于 2020-9-30 09:48 编辑

你给的网站 我爬取试过, _signature的生成看下图(一个图我就不上图床了)
1.jpg (14.71 KB, 下载次数: 0)
代码在js文件里 https://sf1-ttcdn-tos.pstatp.com/obj/rc-web-sdk/acrawler.js
在window对象上挂载了方法 byted_acrawler.sign()
我用python复现js代码, 简单的我可以, 这个我不行
后来我把acrawler.js下载下来用python运行 可以分页爬取了, 但是由于方法是挂载到window上的, 所以本机需要安装nodejs和jsdom
想着你要火车头的规则, 这个明显不行

一般来说移动端网页要比pc端好爬, 这个也不意外
我就直接给你答案了
首页:
https://m.ixigua.com/video/app/user/home/?to_user_id=1508145346906638&format=json&subtype=played&notea=true
返回的json数据, 在data里面的最后一条数据里找到 behot_time (本例为 behot_time: 1594618959)
构造下一页的网址:
https://m.ixigua.com/video/app/user/home/?to_user_id=1508145346906638&format=json&subtype=played&notea=true&max_behot_time=1594618959

至于需不需要cookie或者user-agent或者referrer这些你自己去尝试了
2#
发表于 2020-9-29 21:03:55 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
3#
发表于 2020-9-29 21:13:18 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
4#
发表于 2020-9-29 21:24:51 | 只看该作者
如果没看错的话,下一页 &format=json&max_behot_time=1594618959 中 max_behot_time的意思是获取这段时间之前的一页,只要取每一页的最后一条发布时间戳,当下一页的时间参数应该就可以
5#
 楼主| 发表于 2020-9-29 22:39:03 | 只看该作者

被喷? 菜鸡一个都不想给你解释太多,就问你知道头条的加密吗?
6#
发表于 2020-9-29 22:41:59 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
7#
发表于 2020-9-29 22:43:06 | 只看该作者
需要有referer
  1. https://www.ixigua.com/api/videov2/author/hot_video_list?_signature=_02B4Z6wo00f010rL2HgAAIBD8g2mJBSAYvdKytzAAI3Kba&author_id=1508145346906638&type=video&offset=0&limit=30

  2. https://www.ixigua.com/api/videov2/author/hot_video_list?_signature=_02B4Z6wo00f010rL2HgAAIBD8g2mJBSAYvdKytzAAI3Kba&author_id=1508145346906638&type=video&offset=30&limit=30

  3. https://www.ixigua.com/api/videov2/author/hot_video_list?_signature=_02B4Z6wo00f010rL2HgAAIBD8g2mJBSAYvdKytzAAI3Kba&author_id=1508145346906638&type=video&offset=60&limit=30
复制代码
8#
 楼主| 发表于 2020-9-29 22:49:25 | 只看该作者

这个很容易。
是signature的算法解不出来
9#
发表于 2020-9-29 23:53:13 | 只看该作者
lz是不是要用这个做坏事
10#
发表于 2020-9-30 00:22:38 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2026-1-14 07:25 , Processed in 0.075829 second(s), 12 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表