qidian8 发表于 2024-11-11 14:21
可以尝试使用Headless Chrome或Puppeteer来抓取动态生成的内容。
vikin 发表于 2024-11-11 14:35
这种动态的网页 我之前研究了很久你百度下:
ChromeDriver抓取动态网页
kpxyyyy 发表于 2024-11-11 14:43
做爬虫要先分析网页的结构,而不是直接就写请求,现在的网站很多都是前后端分离动态加载。 ...
kof21411 发表于 2024-11-11 14:50
你可以直接curl他的接口api拿内容
imdong 发表于 2024-11-11 15:06
你要获取页面内容不需要输出响应头信息
把这段curl_setopt($ch, CURLOPT_HEADER, $header); 改成curl_setop ...
zhughe 发表于 2024-11-11 15:16
python + playwright 轻松搞定,php只能通过浏览器分析接口,直接抓接口
imdong 发表于 2024-11-11 15:06
你要获取页面内容不需要输出响应头信息
把这段curl_setopt($ch, CURLOPT_HEADER, $header); 改成curl_setop ...
看不到内容跳转了,但是一直在转圈圈了,代码没办法进入下一步kpxyyyy 发表于 2024-11-11 16:36
其实php也有querylist
唐王李世民 发表于 2024-11-11 16:43
看不到内容跳转了,但是一直在转圈圈了,代码没办法进入下一步
imdong 发表于 2024-11-11 21:16
设置cookie
头信息下只需要设置UA,cookie 设置一个ttwid参数值随机数
kpxyyyy 发表于 2024-11-12 12:22
说实话,整贴下来也没看到你到底要取什么内容,取网页代码平常的请求就能拉,取数据爬人家接口就行了. ...
似毛非毛 发表于 2024-11-12 12:35
。。。你这刚学爬虫就爬淘宝么?哪有新手村出来就打boss的。爬点简单的吧
大佬哪里看到我是爬淘宝?

唐王李世民 发表于 2024-11-12 09:04
谢谢您的回复,我试一试

imdong 发表于 2024-11-12 13:36
只需要设置UA和Cookie ttwid参数就行
imdong 发表于 2024-11-12 13:36
只需要设置UA和Cookie ttwid参数就行
kpxyyyy 发表于 2024-11-13 01:25
我测这个玩意老被cdn的反爬虫拦截,还是用浏览器爬舒服
imdong 发表于 2024-11-13 09:28
用浏览器需要等到页面加载完,速度上会慢些,所以没有触发机制
自动化和脚本个有利弊 ...
陶泥猴子 发表于 2024-11-13 12:39
新人建议用浏览器爬, 大厂的反爬还是有点难度的
唐王李世民 发表于 2024-11-13 12:44
我是放在系统后台的,没办法用浏览器
唐王李世民 发表于 2024-11-13 12:56
那个对资源影响太大了。
| 欢迎光临 全球主机交流论坛 (https://sunk.eu.org/) | Powered by Discuz! X3.4 |