全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 1985|回复: 37
打印 上一主题 下一主题

[疑问] 求助一个PHP Curl网页源码动态的问题

[复制链接]
跳转到指定楼层
1#
发表于 2024-11-11 13:46:43 | 只看该作者 回帖奖励 |正序浏览 |阅读模式
先道声谢谢了。

视频演示:https://thumbsnap.com/qkDgKM5o

网址信息:https://www.toutiao.com/video/7418557232318513703/

我使用PHP的url获取一个网页的时候,它的网页内容一直在跳动,不能获取完整,我知道可能是使用了js动态创建的,但有技术或方法可以获取完整的内容吗?谢谢了

  1. /*
  2. *  今日头条video页面的文件头
  3. **/
  4. function toutiao_html_header($url)
  5. {
  6.     $header = array(
  7.         "Host: https://www.toutiao.com",
  8.         "Referer: {$url}",
  9.         "set-cookie: tt_webid=7421001700129736202; path=/; expires=Sun, 09 Feb 2025 04:22:07 GMT; domain=toutiao.com; secure; httponly",
  10.         'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
  11.         'Accept-Language:zh-CN,zh;q=0.9,en;q=0.8',
  12.         'cookie: ******************************************************************************',
  13.         "User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36",
  14.     );
  15.     return $header;
  16. }

  17. /**
  18. * 模拟浏览器开始访问请求,这个用于今日头条视频的页面内容获取
  19. */
  20. function fetch_toutiao_video_html($url)
  21. {
  22.     $header = toutiao_html_header($url);
  23.     $timeout = 40;
  24.     $ch = curl_init($url);
  25.     curl_setopt($ch, CURLOPT_FAILONERROR, true);
  26.     //设置请求头信息
  27.     #curl_setopt($ch, CURLOPT_HTTPHEADER, $header);
  28.     curl_setopt($ch, CURLOPT_HEADER, $header);
  29.     //不取得返回头信息
  30.     #curl_setopt($ch, CURLOPT_HEADER, 0);
  31.     // 关闭https验证
  32.     curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);
  33.     curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);
  34.     curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
  35.     curl_setopt($ch, CURLOPT_ENCODING, "");
  36.     curl_setopt($ch, CURLOPT_RETURNTRANSFER, false);
  37.     curl_setopt($ch, CURLOPT_AUTOREFERER, true);
  38.     curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
  39.     curl_setopt($ch, CURLOPT_TIMEOUT, $timeout);
  40.     curl_setopt($ch, CURLOPT_REFERER, $header[1]);
  41.     curl_setopt($ch, CURLOPT_MAXREDIRS, 10);
  42.     curl_setopt($ch, CURLOPT_USERAGENT, $header[6]);
  43.     $content = curl_exec($ch);
  44.     if (curl_errno($ch)) {
  45.         echo 'Error:' . curl_error($ch);
  46.     } else {
  47.         return $content;
  48.     }
  49.     curl_close($ch);
  50. }
复制代码
推荐
 楼主| 发表于 2024-11-11 14:13:30 | 只看该作者
我查了网络上,有几个同样的问题

1、https://wenku.csdn.net/answer/e12d12f453044ecf8d2a3959ec080971

2、https://cloud.tencent.com/developer/ask/sof/104711852/answer/114173132

3、https://cloud.tencent.com/developer/ask/sof/100838855

我不太明白他们回复的方法,请教各位大佬们了,谢谢了
38#
 楼主| 发表于 2024-11-14 19:36:43 | 只看该作者
问题解决了,感谢所有回复的大佬们,特别感谢 @imdong 这个大佬指点下解决问题了
37#
发表于 2024-11-14 12:21:00 | 只看该作者
抓包抓一下接口
36#
发表于 2024-11-13 17:09:44 | 只看该作者
唐王李世民 发表于 2024-11-13 12:56
那个对资源影响太大了。

你想速度快又想不占资源还不想费劲,哪有这种好事。
35#
 楼主| 发表于 2024-11-13 12:56:19 | 只看该作者
那个对资源影响太大了。
34#
发表于 2024-11-13 12:47:16 | 只看该作者
唐王李世民 发表于 2024-11-13 12:44
我是放在系统后台的,没办法用浏览器

不需要实装浏览器,浏览器可以在后台跑,就是执行时间不太快。
33#
 楼主| 发表于 2024-11-13 12:44:16 | 只看该作者
陶泥猴子 发表于 2024-11-13 12:39
新人建议用浏览器爬, 大厂的反爬还是有点难度的

我是放在系统后台的,没办法用浏览器
32#
 楼主| 发表于 2024-11-13 12:43:12 | 只看该作者

谢谢您的回复,toutiao的问题解决了,但是又有新问题了
31#
发表于 2024-11-13 12:39:22 | 只看该作者
新人建议用浏览器爬, 大厂的反爬还是有点难度的
30#
发表于 2024-11-13 11:54:47 | 只看该作者
imdong 发表于 2024-11-13 09:28
用浏览器需要等到页面加载完,速度上会慢些,所以没有触发机制
自动化和脚本个有利弊 ...

要是有个能够模拟执行需要浏览器的js但又不是浏览器的玩意就好了
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2025-10-30 07:43 , Processed in 0.069157 second(s), 11 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表