全球主机交流论坛
标题:
爬个数据就挂掉一个网站
[打印本页]
作者:
三一土白
时间:
2018-1-14 00:17
标题:
爬个数据就挂掉一个网站
我一直使用python的requests爬取数据,有个网站的数据单线程,5分钟可以爬完.
刚才用了nodejs的request库, 从启动任务到结束10秒钟结束,以为自己眼瞎, 但是数据确实下载成功了.
然后那个网站离线了.
从来不知道nodejs这么牛叉.
作者:
jarvan
时间:
2018-1-14 00:18
不太懂爬虫,能科普下吗,主要爬去什么数据?
作者:
wfion
时间:
2018-1-14 00:19
提示:
作者被禁止或删除 内容自动屏蔽
作者:
风铃
时间:
2018-1-14 00:20
这说明
python垃圾, js牛逼
作者:
三一土白
时间:
2018-1-14 00:20
jarvan 发表于 2018-1-14 00:18
不太懂爬虫,能科普下吗,主要爬去什么数据?
彩票历史开奖数据,
用途:反正不是买彩票
作者:
jarvan
时间:
2018-1-14 00:26
wfion 发表于 2018-1-14 00:19
大姐姐
那东西有毛用
作者:
黑街天祖
时间:
2018-1-14 00:27
提示:
作者被禁止或删除 内容自动屏蔽
作者:
video4sex
时间:
2018-1-14 00:29
然而你把人家搞挂了,速度快得不道德
作者:
J3n5en
时间:
2018-1-14 00:31
估计是因为nodejs是异步,然后你没控制好并发,,,,,,,一下子几百个几千个请求过去,,,
作者:
kyotrue
时间:
2018-1-14 00:37
其实楼主可以把这个改成网站并发量测试工具。。。
作者:
椰子
时间:
2018-1-14 00:37
所以你确定不是拿到一堆报错数据?
作者:
bitspirit
时间:
2018-1-14 00:40
所以数据是完整的?
作者:
yrj
时间:
2018-1-14 00:42
会不会是对方的防火墙把你咔嚓掉了呢?吼吼。。
作者:
ecosway598
时间:
2018-1-14 03:00
提示:
作者被禁止或删除 内容自动屏蔽
作者:
yjsx86
时间:
2018-1-14 04:54
不会那么巧 等你把数据爬完了再挂吧?
看看你的数据完整不?
作者:
cszlxl
时间:
2018-1-14 08:12
应该不会是完全都爬完了吧。。。
作者:
liutianshu77
时间:
2018-1-14 08:27
提示:
作者被禁止或删除 内容自动屏蔽
作者:
气味
时间:
2018-1-14 08:57
大佬爬虫
作者:
ruocao
时间:
2018-1-14 09:19
nodejs默认是异步的,python默认是同步的,代码改一改也可以实现相同效果
当然你怎么确定你把数据爬完了,网站都挂了23333
作者:
三一土白
时间:
2018-1-14 09:55
数据都入库了,没报错,10秒钟,42万行数据。
nodejs的异步第一次领略,确实很牛逼。
作者:
sunnyhu
时间:
2018-1-14 14:07
数据是完整的吗
作者:
靓坤
时间:
2018-1-14 14:14
说不定只是把你ip屏蔽了
作者:
左手写爱
时间:
2018-1-15 10:44
大佬技术在哪学的?发车吧!!!!
作者:
wenguonideshou
时间:
2018-1-15 11:09
我感觉不能说明什么
作者:
jhsyue
时间:
2018-1-15 11:28
python写得慢 是你技术有问题。。
https://luodaoyi.com/p/python-yi-bu-duo-xian-cheng-chao-gao-xing-neng-pa.html
欢迎光临 全球主机交流论坛 (https://sunk.eu.org/)
Powered by Discuz! X3.4