全球主机交流论坛

标题: 关于javhd脚本的一些问题 [打印本页]

作者: eqblog    时间: 2018-3-14 09:49
标题: 关于javhd脚本的一些问题
  首先我承认,我写的脚本很容易被识别为机器,然后就爬不成了。

解决办法很简单,让它每爬一页休息一会就好了。
(, 下载次数: 507)

关于限速问题:

将线程放少点就好了,具体 就是将37行的10改的小一点就好了

python问题建议百度,centos下python3安装https://eqblog.com/centos-install-python3-6-4.html
安装好后使用pip3安装所需库就好了


作者: yeshan    时间: 2018-3-14 09:51
试用会员爬不了全部视频,建议要爬全站的来一个月正式会员
作者: eqblog    时间: 2018-3-14 09:51
yeshan 发表于 2018-3-14 09:51
试用会员爬不了全部视频,建议要爬全站的来一个月正式会员

谢谢mjj提醒
作者: Lucas    时间: 2018-3-14 09:56
手上没有大盘鸡可以爬下全部视频就个7o
作者: sm1314    时间: 2018-3-14 17:25
yeshan 发表于 2018-3-14 09:51
试用会员爬不了全部视频,建议要爬全站的来一个月正式会员

有不能爬的链接吗,为啥我爬了900多部好像没遇到,,,
作者: itsme    时间: 2018-3-14 17:38
我最近两天用的,反正爬1分钟不到就识别为爬虫了,估计是最近改动的。
作者: savior    时间: 2018-3-14 17:45
早上还好好的,想在不知道原因爬不见了
作者: itsme    时间: 2018-3-14 17:50
还是不行。我在原来目录下运行,脚本跳过几十个已下载的文件后还是同样报错,这时候去网站登录就是脚本被识别为爬虫并要求非机器人验证。
补充下,我环境没问题的,之前已经下了600G多。

  1. Traceback (most recent call last):
  2.   File "javhd.py", line 85, in <module>
  3.     run()
  4.   File "javhd.py", line 75, in run
  5.     mp4_dict=s.find_mp4(i[0],reqget)
  6.   File "javhd.py", line 24, in find_mp4
  7.     return req.json()
  8.   File "/usr/local/lib/python3.6/site-packages/requests/models.py", line 892, in json
  9.     return complexjson.loads(self.text, **kwargs)
  10.   File "/usr/local/lib/python3.6/json/__init__.py", line 354, in loads
  11.     return _default_decoder.decode(s)
  12.   File "/usr/local/lib/python3.6/json/decoder.py", line 339, in decode
  13.     obj, end = self.raw_decode(s, idx=_w(s, 0).end())
  14.   File "/usr/local/lib/python3.6/json/decoder.py", line 357, in raw_decode
  15.     raise JSONDecodeError("Expecting value", s, err.value) from None
  16. json.decoder.JSONDecodeError: Expecting value: line 1 column 1 (char 0)
复制代码

作者: savior    时间: 2018-3-14 17:57
感觉我和楼上大佬一样的,跳过几十个以后就报错了,一脸懵逼
作者: ehane    时间: 2018-3-14 18:35
savior 发表于 2018-3-14 17:57
感觉我和楼上大佬一样的,跳过几十个以后就报错了,一脸懵逼

跳过几十个之后因为快速访问大量网址所以IP直接被ban了。换ip就行。
作者: itsme    时间: 2018-3-14 18:47
savior 发表于 2018-3-14 17:57
感觉我和楼上大佬一样的,跳过几十个以后就报错了,一脸懵逼

刚刚我在一个新的空目录下再运行脚本,下了10多个后脚本直接被killed了,也不知道什么原因。
或者你可以尝试新目录看看。
作者: mylyne    时间: 2018-3-14 19:02
我想问一下为什么这个脚本不能在挂载的gdriver或者onedrive上面运行?LZ的其他脚本可以
作者: 半潜军长    时间: 2018-3-14 19:18
mylyne 发表于 2018-3-14 19:02
我想问一下为什么这个脚本不能在挂载的gdriver或者onedrive上面运行?LZ的其他脚本可以 ...

用什么挂载的 大佬 rclone 还是gd
http://www.sunk.eu.org/thread-435393-1-2.html 这个说法我没搞明白 唉
作者: itsme    时间: 2018-3-14 20:10
Traceback (most recent call last):
  File "spider.py", line 85, in <module>
    run()
  File "spider.py", line 83, in run
    time.sleep(sleep_time)
NameError: name 'sleep_time' is not defined

用最新脚本运行一段时间后出现这个错误
作者: itsme    时间: 2018-3-14 21:05
楼主,最后的time.sleep(sleep_time)这个是拼写错误?是否应该是time.sleep(time_sleep)?
另外现在的问题是,目录里面有已经下载过的文件,重新运行脚本会略过这些文件(这个很好),不过这个读取这些下载过文件的速度是否过快导致这个步骤还没过去(我有700多个文件)就会被网站判断为爬虫了。
time.sleep(20)要放到哪个位置才能有效?
作者: eqblog    时间: 2018-3-14 21:14
itsme 发表于 2018-3-14 21:05
楼主,最后的time.sleep(sleep_time)这个是拼写错误?是否应该是time.sleep(time_sleep)?
另外现在的问题 ...

把time_sleep这个换成数字就好了。。

作者: savior    时间: 2018-3-14 21:16
好像这个账号被BAN了……
作者: eqblog    时间: 2018-3-14 21:19
savior 发表于 2018-3-14 21:16
好像这个账号被BAN了……

对~已经失效了
作者: savior    时间: 2018-3-14 21:25
eqblog 发表于 2018-3-14 21:19
对~已经失效了

大佬神通广大,求再分享,先MARK
作者: 流量之神    时间: 2018-3-14 22:03
请问这个脚本可以断点采集吗?第二次接着第一次的采集继续爬
作者: eqblog    时间: 2018-3-14 22:16
流量之神 发表于 2018-3-14 22:03
请问这个脚本可以断点采集吗?第二次接着第一次的采集继续爬

不能 但是可以手动设置页数
作者: openos    时间: 2018-3-16 11:47
eqblog 发表于 2018-3-14 22:16
不能 但是可以手动设置页数

怎么样手动设置呢? 因为封了几个ip, 不想重复下载了

作者: ehane    时间: 2018-3-16 14:37
openos 发表于 2018-3-16 11:47
怎么样手动设置呢? 因为封了几个ip, 不想重复下载了

flag 就是开始爬的页数。你查一下看你爬到哪个文件,搜一下在第几页,把记得flag设置在下一页,不然肯定ban
作者: zhp521163    时间: 2018-3-16 14:45
我在本地爬了1380个视频,不知道全部视频有多少
作者: zhp521163    时间: 2018-3-16 15:17
开了一个月会员,可惜这脚本还是有问题,哎
作者: ogrish    时间: 2018-3-16 15:35
提示: 作者被禁止或删除 内容自动屏蔽
作者: openos    时间: 2018-3-16 15:37
zhp521163 发表于 2018-3-16 15:17
开了一个月会员,可惜这脚本还是有问题,哎

牛B啊,一个月会员$40?

作者: itsme    时间: 2018-3-16 16:21
ehane 发表于 2018-3-16 14:37
flag 就是开始爬的页数。你查一下看你爬到哪个文件,搜一下在第几页,把记得flag设置在下一页,不然肯定b ...

如果要从60页开始,是改flag =60吗,改了后脚本一直没输出。改回原来=1,就可以正常输出信息
def run():
    s=spider(quality)
    reqget=s.req()
    flag=60
    while True:
        time.sleep(5)
        page=s.page(flag)
        info=s.find_info(page)
        for i in info:
            mp4_dict=s.find_mp4(i[0],reqget)
            tittle=i[1].strip()
            print(tittle)
            if os.path.exists(str(tittle)+'.mp4')==False:
                print(s.sources_mp4(mp4_dict,reqget))
                download(s.sources_mp4(mp4_dict,reqget),tittle)
            else:
                #continue
                time.sleep(time_sleep)
        flag+=1
        time.sleep(5)

作者: itsme    时间: 2018-3-16 16:32
eqblog 发表于 2018-3-14 22:16
不能 但是可以手动设置页数

如果要从61页开始抓取,只要改下面这个flag的值吗 改了脚本似乎卡住没任何动静了

def run():
    s=spider(quality)
    reqget=s.req()
    flag=61
作者: itsme    时间: 2018-3-16 16:51
本帖最后由 itsme 于 2018-3-18 05:26 编辑

本帖没内涵
作者: zhp521163    时间: 2018-3-16 17:05
zhp521163 发表于 2018-3-16 14:45
我在本地爬了1380个视频,不知道全部视频有多少

我是480p的,爬完1380多个视频之后就爬不了了
作者: itsme    时间: 2018-3-18 05:27
楼主,javhd的脚本我运行完全没问题了。不过有个小问题,就是获得的文件名都不是完全的title标题,Sakura Aida enjoys Asian ... 能否改动什么地方抓取完整title作为文件名?
作者: eqblog    时间: 2018-3-18 05:58
itsme 发表于 2018-3-18 05:27
楼主,javhd的脚本我运行完全没问题了。不过有个小问题,就是获得的文件名都不是完全的title标题,Sakura A ...

改下正则匹配就好了。。。。
作者: itsme    时间: 2018-3-18 06:47
本帖最后由 itsme 于 2018-3-19 19:46 编辑

------------------------
作者: eqblog    时间: 2018-3-18 06:50
itsme 发表于 2018-3-18 06:47
能不能帮忙改下?不会编程,为了用这爬虫这几天都在自学python编译 分卷压缩 等等相关了。窘。
现在脚本 ...

我准备修改下脚本,你等今天晚些我发布吧。。
作者: 流量之神    时间: 2018-5-10 18:40
eqblog 发表于 2018-3-18 06:50
我准备修改下脚本,你等今天晚些我发布吧。。

改好了吗大佬。。。
作者: Lkanu    时间: 2018-5-14 01:17
yeshan 发表于 2018-3-14 09:51
试用会员爬不了全部视频,建议要爬全站的来一个月正式会员

知道啥是解析不?




欢迎光临 全球主机交流论坛 (https://sunk.eu.org/) Powered by Discuz! X3.4