全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
查看: 1827|回复: 12
打印 上一主题 下一主题

如何快速采集100万片 某个特定关键词的文章 做垃圾站用

[复制链接]
跳转到指定楼层
1#
发表于 2014-8-18 19:42:58 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
RT
2#
发表于 2014-8-18 20:39:52 | 只看该作者
黄金广告位招租
3#
发表于 2014-8-18 20:41:58 来自手机 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
4#
发表于 2014-8-19 01:32:22 | 只看该作者
写个蜘蛛,自动去爬......
5#
发表于 2014-8-19 13:19:59 | 只看该作者
看采集哪里的文章
有规律么
6#
发表于 2014-8-19 13:54:26 | 只看该作者
自己写蜘蛛 多线程去爬 只能这样了。。另外 尽量别用 数据库。。

我现在搞一个项目 2小时爬一次, 每次上万条信息。。 数据库都够呛。
7#
 楼主| 发表于 2014-8-19 14:16:06 | 只看该作者
欧阳逍遥 发表于 2014-8-19 13:54
自己写蜘蛛 多线程去爬 只能这样了。。另外 尽量别用 数据库。。

我现在搞一个项目 2小时爬一次, 每次上 ...

求代写
8#
发表于 2014-8-19 14:38:25 | 只看该作者
欧阳逍遥 发表于 2014-8-19 13:54
自己写蜘蛛 多线程去爬 只能这样了。。另外 尽量别用 数据库。。

我现在搞一个项目 2小时爬一次, 每次上 ...

直接生成HTML吗?
9#
发表于 2014-8-19 14:43:03 | 只看该作者
ali727 发表于 2014-8-19 14:38
直接生成HTML吗?

之前写过一个 采集程序。 超高并发。 数据库搞不过来。 就直接 IO 操作了
自己搞好目录结构 和读写逻辑。 纯 IO 个人感觉比数据库要快很多。
当然 也有一定局限性。
10#
发表于 2014-8-19 17:00:49 | 只看该作者
欧阳逍遥 发表于 2014-8-19 14:43
之前写过一个 采集程序。 超高并发。 数据库搞不过来。 就直接 IO 操作了
自己搞好目录结构 和读写逻辑。 ...

局限性在哪里?
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2025-11-8 15:43 , Processed in 0.061178 second(s), 10 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表