全球主机交流论坛

标题: 如何快速采集100万片 某个特定关键词的文章 做垃圾站用 [打印本页]

作者: 长期求友情链接    时间: 2014-8-18 19:42
标题: 如何快速采集100万片 某个特定关键词的文章 做垃圾站用
RT
作者: qq519755368    时间: 2014-8-18 20:39
黄金广告位招租
作者: thymol    时间: 2014-8-18 20:41
提示: 作者被禁止或删除 内容自动屏蔽
作者: hezuvps    时间: 2014-8-19 01:32
写个蜘蛛,自动去爬......
作者: KUA5    时间: 2014-8-19 13:19
看采集哪里的文章
有规律么
作者: 欧阳逍遥    时间: 2014-8-19 13:54
自己写蜘蛛 多线程去爬 只能这样了。。另外 尽量别用 数据库。。

我现在搞一个项目 2小时爬一次, 每次上万条信息。。 数据库都够呛。
作者: 长期求友情链接    时间: 2014-8-19 14:16
欧阳逍遥 发表于 2014-8-19 13:54
自己写蜘蛛 多线程去爬 只能这样了。。另外 尽量别用 数据库。。

我现在搞一个项目 2小时爬一次, 每次上 ...

求代写
作者: ali727    时间: 2014-8-19 14:38
欧阳逍遥 发表于 2014-8-19 13:54
自己写蜘蛛 多线程去爬 只能这样了。。另外 尽量别用 数据库。。

我现在搞一个项目 2小时爬一次, 每次上 ...

直接生成HTML吗?
作者: 欧阳逍遥    时间: 2014-8-19 14:43
ali727 发表于 2014-8-19 14:38
直接生成HTML吗?

之前写过一个 采集程序。 超高并发。 数据库搞不过来。 就直接 IO 操作了
自己搞好目录结构 和读写逻辑。 纯 IO 个人感觉比数据库要快很多。
当然 也有一定局限性。
作者: ali727    时间: 2014-8-19 17:00
欧阳逍遥 发表于 2014-8-19 14:43
之前写过一个 采集程序。 超高并发。 数据库搞不过来。 就直接 IO 操作了
自己搞好目录结构 和读写逻辑。 ...

局限性在哪里?
作者: 黑色焦点    时间: 2014-8-19 17:56
都是大神级别的。
作者: _jerryjee    时间: 2014-8-19 22:39
同问
作者: woshigaozhen    时间: 2014-8-20 01:24
采集什么片子?不会是海盗王吧。




欢迎光临 全球主机交流论坛 (https://sunk.eu.org/) Powered by Discuz! X3.4