全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
楼主: 风继续吹
打印 上一主题 下一主题

有熟悉爬虫技术的人么? 要做个类似tuan800.com的站

[复制链接]
11#
 楼主| 发表于 2012-1-22 15:38:39 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
12#
发表于 2012-1-22 15:41:20 | 只看该作者
方维系统
13#
发表于 2012-1-22 15:51:41 | 只看该作者
风继续吹 发表于 2012-1-22 15:38
需要爬虫的,因为要主动爬目标站内进行更新.

就是采集而已,当然也算爬虫
14#
 楼主| 发表于 2012-1-22 16:07:08 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
15#
 楼主| 发表于 2012-1-22 16:07:55 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
16#
发表于 2012-1-22 16:12:52 | 只看该作者
puper 发表于 2012-1-22 15:36
这个没什么爬虫,采集而已,每个团购站一个规则,用火车挂着就行

+1
17#
发表于 2012-1-22 16:18:51 | 只看该作者
风继续吹 发表于 2012-1-22 16:07
很多爬虫是基于JAVA平台来做的,太庞大了(例如www.pkprice.com)

这个就是按规则采集而已, 无非就是自动采集,定时采集而已,把分类和地区对应一下,这个数据量是有限的。比价网当然需要更智能,比如同一个产品在不同商家名字有区别,数据量太大,必须智能筛选+人工处理,爬虫就那样,复杂的是数据处理过程,你可以搜下小熊比价网的开发过程
18#
 楼主| 发表于 2012-1-22 16:40:28 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
19#
发表于 2012-1-22 16:50:49 | 只看该作者
风继续吹 发表于 2012-1-22 16:40
搜不到小熊比价网的开发文档.

非开发文档,就是一部分记录


http://blog.sina.com.cn/beargoo
20#
发表于 2012-1-22 17:19:15 | 只看该作者
风继续吹 发表于 2012-1-22 16:07
公鸡知道的东西还不少啊,有QQ吗?  这个方维系统中的分享我早就在找了.

http://www.fanwe.com/
产品中心
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2025-11-11 19:19 , Processed in 0.111679 second(s), 9 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表