我在使用 scrapy 框架的过程中发现并发量上不去, 大概每秒 50 左右...想了解一下爬虫并发量除了跟网络, 源站点, 业务逻辑以外, 还有哪些因素会影响并发量呢?
1. 框架的并发设置是 500( 实际只有 50 )
2. 源网站性能应该是没问题的
3. 带宽 100M(实际并跑不满, 每秒大概只有 1M 左右)
4. 业务没有复杂逻辑, 页面下载完后就两个 xpath, 2 个正则, 然后就入库了
5. 硬盘是阿里云的云盘, 大概是 1240 IOPS 左右
6. 服务器 cpu 是 2 核的 (不知道是不是因为配置太低成为了瓶颈)
求大佬们解惑第 1 条附言 · 16 小时 29 分钟前附加一下相关信息:
1. 单个页面大小在 3.4kb 左右
2. cpu 稳定在 40% - 50%
3. 内存在 14% 左右
4. 单次入库的数据, 每个请求大约是几百汉字
关于爬虫并发量的疑问?
打赏记录
还没有人打赏TA,如果觉得作者写的不错,可以点击页面右上角的免费打赏作者噢!等待回复