先说一下最终要达到的效果:谷謌浏览器登陆淘宝后运行python项目,将任意任意淘宝商品的链接传入并手动选择商品属性,输出其价格与剩余库存然后选择购买数,自動加入购物车
在开始爬取淘宝链接之前,咱么要先做一些准备工作我项目中使用的是 网站,咱们就爬取这个网站的高匿代理来作为我們的代理获取成功后访问bing来测试咱们的代理是否可用:
这里需要注意http_code=200时不一定是加入成功,如果没有登录也会返回200后续研究后会完善。
(一)确定需要爬取的信息
在爬取前首先确定需要获取的信息打开taobao,在搜索框中输入需要获取的商品的信息,比如ipad点击搜索
就可以看到许多的ipad,选择其中的一款商品比如第一个
可以看到,其包含了以下的信息:
因此我们可以爬取上面的这些信息,最后将结果存储在 数据库 mongo 中最终的存储效果为:
接下来开始介绍整个的爬取流程
其下面的 class = "items" 的每一个子节点 class = "item" 均代表一个商品,点开每个标签即可看到详细信息
获取商品信息的代码如下:
} #一件商品的信息提取完毕
将最终的结果存储到 非关系型数据库 Mongo 中
最终爬取了4800条数据
欢迎关注,获取更多实用技能:
文章来源:企鹅号 - 编程梦想家
随便爬点数据玩玩T_T利用Python爬取并简单分析爱淘宝网商品数据让我们愉快地开始吧~
版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。