玩蛇网提供最新Python编程技术信息以及Python资源下载!

删除保留内容外的数据用python方式如何实现

爬虫爬了5000+条书名,我以前没写代码前就手动筛选出300+条有用的书。现在写代码,爬虫程序爬书网页里面的东西。
怎么可以保留已经有的300+数据,把其余的4700+删除。
菜鸟学生一名,sql也只是会做网页的水平,触发器等高级的略懂,python最近自学的,也不会用爬虫框架,只是用urllib+re,数据库是sqlite
望解答,谢谢。第一问也不怎么懂规矩。

其实好办。

5000+和300+全部读出来,遍历一遍5000+,验证每个是否在300+里,是就留下。

Python的list查询是自动hash高效查询的,并没有性能问题。(哪怕不高效,5000*300个单元操作也并不是问题)

这个问题的麻烦反倒是:你整理的书名可能做了删改、排版等操作,或许不是和原书名完全一致的。如果有这种情况存在,请小心处理,不要生硬比较。

玩蛇网文章,转载请注明出处和文章网址:https://www.iplaypy.com/wenda/wd19643.html

相关文章 Recommend

玩蛇网Python互助QQ群,欢迎加入-->: 106381465 玩蛇网Python新手群
修订日期:2017年05月22日 - 09时13分21秒 发布自玩蛇网

您现在的位置: 玩蛇网首页 > Python问题解答 > 正文内容
我要分享到:

必知PYTHON教程 Must Know PYTHON Tutorials

必知PYTHON模块 Must Know PYTHON Modules