玩蛇网提供最新Python编程技术信息以及Python资源下载!

Python是如何判断大数据唯一性的呢?

我想用python对全网的网站进行扫描记录,想用mysql建个表记录每个网站的信息,数据量大后怎么能快速的判断这个网站已经记录过呢?基本表结构有:id,url,name,datetime等相关字段,url想有唯一性,是拿到url查询一下判断没有数据再插入还是怎么办?如果做了唯一性索引直接插入时会报错,谢谢,或是有没有别的有效的解决办法?

对url进行hash,就是微博短域名一样,然后用kv,mysql都行

分布式kv数据库
对url分组

推荐使用Bloom Filter存储已经抓取到的url.
Bloom Filter实际上是由一组哈希函数和一个字节列表组成. 详细介绍可以参考百度百科和这篇博文.

如果使用Python可直接安装Pybloom包, 这里已经实现了Bloom Filter.

玩蛇网文章,转载请注明出处和文章网址:https://www.iplaypy.com/wenda/wd19554.html

相关文章 Recommend

玩蛇网Python互助QQ群,欢迎加入-->: 106381465 玩蛇网Python新手群
修订日期:2017年05月22日 - 11时23分54秒 发布自玩蛇网

您现在的位置: 玩蛇网首页 > Python问题解答 > 正文内容
我要分享到:

必知PYTHON教程 Must Know PYTHON Tutorials

必知PYTHON模块 Must Know PYTHON Modules