玩蛇网提供最新Python编程技术信息以及Python资源下载!

Python有大数据处理性能优化好方法吗

现在有一个list包含有1500个topic,另外一个文件包含一亿个微博数据,现在我想统计,1500个topic中每个topic分别有多少条微博包含它们,我写的代码如下,但是运行起来需要非常久的时间,有什么办法可以优化吗?

    f = file("largefile")
    for line in f:
        try:
            tweet_time = line.split(',',3)[2].split()[0]  # 微博发布时间
            tweet = line.split(',',3)[-1]  # 微博内容
            for topic in topics:
                topic_items = topic.split()  # 每个topic可能有多个词组成
                isContain = True
                for item in topic_items:
                    if item not in tweet:
                        isContain = False
                        break
                if isContain:
                    pass   # 该微博包含该topic
        except:
            continue
    f.close()

参见:

玩蛇网文章,转载请注明出处和文章网址:https://www.iplaypy.com/wenda/wd19528.html

相关文章 Recommend

玩蛇网Python互助QQ群,欢迎加入-->: 106381465 玩蛇网Python新手群
修订日期:2017年05月12日 - 17时15分26秒 发布自玩蛇网

您现在的位置: 玩蛇网首页 > Python问题解答 > 正文内容
我要分享到:

必知PYTHON教程 Must Know PYTHON Tutorials

必知PYTHON模块 Must Know PYTHON Modules