博客
关于我
S10 TES的八强赛,创造了奇迹,看看比赛时网友们怎么说的
阅读量:630 次
发布时间:2019-03-14

本文共 1547 字,大约阅读时间需要 5 分钟。

在科技领域研究和开发时,有时候需要获取大量网页数据,例如弹幕信息等。以下是一套从网页抓取数据到文本可视化的解决方案,适用于此类场景。

工具准备

在具体实施前,可以首先准备必要的工具:

  • 编辑器:常用包括PyCharm、VS Code等。
  • 编程语言:主要使用Python,推荐版本为3.6.5及以上。
  • 爬虫库:需安装 requestsre 库。

  • 爬虫数据收集

    要实现从网页内容中提取弹幕数据,可以编写爬虫程序,使用以下方法:

    import requestsimport re# specifying the URL to crawlurl = 'https://api.bilibili.com/x/v2/dm/history?type=1&oid=246648707&date=2020-10-{}'.format(page)headers = {    'cookie': '...',  # 替换为实际 cookie    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'}response = requests.get(url=url, headers=headers)response.encoding = response.apparent_encoding# 提取弹幕内容lis = re.findall(r'
    (.*?)
    ', response.text, re.S)for i in lis: with open('八强赛弹幕.txt', 'a', encoding='utf-8') as f: f.write(i) f.write('\n') print(i)

    通过上述代码,可以按页获取指定日期的弹幕数据,如果需要动态获取更多数据,可以将页码范围扩展。


    数据可视化:词云展示

    收集到弹幕数据后,可以通过以下方式进行可视化处理:

    import jiebaimport wordcloudimport imageio# 读取图片文件py = imageio.imread(r"图片地址")# 读取弹幕数据with open(r'弹幕数据地址', 'r', encoding='utf-8') as f:    txt = f.read()    print(txt)# 分词处理word_list = jieba.lcut(txt)string = ' '.join(word_list)# 生成词云wc = wordcloud.WordCloud(    width=1000,  # 图片宽度    height=700,  # 图片高度    background_color='white',  # 背景颜色    font_path='msyh.ttc',  # 字体配置    mask=py,  # 使用图片作为词云形状    scale=15,  # 词云绘制大小    stopwords={'真的', '这个'},  # 停用词设置)# 生成并保存词云图片wc.generate(string)wc.to_file(r'保存图片地址')

    使用建议

    可以将以上代码整合到一个项目文件中,方便管理和使用。特别是在爬虫部分,确保遵守端口协议,避免产生不必要的负担。


    通过以上方案,可以快速从网页中提取数据并转化为可视化形式,这在社交媒体内容分析、直播数据记录等场景下具有广泛的应用价值。

    转载地址:http://ulioz.baihongyu.com/

    你可能感兴趣的文章
    NIFI大数据进阶_离线同步MySql数据到HDFS_01_实际操作---大数据之Nifi工作笔记0029
    查看>>
    NIFI大数据进阶_离线同步MySql数据到HDFS_02_实际操作_splitjson处理器_puthdfs处理器_querydatabasetable处理器---大数据之Nifi工作笔记0030
    查看>>
    NIFI大数据进阶_连接与关系_设置数据流负载均衡_设置背压_设置展现弯曲_介绍以及实际操作---大数据之Nifi工作笔记0027
    查看>>
    NIFI数据库同步_多表_特定表同时同步_实际操作_MySqlToMysql_可推广到其他数据库_Postgresql_Hbase_SqlServer等----大数据之Nifi工作笔记0053
    查看>>
    NIFI汉化_替换logo_二次开发_Idea编译NIFI最新源码_详细过程记录_全解析_Maven编译NIFI避坑指南001---大数据之Nifi工作笔记0068
    查看>>
    NIFI集群_内存溢出_CPU占用100%修复_GC overhead limit exceeded_NIFI: out of memory error ---大数据之Nifi工作笔记0017
    查看>>
    NIFI集群_队列Queue中数据无法清空_清除队列数据报错_无法删除queue_解决_集群中机器交替重启删除---大数据之Nifi工作笔记0061
    查看>>
    NIH发布包含10600张CT图像数据库 为AI算法测试铺路
    查看>>
    Nim教程【十二】
    查看>>
    Nim游戏
    查看>>
    NIO ByteBuffer实现原理
    查看>>
    Nio ByteBuffer组件读写指针切换原理与常用方法
    查看>>
    NIO Selector实现原理
    查看>>
    nio 中channel和buffer的基本使用
    查看>>
    NIO三大组件基础知识
    查看>>
    NIO与零拷贝和AIO
    查看>>
    NIO同步网络编程
    查看>>
    NIO基于UDP协议的网络编程
    查看>>
    NIO笔记---上
    查看>>
    NIO蔚来 面试——IP地址你了解多少?
    查看>>