python爬取微博评论源码-西西软件下载

python爬取微博评论源码，由论坛大神原创制作的一个爬取程序，可以爬取微博评论，用户可以单独搜索某个博主的微博，搜索历史时间线，快速爬取获取目标微博下的全部评论，并直接导入到txt文档内。本次放出python爬取微博评论工具源码下载，感兴趣的朋友们不妨试试吧！

python爬取微博评论源码

python爬取微博评论思路

打开网址[https://m.weibo.cn/detail/4478512314460101]

点击万能的F12

点击：->网络->XHR->hotflow.....->预览

网址：[https://m.weibo.cn/comments/hotflow?id=4478512314460101&mid=4478512314460101&max_id_type=0]

已经可以确定这个是评论的json接口了

然后看第二页有什么区别

往下拉，看第二页

看来数据没什么区别

第一页网址：[https://m.weibo.cn/comments/hotflow?id=4478512314460101&mid=4478512314460101&max_id_type=0]

第二页网址：[https://m.weibo.cn/comments/hotflow?id=4478512314460101&mid=4478512314460101&max_id_type=0&max_id=17250816281250492]

咦，第一页和第二页多出来一个max_id参数（后面其他页数也是这里就不做演示了）

看一下第一页数据中是否有max_id

果然有max_id，还是第二页的（看懂了一切）

那就是说：第二页的max_id在第一页中，第三页的在第二页中，以此类推

python爬取微博评论源码

import requests

import json

import re

import os

'''

说明:请添加第11行的cookie，修改第26行的保存路径

作者:帅气逼人的钢铁直男---幻夜

'''

headers = {#请求标题头

'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4086.0 Mobile Safari/537.36',

'cookie':''#请填写自己的cookie

}

id = input("请输入ID:")#获取ID

if id == "":#当ID为空停止脚本

print('再见')

os._exit(0)#停止脚本

ret = requests.get('https://m.weibo.cn/detail/'+id,headers = headers).text#获取网页内容

if '出错了' in str(ret):#网页出错停止脚本

print('ID不存在')

os._exit(0)#停止脚本

title = input("请输入保存文件名字:")#输入保存文件名字

if title == "":#为空停止脚本

print('再见')

os._exit(0)#停止脚本

max_id = False#定义变量

path = "C:\\Users\\win10\\Desktop\\python\\爬虫\\"+title+".txt"#自己修改文件路径

if os.path.exists(path):#当文件存在时删除，为了不重复

os.remove(path)#删除

page_end = 10#爬取页数，自己修改

page_start = 1

u = 1

while page_start<page_end:#当start小于end时进行循环

if max_id == False:#因为微博第一页和其他页的参数不一样所以需要区分开来

url = "https://m.weibo.cn/comments/hotflow?id="+id+"&mid="+id+"&max_id_type=1"#第一页不包含max_id

json = requests.get(url)#访问评论json数据

else:

url = "https://m.weibo.cn/comments/hotflow?id="+id+"&mid="+id+"&max_id="+str(max_id)+"&max_id_type=0"

json = requests.get(url,headers = headers)#访问评论json数据

json = json.json()#转化数据

max_id = json['data']['max_id']#第二页的max_id在第一页中第三页在第二页中...以此类推

jsons = json['data']['data']

page_start = page_start+1#自增

for j in jsons:

text = j['text']

text = re.sub(r'<(.+?)>','',text)#删除表情包

with open(path,"a+",encoding = 'utf-8') as f:

f.write(text+'\n\n')

print("第"+str(u)+"条评论完成")

u = u+1

print('完成')

python爬取微博评论源码

相关软件

python无损音乐下载器

python全网无损音乐下载器

Python IDLEv3.7 中文汉化版

Python版PDF转EXCEL工具v2020.3.11 最新版

python打包工具(pyinstaller_GUI)v0.4免费版

Python环境管理(Anaconda3)2019.10官方版

Python爬虫批量下载图片

Python自学的安装包及流程书籍教程篇

Python 2.7

python注释软件

本类软件分类

本类精品

易语言杀进程源码

本类下载排行

装机必备软件

python爬取微博评论思路

python爬取微博评论源码

相关新闻

软件截图

其他版本下载

下载地址

python爬取微博评论源码

本类最新软件

本类软件推荐

最新评论查看所有(0)条评论 >

发表评论