如何采集京东评论内容（京东商品评论情感分析）

屲夲圥玍 2023-06-04 22:34:10

本文以小米京东旗舰店平台作为数据来源，爬取小米京东旗舰店十款热门手机的当前在线评论文本数据5110条数据，抽取小米10的手机评论数据做情感分析，对评论数据进行文本去重、机械压缩去词等文本预处理后，建立多种文本挖掘模型。

1.评论数据采集

本文分别爬取小米京东自营旗舰店内的十款热门手机产品，不同的手机产品有不同的URL，不同的手机产品对应的URL如下所示。

如何采集京东评论内容（京东商品评论情感分析）(1)

1.1爬虫基本概念

网络爬虫也称之为网络蜘蛛，是一个程序化脚本，在下载网页信息时，可以实现循环自主化。网络爬虫通过网页请求，循环自主的下载每一个网页信息，并解析其页面内容。首先了解浏览网页的基本流程，分为浏览器向服务器发送请求，接着网页服务器向浏览器返回响应内容，浏览网页的基本流程如下所示。

如何采集京东评论内容（京东商品评论情感分析）(2)

图1 浏览网页基本流程图

接着进行网页解析，HTML用于展示网页的构成信息，XML用于保存数据，Xpath可用于在HTML/XML文档中定位并且提取片段，是一种常用的查询语言，网页解析的拓扑结构如下所示。

如何采集京东评论内容（京东商品评论情感分析）(3)

图2 网页解析拓扑结构图

1.2 爬虫基本流程

爬取商品的评论数据分为请求URL、获取商品评论页、解析商品评论页以及设置循环翻页等步骤，爬取商品评论的一般流程如下所示。

如何采集京东评论内容（京东商品评论情感分析）(4)

图3 商品爬取评论流程图

了解爬虫的基本流程后，本文选取八爪鱼数据采集器，设计爬取流程，需要爬取手机产品的品牌信息和评论信息等，并设置循环翻页，循环爬取该款商品每一页的评论信息数据，八爪鱼流程设计如下图所示。

如何采集京东评论内容（京东商品评论情感分析）(5)

图4 爬虫流程设计图

共爬取小米京东自营旗舰店热销手机产品5110条数据，其中以小米10的手机评论数据最多，为510条，本文抽取小米10的手机评论数据做情感分析，各种型号的手机评论数据如下图所示。

如何采集京东评论内容（京东商品评论情感分析）(6)

图5 各型号手机评论数据柱形图

免责声明：本文仅代表文章作者的个人观点，与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺，请读者仅作参考，并自行核实相关内容。文章投诉邮箱：anhduc.ph@yahoo.com