如何采集京东评论内容(京东商品评论情感分析)
本文以小米京东旗舰店平台作为数据来源,爬取小米京东旗舰店十款热门手机的当前在线评论文本数据5110条数据,抽取小米10的手机评论数据做情感分析,对评论数据进行文本去重、机械压缩去词等文本预处理后,建立多种文本挖掘模型。
1.评论数据采集本文分别爬取小米京东自营旗舰店内的十款热门手机产品,不同的手机产品有不同的URL,不同的手机产品对应的URL如下所示。
1.1爬虫基本概念
网络爬虫也称之为网络蜘蛛,是一个程序化脚本,在下载网页信息时,可以实现循环自主化。网络爬虫通过网页请求,循环自主的下载每一个网页信息,并解析其页面内容。首先了解浏览网页的基本流程,分为浏览器向服务器发送请求,接着网页服务器向浏览器返回响应内容,浏览网页的基本流程如下所示。
图1 浏览网页基本流程图
接着进行网页解析,HTML用于展示网页的构成信息,XML用于保存数据,Xpath可用于在HTML/XML文档中定位并且提取片段,是一种常用的查询语言,网页解析的拓扑结构如下所示。
图2 网页解析拓扑结构图
1.2 爬虫基本流程爬取商品的评论数据分为请求URL、获取商品评论页、解析商品评论页以及设置循环翻页等步骤,爬取商品评论的一般流程如下所示。
图3 商品爬取评论流程图
了解爬虫的基本流程后,本文选取八爪鱼数据采集器,设计爬取流程,需要爬取手机产品的品牌信息和评论信息等,并设置循环翻页,循环爬取该款商品每一页的评论信息数据,八爪鱼流程设计如下图所示。
图4 爬虫流程设计图
共爬取小米京东自营旗舰店热销手机产品5110条数据,其中以小米10的手机评论数据最多,为510条,本文抽取小米10的手机评论数据做情感分析,各种型号的手机评论数据如下图所示。
图5 各型号手机评论数据柱形图
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com