语音情感识别模型(人机交往中闻声)

本刊官方网站:

http://cjjc.ruc.edu.cn/

摘要

人机交往是否与人际交往模式一致是当前人机关系研究的热点话题。网络人际传播即便在面容缺场的情况下,也能实现“闻其声,如见其人”的效果,但可能导致人们构建交互对象的心理意象与其实际形象产生冲突。若人机交往回归网络人际传播模式,用户与智能语音助手的语音语言交互也能产生心理意象,并且该意象与智能语音助手的化身形象可能会有偏离。本文以智能语音助手的听觉与视觉感官(化身形象)为切入点,具体探讨智能语音助手的化身形象呈现、交互人机交往关系类型和对用户评价的影响效价与影响机制。通过2个实验发现,在共有型人机关系下,智能语音助手化身形象呈现与用户听觉感官心理意象产生冲突,发生意象失真,进而减弱用户评价;在交换型人机关系下,智能语音助手化身形象呈现对用户听觉感官心理意象产生补偿,促进意象清晰,提升用户评价。

作者简介

简予繁,深圳大学传播学院广告系助理教授,深圳大学传媒与文化发展研究中心研究员。

黄玉波(通讯作者),深圳大学传播学院教授,深圳大学传媒与文化发展研究中心研究员。

基金项目

本文系国家自然科学基金项目(项目编号:72002135)、国家社科基金项目(项目编号:20BXW122)、深圳市社科规划项目(项目编号:SZ2021B042)的阶段性研究成果。

语音情感识别模型(人机交往中闻声)(1)

引言

随着智能机器人的高速发展,人与智能机器人的互动从工具型走向情感型(何双百,2022),人机传播模式成为了研究热点。但现有关于人机交往是否与人际传播模式相似的研究还存在分歧。在互联网媒介时代,人际传播分为现实中面对面的人际交往,以及缺乏身体和面孔在场的网络人际交往(沈荟,王学成,2015)。目前,还未能出现完全仿真人类的实体智能机器人,其与人类的交往互动不能等同于现实中的人际互动;但嵌入到系统的智能语音助手的人机互动,却已非常贴近网络人际传播。如同人际间通过短信、电话或微信进行文字或语言交流的网络互动方式,微软小冰与小爱同学等智能语音助手已经能够做到几乎完全仿真人类的声音,与用户通过语音、语言与文字实时交流,使得人机交往极具现场感与对象感(林升梁,叶立,2019)。

在网络人际传播中,人们对交互对象有何感知,对交互对象的感官线索信息如何加工,目前均有较为充分的研究。研究者们对网络人际传播中身体缺场(张放,2012),面容缺场(姚晓鸥,2020)的研究,发现了网络人际传播在交互对象身体和面容缺场的情况下,交互者能通过对交互对象的资料与自身经验图式进行加工,想象交互对象的面容和形象,实现身体在场体验;并且想象中的形象与实际交互对象的形象可能发生偏离或冲突(张放,2011)。虽然当前还未有研究验证人机交往是否与网络人际传播有共同模式,但是网络人际传播的相关研究给予了对照的标准。

前人研究所发现的网络人际传播模式,在人机关系从传统的工具类走向新型的伙伴关系时,人机交往是否与网络人际传播具有相同的感官加工模式,是值得深入研究的课题。鉴于当前还未有实证研究探讨人类和智能语音助手的人机交往与网络人际传播在感官信息加工上是否拥有共同的模式,因此为了填补现有研究空缺,本文拟以智能语音助手的听觉与视觉感官(化身形象)为切入点,具体探讨智能语音助手的化身形象呈现、交互人机交往关系类型、对用户评价的影响效价与影响机制。本文的研究结果旨在验证人机交往在对交互对象的感知与对交互对象的感官线索信息加工上,与网络人际传播是否有一致的模式和特性。

二 文献回顾与研究假设

(一)智能语音助手的人机交往

智能语音助手是基于自然语言处理技术、机器学习和情感分析等数字化技术,具有仿真人类的声音及语言表达能力,能与用户产生类人际语言互动的智能机器人(Dawar & Bendle,2018)。智能语音助手主要有两种类型,一种是实体机器人;另一种则是系统嵌入式的会话软件,例如苹果的Siri,微软小冰与小米小爱同学(Kiesler,Powers,Fussell & Torrey,2008)。本文主要的研究对象为当前市场应用最广泛的系统嵌入式会话软件。人机交往(human-machine association),是人类与具有高度智能技术支撑的超仿真智能机器人的双向互动传播行为,其不仅包括人类与机器的信息双向流动,还强调了智能机器人与人类互动时的主体能动性(林升梁,叶立,2019:89-90)。本文认为,用户与智能语音助手的互动和信息传播行为属于人机交往的范畴。随着自然语言处理技术、机器学习技术与情感分析技术的发展,当前智能语音助手具有高度智能性,并且在与用户的互动过程中有较强的主体能动性。具体而言,智能语音助手与用户的人机互动能初步做到还原人类网络人际互动情景(McLean,Osei-Frimpong & Barhorst,2021)。

在人机交往的关系层面,先前研究指出,智能语音助手与用户交往过程中会形成不同的人机关系(Brahnam & De Angeli,2012)。事实上,不同的人机交往关系反映用户不同的社会规范,即用户与其关系的亲密度以及由关系亲密度所影响的社会期望(Margaret & Judson,1993)。朋友、家人或浪漫关系对应的是共有型关系,在此类关系规范下,人们会对交互对象的各方面期望较高,并结合自身经验与图式对交互对象的感官信息进行精细化的深度加工;而工具或者业务合作伙伴则对应交换型关系,人们在交换型关系中规范交互对象的期望性与信息加工精细度都较低(Aggarwal,2004)。

Cheng、Zhang、Cohen 和 Mou(2022)将关系规范理论应用至人们与人工智能的关系研究中,并检验了共有型人机关系规范与交换型人机关系规范,在人工智能拟人化影响消费者响应路径中的调节作用。有研究者认为,共有型关系与交换型关系是绝对互斥的,人们与某个产品要么产生共有型关系,要么产生交换型关系(Clark & Mils,1993);而也有研究者认为,二者不互斥,可以同时存在于同一产品中(Johnson & Grimm,2010)。目前人机关系规范是绝对互斥还是相对互斥的问题,还未有准确的定论。此外,当前关于人机交往关系的研究多为质性研究,少数对人机关系的量化研究分布在市场营销学,探讨消费者对人工智能推荐商品的态度;而在传播学领域关于人机关系类型的量化研究则较为缺乏。

(二)智能语音助手感官研究

智能语音助手对比其它类型的人工智能产品,最大的特点在于其声音高度仿真人类,包括语气、语调、音高与音频等(喻国明,王文轩,冯菲,修利超,2021)。智能语音助手的声音特性具有以下两个层面的影响:一方面,人类对声音信息的想象力比其它感官信息的想象力更为丰富,它可以主导人类的感知空间(Fernandes & Oliveira,2021),即便缺失视觉线索,声音也能引发人类对音源丰富的视觉心理意象,产生感官补偿效应(Mileva,Tompkinson,Watt & Burton,2020)。人们在与智能语音助手交互的同时,也会产生视觉心理意象。另一方面,声音不仅能营造意象,且还具有引发人们情绪及情感的功能(Weinstein,Vansteenkiste & Paulmann,2020)。根据“媒介即讯息”理论,媒介本身就自带了关于传者的相关信息,而部分信息可以引发受者的情绪及情感。虽然人类的感官通道皆为媒介,但是听觉相比其它感官更敏感(孟伟,2006:21-22)。听觉信息包括语气、语调、语速、音高与音频等等,这些都向受者传递了传者的情绪、态度及情感的微妙变化,使受者随之产生相应的情绪情感状态(Aggarwal,2004)。Foehr和 Germelman(2020)发现,智能语音助手相比其它非语音类的人工智能产品,用户在与之互动时更可能引发用户丰富的情绪情感,并由此影响了用户对智能语音助手的信任感。

由于系统嵌入式的智能语音助手缺乏实体外观,因而对其研究均集中于声音感官特征上,对系统嵌入式智能语音助手视觉感官的研究较少。随着数字仿真人技术的发展,现在多个无实体的智能语音助手也拥有了视觉形象,即化身形象。化身(avatar)也称虚拟代理人,被部分学者定义为可以被人感知的数字代表,它体现了个体在虚拟世界中的形象与行为特征(Fox,Ahn,Janssen,Yeykelis,Segovia & Bailenson,2015)。化身并非人类的专属,企业、产品、机器都可以拥有化身,并且这些非人类主体的化身也能影响与其互动的人类(Keeling,Mcgoldrick & Beatty,2010)。虽然当前较少研究涉及智能语音助手的化身形象,但对于其它智能机器人的化身研究较为丰富,具体在智能客服(王海忠,谢涛,詹纯玉,2021)、教学代理(Chae,Lee & Seo,2016)、会话伙伴(Justine,2000)等人工智能产品或服务。

基于以上关于智能语音助手感官特征的文献回顾,可以发现当前研究聚焦于声音感官特征,较少研究涉及其视觉感官对用户的影响。鉴于智能语音助手声音特征所引发的视觉心理意象,其视觉感官信息,如智能语音助手的化身形象呈现可能对用户有何影响?不同的人机关系类型是否会调节视觉感官信息呈现对用户的影响?本文拟从感官引发的心理意象视角,结合不同的人机关系,研究智能语音助手视觉信息呈现对用户听觉意象的影响机制,填补当前的研究空缺点。

(三)心理意象理论模型

心理意象是人类受到事物感官信息刺激,在大脑中对特定事物的可视化表征(MacInnis & Jaworski,1989)。个体心理意象主要由事物的感官信息刺激产生,包括了视觉、听觉、嗅觉、味觉与触觉的各类线索(Schacter,Addis & Buckner,2007),继而影响了个体对特定事物的认知、态度与行为(Yoo & Kim,2014)。心理意象理论模型包括了三个过程因素,即感官刺激、心理意象与个体态度和行为反应(Macinnis & Price,1987)。具体而言,个体受到了事物感官信息的影响,如视觉、听觉与触觉等信息,在大脑中构建关于事物的心理意象,而意象的生动性(Schlosser,2003)、清晰度与意象质量(Lee & Shin,2020)、意象好感度、全面度与失真度(张放,2011)等特征,进一步影响了个体对事物的态度与行为(Lee & Gretzel,2012)。在此过程中,不同的个体受到同一事物的感官信息刺激也会产生不同的心理意象。其原因主要在于个体对事物感官信息的加工精细度不同(Schacter,Addis & Buckner,2007);而个体加工精细度则取决对该事物的卷入度,如若事物对个体较为重要,卷入度则较高,个体不仅会加工既有感官信息,还会结合自身的经验与图式对事物的感官信息进行深入与精细的加工,因此生成的心理意象较为生动清晰;反之,事物对个体不重要,则卷入度较低,个体仅对事物的感官信息进行表面化加工,不会加入自身经验与图式(Cautela & McCullough,1978),此时生成的意象较为模糊。

心理意象理论模型为研究智能语音助手化身形象呈现对用户的影响,提供了适切性的理论框架。首先,智能语音助手的听觉感官特性以及其化身形象呈现对用户的影响,属于人类感官加工的知识范畴。心理意象是研究人类感官加工过程的重要理论,为本研究提供了完善的理论模型。其次,心理意象理论提出感官信息加工精细度概念,契合了智能语音助手与用户的人机交往特性。形成共有型人机关系与交换型人机关系的用户,对同一智能语音助手感官信息的卷入程度不同,由此影响了用户对智能语音助手感官信息的意象加工。因此,本文后续将采用心理意象理论模型提出相应的研究假设。

(四)研究假设提出

1. 不同人机关系类型下智能语音助手化身呈现影响用户对智能语音助手的评价

依据心理意象理论(Schacter,Addis & Buckner,2007),共有型与交换型人机关系用户对同一智能语音助手会产生不同精细度的听觉信息加工,从而形成差异性的心理意象,最终影响智能语音助手化身形象呈现的作用效价。具体而言,在共有型的人机关系下,即便智能语音助手缺乏视觉信息线索,用户也能根据其自身认知图式与智能语音助手的声音感官信息,精细构建出智能语音助手生动的心理意象。然而,不同用户具有不同的认知图式与经验,智能机器人标准性化身形象很难符合每个用户的心理意象,从而呈现化身形象相比不呈现更可能带来负面的用户评价。在交换型的人机关系下,用户对智能语音助手相关信息进行表层加工,不会形成具体生动的听觉心理意象。因此,智能机器人标准性化身形象的呈现则会帮助拥有交换型关系的用户,构建智能语音助手更为清晰准确的心理意象,进而促进积极的用户评价。综上所述,本文提出如下假设:

H1:智能语音助手化身形象呈现与人机关系类型的交互,影响用户对智能语音助手的评价;

H1a:当人机关系类型是共有型时,相比不呈现智能语音助手的化身形象,呈现智能语音助手化身形象,用户对智能语音助手的评价更为消极;

H1b:当人机关系类型是交换型时,相比不呈现智能语音助手的化身形象,呈现智能语音助手化身形象,用户对智能语音助手的评价更为积极。

2. 心理意象清晰度与失真度的中介作用

根据心理意象理论模型,心理意象通常作为外部线索刺激对个体态度、评价与行为倾向影响过程的中介变量(Babin & Burns,1997)。本文认为,智能语音助手化身呈现对用户评价的影响中,意象清晰度与意象失真性分别在不同人机关系类型下起中介作用。

一方面,由于听觉线索作为人类意象构建的重要刺激,因而用户在与智能语音助手互动的过程中会生成特定意象。而根据上文所述,人机关系的类型不同,导致了用户对智能语音助手在长相、外观、性格等层面的期待性与精细加工程度有所不同。在交换型人机关系下,用户对智能语音助手的相关期待与精细加工度较低,因此用户不会过多地想象智能语音助手具体的形象,用户对其所产生的意象是模糊的,此时呈现智能语音助手化身形象有助于提升用户对其意象的清晰度感知。反之,在共有型人机关系下,用户对智能语音助手在各方面的期待较高,精细加工度较高,用户会较为精细地构建智能语音助手的形象。不仅如此,根据印象生成理论(张放,2012),在缺失了真实形象的条件下,用户会融入自身经验、记忆与储存的相关知识来构建该智能语音助手的意象。鉴于每个人的经验、记忆与知识都不同,此时呈现智能语音助手化身形象很可能会导致用户感知所构建的意象与该智能语音助手化身形象存在偏差,导致意象失真。

另一方面,个体对特定事物的意象感知越为清晰,与其真实意象越一致,对该事物的态度越积极。相较于个体构建特定事物的意象处于模糊不清晰的状态,个体对特定事物的意象感知越清晰,越可能导致对其的积极评价(Yoo & Kim,2014)。当个体构建的心理意象与该事物实际形象产生偏离时,由此引发的认知失调则会导致个体负面的情绪与态度。在本文情境中,拥有交换型人机关系的用户对智能语音助手感知意象越为清晰,则越可能增强智能语音助手的社会存在感,由此促进认为该产品更智能、便捷的感知,提升用户对智能语音助手的评价;而对于拥有共有型人机关系的用户,鉴于他们对智能语音助手的意象期待高,意象构建较为清晰,此时如若感知意象失真,则更可能带来失望的负面情绪,从而降低了用户对智能语音助手的评价。综上所述,本文提出如下假设:

H2:在智能语音助手化身呈现与人机关系类型的交互影响用户对智能语音助手评价中,心理意象起中介作用;

H2a:意象清晰度在人机关系为交换型时,智能语音助手化身呈现影响用户对智能语音助手的评价中起中介作用;

H2b:意象失真度在人机关系为共有型时,智能语音助手化身呈现影响用户对智能语音助手评价中起中介作用。

综上,基于人机关系规范理论与心理意象理论构建本文的理论模型(图1),本文通过2个实验研究加以实证检验。实验一重点考察智能语音助手视觉形象呈现(化身有呈现 VS. 化身无呈现)交互人机关系类型(共有型 VS. 交换型)对用户评价的具体影响,验证H1;实验二验证意象清晰度与意象失真性在智能语音助手视觉形象呈现(化身有呈现 VS. 化身无呈现)交互人机关系类型(共有型 VS. 交换型)对用户评价影响中的中介作用,验证H2。

语音情感识别模型(人机交往中闻声)(2)

三 实验一:

化身形象呈现与人机关系类型的交互

对用户评价影响的研究

(一)实验设计与实验过程

1. 实验设计

实验一采用2(有化身形象呈现 VS. 无化身形象呈现)× 2(共有型人机关系 VS. 交换型人机关系)的组间实验设计。首先,在研究对象的选择上,本文遵循3个原则选择研究对象:用户量大的智能语音助手产品;当前厂商并未设计与呈现过化身形象的智能语音助手产品;声音特征偏向真人而非合成语音的产品。最终选择华为的智能语音助手小艺作为本文实验一的研究对象。其次,根据本文选择的华为小艺,研究被试为华为小艺的实际用户。第三,在智能语音助手化身形象呈现上,借鉴曹忠鹏、靳成雯、马菁、李雁晨(2020)化身形象呈现的实验设计,采用图片情境模拟法操控化身形象的呈现。前人对虚拟形象代言的研究表明,虚拟形象本身的特征会影响实验结果(朱华伟,苏羽,冯靖元,2021),需要选择被试在虚拟形象各个特征上评分均较高的形象,最大程度上降低虚拟形象本身特征对实验结果的影响。为了降低被试对化身形象本身的特征感知对实验结果的干扰,本文拟通过一次前测,选择在形象可爱度、外貌态度、亲和度、温暖感知以及与智能语音助手契合度等五个维度上得分最高的2组化身形象,分别作为本文2次实验的实验材料。实验的化身形象选择范围为目前市场上智能语音产品的化身形象,包括三星的Bixby,华硕天选姬,微软Xbox Avatars,黑鲨的鲨鲨酱,微软小娜与小冰,AIbox虚拟机器人,狗尾草HE琥珀音箱AI助手,百度度晓晓,OPPO小布,小米小爱同学等15个产品的化身形象。而后通过随机抽样的方式进行实验前测,共回收到有效问卷101份(男性34人;女性67人)。结果显示,在15个既有的化身形象中,华硕天选姬与OPPO小布两个化身形象在多个维度上得分最高,因而分别作为本文实验一和实验二的化身形象实验材料。其中,实验一选择华硕天选姬的形象作为实验材料。由于前测是组内测试,被试的选择与对形象的评分会受到其它形象的影响。因此,本文将实验一所用形象材料进行一次组间测试,主要测量被试对实验材料在与智能语音助手产品的契合度、形象吸引力、形象可爱度、温暖感以及亲和力等五个维度上的感知是否均较高,以及所有被试评分的变异度是否较低,由此检验实验材料不会因其自身特征影响实验结果。具体测试于共有100名(男性43名)使用过智能语音助手的被试参与,结果如表1所示。实验一说明大部分被试一致认为该形象与智能语音助手产品具有很强的契合度,该形象的吸引力、可爱度、温暖感和亲和力均很高。最后,根据被试与其智能语音助手的实际人机关系规范情况,该实验让被试对人机关系规范类型的量表题项进行打分,来确定人机关系规范类型。

语音情感识别模型(人机交往中闻声)(3)

除此之外,由于关系规范的共有型和交换型,在人机关系当中还未知是否绝对互斥,或是相对互斥。因此本文拟进行一次调研,旨在发现人机关系中,人们感知其与智能语音助手的共有型关系与交换型关系,在大部分情况下,是同时存在还是单独存在于同一个智能语音助手的产品中,以及人们何时会建立与智能语音助手的共有型关系或交换型关系。调研问卷让被试选择任意一个他们使用过的智能语音助手产品,并回答他们与该产品的关系,是共有型(把智能语音助手当作伙伴或朋友)、还是交换型(把智能语音助手当作服务提供者或工具)或是二者皆有。问卷其次调查了被试使用该智能语音助手的时长与频率。

调查共回收336份有效问卷,男性有149名。在336名被试中,有197名被试(58.6%)认为智能语音助手与其关系是共有型关系;116名被试(34.5%)认为智能语音助手与其关系是交换型关系;而仅有23名被试(6.8%)认为智能语音助手与其关系是共有型和交换型皆有。由此可以说明,在智能语音助手这类型产品当中,人机共有型和交换型关系在极小部分的用户中,会同时存在;大多数用户认为,人机关系的共有型和交换型还是非此即彼。另外,本文对人机关系类型与用户使用产品的时长与频率进行独立样本T检验,旨在发现拥有不同人机关系的用户,在使用产品的时长和使用频率是否具有显著差异。结果表明,共有型关系与交换型关系,的用户之间使用时长(以月为单位)具有显著差异,拥有共有型人机关系的用户使用时长显著高于拥有交换型关系的用户;用户的使用频率上也具有显著差异,拥有共有型人机关系的用户使用频率显著高于拥有交换型人机关系的用户。因此,用户的产品使用时长与使用频率可以作为预测人机关系规范类型的因素。

2. 实验过程

正式实验于2022年3月25日开始,到2022年3月31日截止。根据2(有化身形象呈现 VS. 无化身形象呈现)× 2(共有型人机关系 VS. 交换型人机关系)的组间实验设计,共有两组问卷,一组为有化身形象呈现,一组为无化身形象呈现;并根据问卷中人机关系类型的操控,后续手动分为4组,即交换型 无化身形象呈现;交换型 有化身形象呈现;共有型 无化身形象呈现;共有型 有化身形象呈现。实验一借助问卷星招募使用华为手机的用户进行实验。问卷一共有3个部分,第一部分主要为被试的筛选,具体的有3个问题构成:首先,让被试回答是否为华为手机的用户,选择否的结束问卷;其次,选择是的继续回答是否使用过其手机内置的小艺智能语音助手,选择否的结束问卷,选择是的继续回答后续问题;再次,为了确保该被试确实是华为小艺的使用者,被试需要回答华为智能语音助手的名字,回答正确的方为有效问卷。第二部分为实验内容与相关问题,由3个问题构成:第一,为了排除智能语音助手本身特征,包括智能语音助手的智能程度、感知易用性与有用性对实验结果的影响,被试需要回答对以上特征的感知,分别采用感知语音机器人智能程度的5题项量表、感知智能语音助手易用性2题项量表和感知有用性2题项量表测量;第二,关于确定被试人机关系类型,本文首先让被试回答他们看待小艺是偏向于朋友/伙伴还是服务提供者/工具(7代表朋友/伙伴;1代表服务提供者/工具),继而借鉴Aggarwal(2004)所开发的关系规范两种类型10题项量表(其中7个为共有型关系的题项,剩下3个为交换型关系的题项),并根据研究情境作适当调整,进行操控检验,让被试对人机关系类型量表进行打分;第三,被试感知用户评价打分,采用Petty等(1983)和Cox(2002)所使用的4题项用户评价量表。所有问题均采用李克特7级量表,1代表完全不赞同,7代表完全赞同。在有呈现小艺的化身形象组,鉴于问卷呈现的形象是市场上存在的智能语音助手化身形象,因而被试需要回答对该形象是否了解,回答了解的结束问卷。问卷的最后一部分为被试人口统计学特征,由性别与年龄构成。

(二)数据结果与讨论

实验1共招募400名华为手机用户,回收问卷400份,有效样本量为314份,有效样本比例为78.5%。其中,男性被试比例为51%(160名),女性被试比例为49%(154名);被试年龄在28-27岁的比例为55.1%(173名),18-27岁的比例为38.9%(122名),38岁及以上的比例为6%(19名)。实验各条件具体分配情况如表2所示。

语音情感识别模型(人机交往中闻声)(4)

在被试对华为小艺这一智能语音助手的易用性、有用性以及智能程度感知层面,本文采用独立样本T检验,数据结果表明,有形象与无形象组对华为小艺的感知易用性、有用性和智能性无显著差异。可以排除实验结果可能受到以上因素的干扰。

本文以中位数4为基准,被试在将小艺视为朋友或伙伴还是服务提供者或工具时,小于等于4的被划分为将智能语音助手视为服务提供者或工具;大于等于5的被划分为将智能语音助手视为朋友或伙伴。继而采用独立样本T检验,检验人机关系的类别是否具有显著差异。结果表明,被试在看待智能语音助手与自身的关系上具有显著差异。在被试认为智能语音助手是朋友或伙伴时,共有型关系的题型得分比被试认为智能语音助手是服务提供者或工具的更高;在被试认为智能语音助手是服务提供者或工具时,交换型关系的题项得分比被试认为智能语音助手是朋友/伙伴时更高。由此说明,用户在看待智能语音助手与自身关系上,交换型与共有型具有显著差异。

本文采用单因素方差分析,对智能语音助手化身形象呈现与人机关系类型的交互影响用户评价的作用进行检验。四组的用户评价如图2所示。数据结果表明,智能语音助手化身形象呈现对用户评价影响这一主效应不显著,智能语音助手化身形象呈现与人机关系类型的交互项对用户评价影响作用显著,说明智能语音助手化身形象呈现与人机关系类型具有显著的交互作用,支持H1。本文进一步进行简单效应分析,发现在人机关系类型是共有型时,化身形象不呈现的用户评价显著优于化身形象呈现,因此支持研究假设H1a;而在人机关系类型是交换型时,化身形象呈现的用户评价显著优于化身形象无呈现,支持研究假设H1b。

语音情感识别模型(人机交往中闻声)(5)

四 实验二:

意象清晰度与意象失真性的中介作用研究

(一)实验设计与实验过程

1. 实验设计

由于实验一使用华为智能语音助手小艺的真实用户作为被试,实验结果很可能受到使用体验和产品既有特征的影响。因此,实验二为了降低被试先前体验与产品特征的干扰,使用情景模拟的实验设计进行。与实验一相同,实验二采用2(无化身形象呈现 VS. 有化身形象呈现)× 2(共有型人机关系 VS. 交换型人机关系)的组间实验设计。智能语音助手的化身形象材料使用实验一预测试各维度得分最高的第二个形象,即OPPO的小布。为了确保不因为实验材料本身特征干扰实验结果,文章对实验材料在与智能语音助手产品的契合度、形象吸引力、形象可爱度、温暖感以及亲和力等五个维度上进行了组间测试。具体测试共有106名(男性46名)使用过智能语音助手的被试参与,结果如表3所示。可以发现,实验二所选择的实验材料在五个维度上平均得分很高,数据变异度较低,说明大部分被试一致认为该形象与智能语音助手产品具有很强的契合度,该形象的吸引力、可爱度、温暖感和亲和力均很高。

语音情感识别模型(人机交往中闻声)(6)

在人机关系类型的实验材料上,本文借鉴Wan等(2011)使用的关系规范操控设计,并结合本文的研究情境,通过2个步骤来操控该变量。第一步,被试在回答问题前需要阅读一份关于智能语音助手小B的介绍,引导被试进入实验情景。在共有型关系操控的条件和交换型关系操控的条件下,分别使被试阅读到不同的实验材料。

由于本文研究对象为智能语音助手,其高度拟人化的声音是引发相关作用机制的重要来源。因此,第二步为向被试提供一段30秒的语音材料。在共有型关系操控条件和交换型关系操控条件下,分别使被试听到不同的实验材料。

共有型与交换型关系所使用的语音来源均为SkyVoice软件的女声合成语音。SkyVoice的合成语音更接近于目前市场中现有的智能语音助手的声音特征。共有型与交换型关系所使用的合成声音在音高、音频、音调等所有层面均一致,仅在内容上有所差异。

2. 实验过程

正式实验于2022年4月25日开始,于2022年4月30日截止。根据2(有化身形象呈现 VS. 无化身形象呈现)× 2(共有型人机关系 VS. 交换型人机关系)的组间实验设计,共有4组问卷。由于问卷星调研平台不能无偿呈现音频实验材料,实验二的数据来源为见数调研平台的调查数据。问卷结构与实验一相同,用户评价量表与实验一采用相同的量表(α=0.949)。具体的问卷设计与实验一的差异在于以下三个方面:第一,由于使用情景模拟实验,采用虚拟智能语音产品进行实验,因此不需要测量既有产品特征与用户感知;第二,问卷第一部分由被试筛选改为情感型与功能型人机关系规范操控,因此被试首先会阅读和试听以上实验材料,完毕后需要进行一次有效问卷筛选,即被试回答语音材料中小B的声音性别特性;鉴于实验一结果证明,在智能语音助手这类型产品中,用户将其视为工具或服务提供还是伙伴或朋友,是完全可以用于人机关系规范类型的操控检验,因此实验二的共有型或交换型关系的操控检验问题,借鉴Chen、He、Hu 和 Kim(2020)的研究,采用1个题项检验,通过询问被试将小B视为工具还是视为伙伴或朋友;第三,实验二主要为检验意象清晰度与意象失真性的中介作用,因此在问卷的第二部分被试需要回答意象清晰度与意象失真性的相关问题。

(二)数据结果与讨论

实验2共招募300名被试,回收问卷300份,有效样本量为249份(被试有效性检测中回答错误的为无效样本),有效样本比例为83%。其中,男性被试比例为42.6%(106名),女性被试比例为57.4%(143名);年龄在28-37岁的被试比例为52.6%(131名),18-27岁的比例为39%(97名),38岁及以上的比例为8.4%(21名)。实验各条件具体分配情况如表4所示。

语音情感识别模型(人机交往中闻声)(7)

本文采用独立样本T检验,检验人机关系类型的操控是否具有显著差异。数据结果表明,在实验操控为共有型的人机关系时,被试对共有型与交换型人机关系感知具有显著差异;在被试认为人机关系是交换型时,被试对共有型与交换型人机关系感知具有显著差异。本文采用单因素方差分析,对智能语音助手化身形象呈现与人机关系类型的交互对用户评价影响进行检验。四组的用户评价如图3所示。

语音情感识别模型(人机交往中闻声)(8)

数据结果表明,智能语音助手化身形象呈现对用户评价影响这一主效应与实验一结果吻合,呈现不显著,智能语音助手化身形象呈现与人机关系类型的交互项对用户评价影响作用显著,说明智能语音助手化身形象呈现与人机关系类型具有显著的交互作用。本文进一步进行简单效应分析,发现在人机关系类型是交换型时,化身形象呈现的用户评价显著优于化身形象无呈现;而在人机关系类型是共有型时,化身形象不呈现的用户评价显著优于化身形象呈现,重复验证了H1a和H1b。

为了进行意象清晰度与意象失真度中介作用分析,本文采用Bootstrap程序,样本量为5000,模型为8(陈瑞,郑毓煌,刘文静,2013)。首先,分析在交换型人机关系情况下,意象清晰度是否为智能语音助手有无化身形象对用户评价影响中的中介变量。统计结果表明,有调节的中介模型显著。对于人机关系是交换型关系,意象清晰度间接效应显著;有无形象对用户评价的直接效应也显著,中介效应为0.779(p<0.001),说明意象清晰度在此其中为部分中介作用,支持研究假设H2a。对于人机关系是共有型关系,意象清晰度间接效应不显著,说明共有型人机关系下,意象清晰度在智能语音助手化身形象对用户评价的影响中不起中介作用。其次,分析意象失真性在共有型人机关系下,意象失真度是否为智能语音助手有无化身形象对用户评价影响中的中介变量。统计结果表明,有调节的中介模型显著。对于人机关系是共有型关系,意象失真度间接效应显著;有无形象对用户评价的直接效应不显著,中介效应为-0.648(p<0.001),说明意象失真度在共有型关系下,是智能语音助手化身形象呈现对用户评价影响的完全中介,支持研究假设H2b。对于人机关系是交换型关系,意象失真度间接效应显著;有无形象对用户评价的直接效应也显著,中介效应为0.21(p<0.001),说明意象失真度在此其中为部分中介作用。

五 结论与讨论

本研究以智能语音助手视觉感官与听觉感官特征为切入点,探讨智能语音助手化身形象呈现与人机关系类型的交互,如何影响用户对智能语音助手的评价。通过2个实验研究表明,拥有不同类型的人机关系用户,其生成智能语音助手视觉意象的清晰度不同,对智能语音助手感官信息加工精细度不同,从而导致智能语音助手视觉特征呈现对听觉意象的冲突或补偿效应。具体而言,当用户与智能语音助手的人机关系是共有型关系时(将机器视为伙伴或朋友),智能语音助手视觉特征呈现对用户之前经由听觉感官形成的心理意象会产生冲突,发生意象失真,从而减弱了用户对智能语音助手的评价;反之,当用户与智能语音助手的人机关系为交换型关系时(将机器视为工具或服务提供者),智能语音助手视觉特征呈现对用户之前经由听觉感官形成的心理意象会产生补偿作用,从而提升了用户对其评价。此外,研究还验证了意象失真性在共有型人机关系类型下智能语音助手视觉特征呈现对用户评价的影响中起到了完全中介作用,表明当用户把智能语音助手当作伙伴或朋友时,智能语音助手化身形象的呈现,会通过提升用户的意象失真度,从而减弱了用户对其的评价;而意象清晰度在交换型人机关系类型下智能语音助手视觉特征呈现对用户评价的影响中起到部分中介作用,这表明当用户把智能语音助手当成工具时,智能语音助手化身形象的呈现,会通过加强用户的意象清晰度,提升用户对其评价。

本研究补充了人机交往与网络人际交往是否具有共同感官加工模式和机制的相关研究,深化智能传播时代对人机交往特点和模式的理解。以往研究已经论证,在面容与身体缺场的网络人际传播中,人们会根据交互对象的各种资料并基于自身经验与图式,构建交互对象的印象,因而会与交互对象真实形象发生印象失真(张放,2011)。本研究研究结果与人际交往的这个特性相似,即用户在与智能语音助手交互过程中,也会形成心理意象,并且在智能语音助手呈现出其拟人的化身形象时,也会发生意象失真,而且这一效应仅仅存在于人机关系是共有型关系时。由此说明了在共有型人机关系下,人机交往与网络人际交往在形成交往对象印象的路径中,具有一致的机制和效应。林升梁与叶力(2019)也曾指出,人机交往回归到人际传播模式的前提是新型人机关系,即人类与机器的伙伴、朋友型关系。因此,那些将智能语音助手视为伙伴与朋友的用户,是可以形成类似于网络人际交往中,人们对交互对象的“闻其声仿佛见其人”的效应,即便是智能语音助手的面容与身体缺场,用户也能在心理上形成智能语音助手生动真实的视觉意象,故当厂商呈现智能语音助手的化身形象时,更可能造成消极的评价;反之,在交换型的人机交往关系中,用户构建智能语音助手视觉意象缺乏清晰与生动性,因此当用户看到智能语音助手化身形象时,促进了用户对智能语音助手意向的清晰感知,从而提升积极评价。

在应用层面,本研究还对智能语音助手的设计提供了相关的实践启示。根据本研究的研究结论,智能语音助手厂商设计与呈现智能语音助手化身形象,并非能提升所有用户的产品评价。尤其是对那些人机关系为共有型关系的用户,智能语音助手的化身形象呈现会减弱他们的产品评价。因此,厂商应该有区分性地向用户呈现智能语音助手化身形象,例如对于那些使用时间长、频率高的用户,可以采用用户自行设计化身形象的方式,增加捏脸功能或者提供多样化的化身形象,供用户自主选择和创意改编;对于那些使用时间短以及使用频率低的用户,则可以呈现标准化的化身形象,以此增强用户对智能语音助手的积极评价。

最后,本研究存在以下三方面不足之处,未来研究可以在此基础上继续深化。一方面,本研究的两项实验均使用行为实验的方式,采集被试的心理与态度数据,未能采集用户生理数据,由此得到的研究结果不够稳健,因此后续研究可以尝试进行脑电实验,采集用户生理数据,修正研究模型。另一方面,本研究仅考虑了人机关系类型的调节因素,未能全面考量其它变量和因素在此模型中的作用,例如交互场景、交互时间与交互特性,因此未来的研究可以综合考量其它变量,对本研究进行补充。另外,在人机关系中,本文仅研究了交换型和共有型两种较宽泛的关系类型,并未对其它更为细致的分类进行研究,有待今后的研究进一步深入。

本文系简写版,参考文献从略,原文刊载于《国际新闻界》2022年第10期。

封面图片来源于网络

本期执编/小晶

订阅信息

全国各地邮局均可订阅《国际新闻界》,国内邮发代号:82-849,欢迎您订阅!

您还可访问《国际新闻界》官方网站 http://cjjc.ruc.edu.cn/ ,免费获取往期pdf版本。

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页