人工智能 人机交互(人工智能发展概况)
1 人机交互概念
人机交互(Human-Computer Interaction,HCI),是人与计算机之间为完成某项任务所进行的信息交换过程,是一门研究系统与用户之间的交互关系的学问。 系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户的可见部分,用户通过人机交互界面与系统交流,并进行操作。人机交互技术是计算机用户界面设计中的重要内容之一,与认知学、人机工程学、心理学等学科领域有密切的联系。
目前关于人机交互的定义主要有三种:
一是ACM(Association for Computing Machinery)的观点,它将人机交互定义为:有关交互计算机系统设计、评估、实现以及与之相关现象的学科;
二是伯明翰大学教授 AlanDix 的观点:他认为人机交互是研究人、计算机以及他们之间相互作用方式的学科,学习人机交互的目的是使计算机技术更好地为人类服务;
三是宾夕法尼亚州立大学 JohnM.Carroll 的观点:他认为人机交互指的是有关可用性的学习和实践,是关于理解和构建用户乐于使用的软件和技术,并能在使用时发现产品有效性的学科。
无论是哪一种定义方式,人机交互所关注的首要问题都是人与计算机之间的关系问题。
人机交互技术的发展与国民经济发展有着直接的联系,它是使信息技术融入社会,深入群体,达到广泛应用的技术门槛。任何一种新交互技术的诞生,都会带来其新的应用人群,新的应用领域,带来巨大的社会经济效益,从企业的角度, 改善人机交互能够提高员工的生产效率;学习人机交互能够降低产品的后续支持成本。从个人的角度,可以帮助用户有效地降低错误发生的概率,避免由于错误引发的损失。在现代和未来的社会里,只要有人利用通信、计算机等信息处理技术进行社会活动时,人机交互都是永恒的主题,鉴于它对科技发展的重要性,人 机交互是现代信息技术、人工智能技术研究的热门方向。
2 人机交互发展历史
人机交互的发展历史,是从人适应计算机到计算机不断地适应人的发展史。 交互的信息也由精确的输入输出信息变成非精确的输入输出信息。
2.1 简单人机交互
由于受到制造技术和成本等原因限制,早期的人机交互在设计上较少考虑人的因素,强调输入输出信息的精确性,使用不够自然和高效。
早期的手工作业
这个时期交互的特点是由设计者(或本部门同事)来使用计算机,他们采用手工操作和依赖机器(二进制机器代码)的方法去适应计算机。
作业控制语言及交互命令语言
这一阶段特点是计算机的主要使用者—程序员可采用批处理作业语言或交互命令语言的方式和计算机打交道,虽然要记忆许多命令和熟练地敲键盘,但已可用较方便的手段来调试程序、了解计算机执行情况。
命令行界面概念模型
图形用户界面(GUI)
图形用户界面的主要特点是桌面隐喻、WIMP(Window / Icon / Menu / Pointing Device)技术、直接操纵和“所见即所得(WYSIWYG)”。由于 GUI 简明易学、减少了敲键盘、实现了“事实上的标准化”。因而使不懂计算机的普 通用户也可以熟练地使用,开拓了用户人群。它的出现使信息产业得到空前的发 展。
网络用户界面
以超文本标记语言 HTML 及超文本传输协议 HTTP 为主要基础的网络浏览器是网络用户界面的代表。由它形成的万维网(World Wide Web, WWW)已经 成为当今 Internet 的支柱。这类人机交互技术的特点是发展快,新的技术不断出 现,如搜索引擎、网络加速、多媒体动画、聊天工具等。
2.2 自然人机交互
随着网络的普及性发展和无线通讯技术的发展,人机交互领域面临着巨大的挑战和机遇,传统的图形界面交互已经产生了本质的变化,人们的需求不再局限于界面美学形式的创新,用户更多的希望在使用多媒体终端时,有着更便捷、更符合他们使用习惯,同时又有着比较美观的操作界面。利用人的多种感觉通道和 动作通道(如语音、手写、姿势、视线、表情等输入),以并行、非精确的方式与(可见或不可见的)计算机环境进行交互,使人们从传统的交互方式的束缚解脱出来,使人们进入自然和谐的人机交互时期。这一时期的主要研究内容包括: 多通道交互、情感计算、自然语言理解、虚拟现实、智能用户界面等方面。
多通道交互
多通道交互(Multi Modal Interaction,MMI)是近年来迅速发展的一种人机交互技术,它既适应了“以人为中心”的自然交互准则,也推动了互联网时代信息产业(包括移动计算、移动通信、网络服务器等)的快速发展。
命令行界面概念模型
MMI 是指“使用多种通道与计算机通信的人机交互方式。通道(modality) 涵盖了用户表达意图、执行动作或感知反馈信息的各种通信方法,如言语、眼神、 脸部表情、唇动、手动、手势、头动、肢体姿势、触觉、嗅觉或味觉等”。采用这种方式的计算机用户界面称为“多通道用户界面”。目前,人类最长使用的多通道交互技术包括手写识别、笔式交互、语音识别、语音合成、数字墨水、视线跟踪技术、触觉通道的力反馈装置、生物特征识别技术和人脸表情识别技术等方面。
情感人机交互
让计算机具有情感能力首先是由美国 MIT 大学 Minsky 教授(人工智能创始 人之一)提出的。他在 1985 年的专著“The Society of Mind”中指出,问题不在于智能机器能否有任何情感,而在于机器实现智能时怎么能够没有情感。从此, 赋予计算机情感能力并让计算机能够理解和表达情感的研究、探讨引起了计算机界许多人士的兴趣。这方面的工作首推美国 MIT 媒体实验室 Picard 教授领导研究小组的工作。情感计算一词也首先由 Picard 教授于 1997 年出版的专著 “Affective Computing(情感计算)”中提出并给出了定义,即情感计算是关于情感、情感产生以及影响情感方面的计算。
MIT 对情感计算进行全方位研究,正在开发研究情感机器人,最终有可能人机融合。其媒体实验室与 HP 公司合作进行情感计算的研究。IBM 公司的“蓝眼计划”,可使计算机知道人想干什么,如当人的眼瞄向电视时,它竟然知道人想打开电视机,它便发出指令打开电视机。此外该公司还研究了情感鼠标,可根据手部的血压及温度等传感器感知用户的情感。CMU 主要研究可穿戴计算机。日本在对感性信息处理的研究中,有众多研究单位参与,主要集中在研究所和高校。 特别值得一提的是,日本欧姆龙公司研制生产的机器玩具曾风行一时,最高价达 4000 美元。随后其它公司也进行机器狗等玩具的生产。情感计算的研究不仅具有重要的科学和学术价值,也存在着巨大的商机,有很好的经济效益。
虚拟现实
虚拟现实(Virtual Reality,VR)是以计算机技术为核心,结合相关科学技术,生成与一定范围真实环境在视、听、触感等方面高度近似的数字化环境,用户借助必要的装备与数字化环境中的对象进行交互作用、相互影响,可以产生亲临对应真实环境的感受和体验。虚拟现实是人类在探索自然、认识自然过程中创造产生,逐步形成的一种用于认识自然、模拟自然,进而更好地适应和利用自然的科学方法和科学技术。
虚拟现实技术具有很强的应用性。军事方面,将 VR 技术应用于军事演练, 带来军事演练观念和方式的变革,推动了军事演练的发展。如美国的 SIMNET、 ACTDSTOW、WARSIM2000 和虚拟之旗 2006 等一系列分布式虚拟战场环境。 医学方面,VR 技术已初步应用于虚拟手术训练、远程会诊、手术规划及导航、 远程协作手术等方面,某些应用已成为医疗过程不可替代的重要手段和环节。工业领域方面,VR 技术多用于产品论证、设计、装配、人机工效和性能评价等。 代表性应用,如模拟训练、虚拟样机技术等已受到许多工业部门的重视。教育文化领域方面,VR 已经成为数字博物馆/科学馆、大型活动开闭幕式彩排仿真、沉浸式互动游戏等应用系统的核心支撑技术。纽约大都会博物馆、大英博物馆、俄罗斯冬宫博物馆和法国卢浮宫等都建立了自己的数字博物馆。
VR 参观卢浮宫概念图
智能用户界面
智能用户界面(Intelligent User Interface,IUI)是致力于改善人机交互的高效率、有效性和自然性的人机界面。它通过表达、推理,按照用户模型、领域模型、任务模型、谈话模型和媒体模型来实现人机交互。智能用户界面主要使用人工智能技术去实现人机通信,提高了人机交互的可用性:如知识表示技术支持基于模型的用户界面生成,规划识别和生成支持用户界面的对话管理,而语言、手势和图像理解支持多通道输入的分析,用户建模则实现了对自适应交互的支持等。当然,智能用户界面也离不开认知心理学、人机工程学的支持。
智能体、代理(Agents)在智能技术中的重要性已“不言而喻”了。Agent 是一个能够感知外界环境并具有自主行为能力的以实现其设计目标的自治系统。智能的 Agent 系统可以根据用户的喜好和需要配置具有个性化特点的应用程序。基于此技术,我们可以实现自适应用户系统、用户建模和自适应脑界面。自适应系统方面,如帮助用户获得信息,推荐产品,界面自适应,支持协同,接管例行工作,为用户裁剪信息,提供帮助,支持学习和管理引导对话等。用户建模方面, 目前机器学习是主要的用户建模方法,如神经网络、Bayesian 学习以及在推荐系 统中常使用协同过滤算法实现对个体用户的推荐。自适应脑界面方面,如神经分类器通过分析用户的脑电波识别出用户想要执行什么任务(该任务既可以是运动相关的任务如移动手臂,也可以是认知活动如做算术题)。
自然语言人界交互
在“计算机文化”到来的社会里,语言已不仅是人与人之间的交际工具,而且是人机对话的基础,是最自然的一种人机交互方式。自然语言处理(Natural Language Processing, NLP)是使用自然语言同计算机进行通讯的技术,因为处理自然语言的关键是要让计算机“理解”自然语言,所以自然语言处理又叫做自然语言理解(Natural Language Understanding, NLU)。
近年来自然语言理解技术在搜索技术方面得到了广泛的应用,现在,已经有越来越多的搜索引擎宣布支持自然语言搜索特性,自然语言人机交互界面在智能 短信服务、情报检索、人机对话等方面也具有广阔的发展前景和极高的应用价值, 并有一些阶段性成果出现在商业运用中。
3 人才概况
全球人才分布
学者地图用于描述特定领域学者的分布情况,对于进行学者调查、分析各地区竞争力现况尤为重要,下图为人机交互领域全球学者分布情况:
人机交互技术全球学者分布
地图根据学者当前就职机构地理位置进行绘制,其中颜色越深表示学者越集中。从该地图可以看出,美国的人才数量优势明显且主要分布在其东西海岸;欧洲也有较多的人才分布;亚洲的人才主要集中在日韩地区;其他诸如非洲、南美洲等地区的学者非常稀少;人机交互领域的人才分布与各地区的科技、经济实力情况大体一致。
此外,在性别比例方面,人机交互领域中男性学者占比 84.6%,女性学者占比 15.4%,男性学者占比远高于女性学者。
人机交互领域学者的 h-index 分布如下图所示,大部分学者的 h-index 分布 在中低区域,其中 h-index 在 20-30 区间的人数最多,有 842 人,占比 42.1%, 50-60 区间的人数最少,有 136 人。
人机交互技术学者 h-index 分布
中国人才分布
我国专家学者在人机交互领域的分布如下图所示。通过下图我们可以发现, 京津地区在本领域的人才数量最多,其次是长三角和珠三角地区,相比之下,内陆地区的人才较为匮乏,这种分布与区位因素和经济水平情况不无关系。同时, 通过观察中国周边国家的学者数量情况,特别是与日韩等地相比,中国在人机交互领域学者数量较少。
人机交互技术中国学者分布
中国与其他国家在人机交互领域的合作情况可以根据 AMiner 数据平台分析得到,通过统计论文中作者的单位信息,将作者映射到各个国家中,进而统计中国与各国之间合作论文的数量,并按照合作论文发表数量从高到低进行了排序, 如下表所示。
人机交互领域中国与各国合作论文情况
从上表数据可以看出,中美合作的论文数、引用数、学者数遥遥领先,表明中美间在人机交互领域合作之密切;此外,中国与欧洲的合作非常广泛,前 10 名合作关系里中欧合作共占 5 席;中国与美国,中国与法国合作的论文平均引用数都达到了最高,说明在合作质量上中美、中法合作达到了较高的水平。
4 人机交互进展
最近的十年,是人机交互向自然交互蓬勃发展的十年。毋庸置疑,计算机是世纪最伟大的发明,其作用从科学计算工具迅速发展为信息处理和信息交互工具, 起引领作用的则是人机交互技术的变革,即以鼠标发明为标志的图形用户界面 (GraphicalUserInterface,GUI)的产生,一改规范命令与计算机交互的命令行界 面模式(Command Line Interface,CLI),GUI 提供了普通人与计算机便捷交互的工具和方法,让计算机从实验室走进办公室、走入家庭,十多年前,触屏技术成为产品技术,GUI 中的鼠标被人的天然指点(pointing)工具——手指所取代, 计算机又变身出手机,成为更多人方便使用的随身掌上工具。更少依赖操控工具, 发展学习和使用成本更小的自然交互技术,一直是人机交互研究的价值追求,最 近十年,随着感知和计算技术的进步,自然交互技术创新层出不穷,并能迅速成为新型产品技术,《麻省理工科技评论》总结和评论人机交互领域的突破技术 (breakthroughs),为人机交互技术、未来终端技术的发展建立了一个高端的技 术论坛,影响深远。我把这些突破技术分为 3 大类:支持自然动作的感知技术, 面向穿戴的新型终端和基于语音识别的对话交互。
人体动作蕴含丰富的语义,动作交互技术一方面需要感知技术的进步,另一方面需要发现或设计有明确交互语义的动作(gesture,姿态,由于人手的灵巧性, 手势成为主要的交互动作,通常叫做手势),如今,二维表面上,多指触摸动作在触屏上已普遍可用,三维空间中,嵌入了深度摄像头的手持和固定设备,能比 较准确识别人的姿态和动作,做出响应。不同于人脸识别等目标明确的视觉识别任务,动作交互不仅要求视觉识别的准确度,更需要研究基于交互任务的动作表达的自然性与一致性,难以发现和突破,所以,除了动作语义很直白的动作游戏 (body game),三维动作交互尚缺少普遍认知和接受的交互动作语义。而无论二维还是三维,手势的不可见性,是动作交互的主要难题。
穿戴(wearable)取代手持(handheld)曾是前几年的一个革命口号,目前看, 市场上的确出现了一定规模的新产品,但穿戴仍是补充的地位。穿戴设备中,手环设备基本只有健康和活动检测功能,智能手表可以算做创新终端,但作为缩小版的手机,由于交互界面的缩小和操作方式的限制(通常是小界面上双手参与操 作),其承载功能也较手机缩减很多。VR/AR(虚拟现实/增强现实)的一个理想载体是头戴式设备,最近几年,多款智能眼镜产品面世,较之前笨重的头盔轻便了许多,逼真的虚拟场景和准确的现实对象识别信息都可以清晰呈现在眼前, 并在特定领域开拓着增强体验的应用;然而,智能眼镜尚缺少与其三维真实显示匹配的准确的自然输入技术,以及从眼手绑定在手机上转变到眼手分离的眼镜设备上时,尚未建立起相应的交互模式。
自然语言对话式交互得益于大数据和智能技术的进步,多语言的自然语音识别技术在用户终端上都达到了很高的可用水平,并且,语音识别超越文本输入方 式,成为智能软件助理的使能技术,近两年,更是有基于语音接口的家居产品如雨后春笋般出现,VU(I VoiceUserInterface,语音用户界面)已经成为交互术语。 然而,VUI 的局限也是显而易见的,相对并行模式的视觉通道,串行模式的语音通道的带宽显然窄的多,出声的使用方式在很多场合是不合适的,但作为一种可用的自然交互技术,有效提升了用户体验。
人机交互作为终端产品的引领技术的作用已经是产业界的普遍认识,欣喜看到很多种自然交互技术和新型交互终端面世,但 GUI 仍是交互的主导模式。计算无所不在,交互自然高效是发展趋势,人机交互的研究和开发空间很大,需要综合地探索自然交互技术的科学原理,建立明确的优化目标,结合智能技术,发展高可用的自然交互技术。
扩展阅读:人工只能发展概况:机器学习篇
人工智能发展概况:计算机视觉篇
人工智能发展概况:知识工程篇
人工智能发展概况:自然语言处理篇
人工智能发展概况:语音识别篇
视频:人工智能时代资料来源:公开网络
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com