日本电影女孩戴着帽子摇头晃脑(如果我的脸和声音被复制了)
说到换脸变声,你可能会想到《聊斋》中的画皮或者是当下的PS技术,但是,这里说的换脸变声实际上是AI的硬核技术。
如果AI能实现换脸,那么我会不会成为色情片的主角?如果AI能变声,那么诈骗会不会变得更猖獗?
前不久,有杨幂粉丝将朱茵版《神雕侠侣》中的经典扮相“黄蓉”的脸替换成杨幂,这段视频在网络上引起热议,以至于微博话题点击量飙升至1.1亿。有很多网友对这样的“改头换面”表示毫无违和感。
杨幂瞬间成了演技派 (来源:网络)
实际上,除了换脸,不少人工智能公司也在着力展现他们的变声技术。比如在科大讯飞2019新品发布会上,董事长刘庆峰通过AI变声技术,现场模拟了单田芳、林志玲和罗永浩的声音来做开场白。
不知所以的现场观众还真以为罗永浩来到了现场 (来源:华尔街见闻)
虽然以上案例带有更多的娱乐性质,但细思极恐,暴露在外的人脸、声音是个人唯一且不可再生的生物信息,如果被采集并“移花接木”到他人身上,或者自己身上被安上了别人的脸和声音,那会是怎样的场景?有网友提出此举可能侵犯肖像权,甚至会产生诈骗,还有可能被用来制作成人视频。
一分钟换脸成功
从2017年开始,各种换脸、变声App就在各大应用商店盛行, 《IT时报》记者在AppStore中搜索了此类App,换脸类的有诸如换脸大师、AI换脸、颜技等,变声类的有手机变声器、伪音变声器等。这些换脸变声的应用真的有那么神奇吗?
《IT时报》记者试用了一款名为“Morphin”的换脸应用,使用之前需要添加自己的头像,这个应用的最主要功能就是换完脸后可以生成一张GIF 图。在其素材库中有许多明星的动图,如《了不起的盖茨比》中小李子举酒杯、骚气的撒盐哥等,玩家可以把自己的头像“移花接木”到任何明星身上。《IT时报》记者从网上下载了一张女性头像照片,并在“Morphin”的图库中选择了一张蜘蛛侠的动图,一分钟,经过“Morphin”的处理,蜘蛛侠动图上蜘蛛侠的动作没有改变,但脸已经变成了上述女性的脸。从效果上看,虽然有点模糊,但还是较为逼真的,不仔细看很难看出端倪。
变声的效果同样也是如此,在两年前的GeekPwn极棒安全大赛上,主持人黄健翔就在现场被AI“戏耍”了一把,仿声AI模仿黄健翔的声音与评委互动,让“正主”黄健翔直呼“太像了”。如果说个人判断是凭感觉,那么选手们利用语音合成中的参数合成模式一举攻破声纹识别系统并通过手机声纹锁的验证足以证明:不论是图像领域,还是在语音和行为智能领域,AI 存在被欺骗的可能性。
三大法宝:数据、学习、显卡
换脸变声,这个听上去满满“科技感”的功能,技术门槛高吗?
GeekPwn实验室安全研究员宋宇昊给《IT时报》记者演示了整个过程,他在网上下载了一段相声演员的演出视频并录制了自己的一段面部视频,分别从中截取上千张图片,用基于开源项目改编的程序代码提取这些图片中目标人物的脸部特征,训练机器来学习目标人物的“一颦一笑”。“为了让效果更逼真,需要采集目标人物不同的表情,训练时长大概需要2-3天。”宋宇昊说。
在宋宇昊的电脑上有两个界面,一个界面显示的是其本人实时的一举一动,另外一个界面则显示的是换脸之后的效果,宋宇昊的脸已经变成了上述相声演员的脸,“如果需要更逼真,还可以在肤色、灯光等各种细节上打磨。”在宋宇昊看来,换脸的技术门槛并不高,只需要从开源项目网站下载成熟的项目代码,外加一块性能较好的显卡。
变声的原理亦是如此!蜻蜓FM大教育赛道负责人牛森向《IT时报》记者解释,当前市场上大多数的变声软件是改变输入音频的音色、音调并将变声后的音频输出,是基于真实人声来进行的简单变化。真正的变声,要有足够覆盖全场景、全内容、全领域的语音样本库、高理解力的文本解析能力以及精准的语音表述能力。“语音cos在实操层面有很多硬伤,比如合成后的音频与真实的人声在情绪和情感表达上难以完全一致。单纯从技术角度看,核心难点在于音节衔接和情感表达上如何无限接近真人。在同样内容的音频样本中,如果用户无法准确分辨哪些语音样本是机器生成的,哪些是人类生产的,基本就可以认为这一合成系统通过了图灵测试,实现了人工智能。”
随着AI“智商”的提高,换脸变声也在变得越来越容易。“以前要合成一个目标声音,可能需要半小时的声音素材,现在只需要3、5分钟的素材即可。”一位技术人员告诉《IT时报》记者。
为何说换脸变声是AI的硬核技术?公安部第三研究所顾荣杰主任告诉《IT时报》记者,换脸变声背后的关键技术是基于神经网络的深度学习技术,这类技术的挑战主要有两个方面,一是要有好的深度学习算法,二是要有大量的训练数据。用在换脸变声这类应用中,尽管现在有一些公开的标准数据集可以直接下载作为训练数据集来使用,但要做得好,还是要采集大量的人脸、语音信息。采集大量训练数据是有难度的,但中国是数据大国,在中国研究人工智能有天然的优势。
抢滩“换脸变声”领域
在日常生活中,换脸变声最大的“用武之地”要算是导航软件了,让大牌明星的声音为你指路。
“应用场景主要有两大类,一是娱乐性应用,二是实效性应用。大部分换脸变声应用属于娱乐类应用,博大家一乐。导航类应用属于实效性应用,现在的声音合成技术只要采集某个人相应数量的语音数据,就可以很好地模拟他的声音读出其他语句。此外,换脸变声技术还可以应用在影视节目制作上,即使电影已经拍完了,也可以对某个演员进行替换,而观众难以察觉。”顾荣杰说。
的确,很多人工智能企业都在涉足这个领域。除了科大讯飞,搜狗前不久也展示了搜狗变声功能,可以实现把任何人的声音转化成特定声音,秒变林志玲、马云的声音都可以。 在搜狗输入法中,用户可以将自己的声音自由变换成喜欢的声音,在微信、QQ、陌陌等主要社交场景均可使用。
在牛森看来,在人工智能领域,语音合成是下一代人机交互的入口之一。随着5G等底层技术的广泛应用,语音合成作为人机交互的必要环节,基于此的业务想象空间非常广阔,必然会是各大公司争抢的赛道。
据了解,目前,在公安机关的侦查办案过程中,换脸变声技术还用不上,主要的语音、人脸比对技术应用则相当广泛。通过1:1的语音、人脸比对,警方可以确认嫌疑人身份,这些技术在公安上已经发挥了很大的作用。
生物信息的“隐私大门”被打开
技术是把双刃剑,它在改变社会的同时,也势必会带来一些负面影响。换脸变声也不例外,此前,有的国外女星被AI换脸技术造成了极大的困扰,因为她们的脸被换到了小黄片上。
当然,明星“中枪”的概率的确更高,但普通百姓就能高枕无忧了吗?“说不准某一天你会接到‘马云’的电话。”有网友担心。
这样的担心并非杞人忧天,《IT时报》记者在试用换脸变声App时发现,这些App都需要用户授权访问麦克风、相册之后才能使用,一旦授权,这也意味着“隐私大门”被打开。
“生物特征信息如果被滥用,确实会带来风险。比如提取你的声纹后,就可能模拟出你的声音,用这个声音来打电话给你的亲朋好友借钱,实施诈骗行为,接电话的人就不太好分辨,容易信以为真。人脸也类似,理论上也存在类似的风险。”顾荣杰表示,当然,目前用变脸来实施诈骗等犯罪行为还不多。
在宋宇昊看来,目前的诈骗手段主要以广撒网为主,如果采用换脸变声去诈骗,目标要非常有针对性,且要对目标周边的人也非常熟悉。但不排除日后有可能被诈骗分子、黑产利用的情况。
目前技术的发展仍然是走在伦理、法律的前面,我们不能因噎废食,如何让换脸变声技术在正当的范围内被使用?
首先,相关企业要不违规收集、蓄意滥用用户数据。在顾荣杰看来,当前大多数企业在这方面的自我约束仍然不够严格,许多App在获取个人隐私包括生物特征信息方面肆无忌惮,还有一些运营着海量数据平台的巨头企业在保护用户隐私方面也仍需进一步改进;其次,对用户数据的保护应该采取像加密存储传输、访问控制、操作审计等技术和机制切实保障用户数据安全。
一个好的信号是,未来换脸变声的应用或将受到法律管制。“国家已经出台了一些法律法规来规范企业收集、存储、使用用户数据的行为,最近还新出了《个人信息出境安全评估办法》的征求意见稿,对用户数据出国境做了限制,相信这些法律法规的出台,能够进一步规范数据的采集和使用行为,降低公民隐私信息导致的风险。”顾荣杰说。
编辑:挨踢妹
图片:IT时报 网络
来源:《IT时报》公众号vittimes
,免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com