攻破鸡尾酒会难题!人声分离究竟给生活带来了哪些改变?

日期: 2025-09-12 21:04:34|浏览: 15|编号: 157108

友情提醒:信息内容由网友发布,本站并不对内容真实性负责,请自鉴内容真实性。

攻破鸡尾酒会难题!人声分离究竟给生活带来了哪些改变?

设想一下,在一场喧闹的聚会中,各种声音交织在一起:人们交谈的声响、杯盘碰撞的动静、播放的乐曲等等。尽管如此复杂,我们依然能够轻易地从这些声音中辨识出某个人的讲话声。

对于机器而言,将一个声音信号分解为多个不同的发声来源,依然存在诸多难题亟待攻克。当众多人的声音同时响起时,人工智能系统常常难以应对。自1953年提出“鸡尾酒会”难题以来,至今仍无人能够实现机器深度学习准确分辨并分离人声的功能。

不过,近期由软件工程师和Oran Lang合著的一篇论文《》提出了一种创新的视听框架,针对“鸡尾酒会”难题给出了一个恰当的应对方案。

音频-视觉语音分离模型,解决“鸡尾酒会效应”

针对“多人语音分离”难题,谷歌向上检索了十万份高水准的演讲与授课视频作为学习素材,经过两千小时的视频片段研判,培养出一种运用多分支卷积神经网络的模型,该模型能够将合成的多人交谈视频片段,分解为每位发言者的独立声音轨迹。

这项测试的素材包含一个或多个发出声音的人,并且这些声音被其他人的活动或者杂乱的背景声音所干扰的视频片段,处理后的结果是将这些视频的音频部分分离出来,形成各个说话人清晰的音频文件,并且能够将每个音频与对应的发言人匹配起来。

这种技术能够突出指定人物的发声,同时降低其他人的声音强度,主要应用在只有一个主要音轨的普通影片上,使用者可以自主挑选想要聆听的角色来提取其专属音轨,或者让系统根据场景自动挑选目标人物的声音进行提取。

在模型训练期间,系统分别掌握了图像与声音数据的解析方法,接着将二者整合为一种综合表现形态。借助这种形态,系统能够为每一个发声体单独生成时频编码。这种编码和噪声频谱图相乘后,再经过转换处理,最终变为时域内的波形,由此得到每位发声者分离开的清晰声音。

基于神经网络模型架构

另外,当有多个声音同时出现时,视觉提示不仅能显著改善声音分辨的效果,还能将分辨出来的音频轨道与视频中的个体形象关联起来。这种做法为后续的语音识别研究开辟了广阔的前景。

解决“鸡尾酒会效应”这一难题意味着什么?

“鸡尾酒会效应”难题的破解为语音辨识领域的诸多课题开启了新思路,而视觉-音频网络识别系统的问世,也为声音分离提供了结合视觉与听觉的应对方案。技术逐步实用化,当声音分离技术真正进入市场,会对产品带来哪些革新呢?智能相对论研究者柯鸣指出,其将在四个层面实现显著进展。

1.人声分离助力CC(隐藏式字幕)发展

附加的字幕,即括号里的内容,是电视节目和电影里提供给特殊人群或者有需求的观众使用的字幕,能够用说明性的文字来转达画面信息。

这个词,是为听障人士设计的,他们借助它来理解声音。里面还附带音效的提醒,这些声音普通人能够识别,但听障人士需要依靠字幕来获取信息。

例如美国有档名为《流言终结者》的节目,除了能看见电视节目分级为普通级以外,也标示了CC图标,说明节目配备了隐藏式字幕,以此方便那些有特殊需求的观众。

同样,谷歌的人声辨别技术对推动CC进步潜力巨大。在多声道系统中,针对特定人声的辨别可以简化节目、影视作品的制作环节,其在语音识别的初步处理,以及视频配字环节能带来显著成效。

视频自动字幕加载系统面临一个难题,即多人同时讲话造成的语音混杂情况,而将音频区分到各个发声源,则有助于生成更精准且便于阅读的字幕,人声分离技术能够根据语音原始内容,分别提取出不同对话者的声音,加以分离,借助人工智能实现字幕的自动化处理,这显著提升了字幕的同步性与正确度。

2.人声分离降低AI同传“乌龙率”

二零一八年博鳌峰会期间,腾讯人工智能实时翻译系统出现严重失误。不仅译文内容存在偏差,系统还突然故障,屏幕上显示大量无意义字符,场面十分狼狈。

事后,腾讯表示:产生这种失误的缘由在于中英两种语言转换过于频繁。当声音来源在两种语言间不停变换时,后台的中英文识别系统会同时启动,这会造成两种识别系统相互干扰,致使语音识别出现错乱。最终翻译产物只能选用一种语言呈现,因而造成错误发生。

而人声分离技术,在AI同传中,对于人声识别,带来了一种可行的办法。多种语言识别,变得顺畅之后,AI同传的整体水平,也会随之有所改善。

3.或可为智能音响提供“保险箱”

智能音箱的面世,让寻常家庭迈入了语音交流的新纪元,它的操作便捷程度,甚至超越了手机。某些专家推测,智能音箱或许会取代手机,变成家庭自动化或智能居住环境的枢纽,口语化交流将主导并实现高效的用户交互界面。

智能音箱在实际使用时,也遭遇不少困难,集中反映在语音辨认、声音特征确认等多项技术层面。现阶段,该类设备的核心瓶颈在于语音辨认技术,难以在喧闹环境中准确分辨指令——诸如酒吧、运动场等人群密集的场所。

微软为此在Xbox上推出了一款应用,其用途是收集用户在娱乐游戏或观看影片时的语音信息。为了激励用户分享游戏中的交流内容,企业为参与项目的成员准备了丰厚的回馈,涵盖虚拟货币和游戏内物品。

但是,结果并非理想状态。在杂乱环境中分辨出人的说话声,以及区分不同人的声音,仍然是智能音箱面临的挑战。将来,随着智能家居的广泛使用,智能音箱将成为物联网中连接其他家居设备的媒介。而AI人声分离技术的运用,不仅解决了技术难题,也为智能音箱构建了一个更为稳固的安全屏障。

4.为无人驾驶提供仿生启示

蝙蝠在飞行时运用超声波探测环境,以规避障碍物和搜寻猎物,这一行为模式为无人驾驶技术带来启发。蝙蝠会发出一连串超声波,当这些声波碰到物体时会折返,蝙蝠依据回声到达左右耳的时间差异来判定障碍物的方位,同时根据回声的强弱来估算与障碍物的远近。

蝙蝠发出的超声波通常是一种频率连续变化的信号,通过感知不同频率信号在传播过程中的减弱程度,能够分辨出前方物体的材质,从而可以判断该物体是否为捕食目标。

蝙蝠怎样分辨自身与他人发出的超声波呢?研究人员发现,蝙蝠并未调整发出超声的频率,而是采用声音增强,延续时间加长,以及增加发射频次等手段来处理。

动物界的“鸡尾酒会效应”为无人驾驶提供了借鉴,要想提升雷达的定位精准度,关键在于增强信噪比。举例来说,蝙蝠通过增大叫声强度来提升信号能量,同时,延长叫声时长和增加频率,能够丰富信号信息。当噪声与环境无关时,采用平均处理能有效削弱干扰。这些发现,对于机器人和自动驾驶领域具有指导意义。

另外,在无人驾驶技术中,视觉与音频语音识别分离模型的应用能够显著增强雷达、激光等远程探测设备获取道路状况的能力,这构成了无人驾驶安全运行的根本保障。

未来自动驾驶技术广泛应用时,声音分离技术或可发展为“雷声分离”,以此降低雷达误判的可能性,进而确保自动驾驶车辆在识别障碍物时的安全性。

确实,新兴技术的采用需要一定过程。谷歌公司当前透露,他们正研究将这项技术整合到其产品线中。当“多人语音分离”问题得到突破,人工智能语音辨认能力将获得显著提升。至于实际应用在产品上的效果如何,最终要由市场来评判。


提醒:请联系我时一定说明是从伴游招聘网上看到的!