智能声学
2022年,07月19日

1

声音是人类感知环境、交流沟通的主要方式之一, 其中包含大量信息, 人们一直在探究利用声学技术来高效获取信息、提升效率。在当今人工智能的发展浪潮中, 声学学科在各专业研究人员的不懈努力下不断取得突破。


智能声学技术

Intelligent acoustic technology


Part.1 声源定位

在音频处理中,对声源或者发声者的语音增强是核心问题。机器学习和声学的结合,在手机、汽车、助听器和智能家居等领域都有广泛应用。虽然这个方向的发展非常迅猛,但是在高背景噪声和房间混响的环境下准确识别声源依然是最大的挑战。LOCATA项目最近发起了一项声源定位和追踪的挑战,建立了一个基于现实生活录音的数据库可以用来训练声源定位算法。现在国内外各大语音相关企业都在开展这方面的研究。

2

Part.2 生物声学

  这里的声音不仅仅局限于语音。机器学习已经用于回答以下问题:为什么动物会发声?为什么会出现喊叫和歌声?这些声音之间有什么联系?这些方面有丰富的数据,可供机器学习使用。

   通过采集动物叫声,来对他们的生物和生态方面的行为进行分类,从而鉴定某一个区域的动物分布密度,以及密度如何随时间变化,月亮圆缺如何影响动物觅食行为等。早在90年代就有人研究过海洋动物的特征 ,通过提取音频中特征对应的心理声学参数、时频特征等来训练机器学习模型。80年代就有人通过海豚的叫声来对海豚种类进行分类,后来GMM被用到了齿鲸叫声频谱参数数值变化的研究,用隐形马尔科夫模型HMM通过鸟叫来给鸟分类,用多层神经网络分类蝙蝠和鲸鱼,并识别出杀人虎鲸的叫声——方便及时跑路。还有用ensemble learning来给大黄蜂进行分类。



Part.3 地质探测

  对碳水化合物的地质探测主要通过收集发射的地震波的反射波,来分析地表下反射层是否存在不连续,从而探测地下是否存在碳水资源。这个领域传统方法是结合信号和图像处理。

3


Part.4 混响和环境声

  人类每天都在和复杂的声环境打交道,各种各样的声源包括语音、音乐、冲击、摩擦、流动、动物、机器等。每个声源发出的声音和其他声源以及周围环境发生交互,导致传到人耳里面的声音非常复杂,并不包含声源的原始声音。像之前提到的,去混响和反射、提取声源声音都是声学和机器学习结合面临的挑战,如何在混合信号中提取出声源声。比如,我们需要让助听器能够在背景噪声中分辨出人声,自动驾驶的汽车能在嘈杂的街道上听出警笛并让道。


总结

Summary

在生活中,声源辨别面临着声源种类繁多、每种声源又有很大多样性、多个声音时间同时发生并互相干扰的问题。

通过声学结合先进的智能处理来进行声音场景和声源分类识别可以增强识别效果。还可以通过物理模型来模拟声音,用来方便产生更多数据来提取特征,训练模型。( 部分图片来自网络)

分享