“工业听诊”中多声源事件检测与定位

时间:2022-07-24
本文章向大家介绍“工业听诊”中多声源事件检测与定位,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

众所周知,基于领先的声音事件定位和检测技术,可以研发“声学照相机”和“工业听诊器”等产品,并在电力、水利、轨道交通、汽车制造等行业领域发挥效用,保证工作人员的安全以及节省成本。声学照相机可以利用高精度麦克风阵列技术定位声源位置,再配合摄像头,实现可以直接在设备上看到声源位置,方便工作人员的日常设备检修。利用声音定位和检测技术,可以设计工业质检系统实现实时检测设备声音,避免设备故障导致生产中断,还可通过声音监测产品质量,避免不良品流向市场。

多声源检测与定位系统(sound event detection and localization,SEDL)的目标是输出声音的标签和声音方位信息(仰角和方位角)。

一、数据库

数据库的形成是在不同的室内环境(2019年5个,2020年15个)通过球型Eigenmike麦克风阵列采集真实位置的脉冲响应(impulse responses ,IRs),与真实的声音事件进行卷积,获得某个位置的声音信号。

球型Eigenmike麦克风

当声源位置距离1m时,方位角范围[180° , 180°]每隔10°,仰角范围[40° , 40°]每隔10°,会产生324个方位的IRs;当声源位置距离2m时,方位角范围[180°,180°],每隔10°,仰角范围[20°,20°],每隔10°,会产生180个方位的IRs,由方位角-仰角-距离组成的IRs总共会有504个。利用采集的IRs与合成声音数据库,其中包含400个采样频率为48000Hz的一分钟的声音,为了创造真实的声学环境,在采集的IRs中添加30dB自然噪声。

以DCASE2019 Task3数据库为例,与DCASE2020 Task3格式有所不同

训练及测试文件命名格式为:

split[number]_ir[locationnumber]_ov[number of overlapping sound events]_[recording number per split].wav

评估数据集由100个录音组成,不包含任何位置信息,也不包含以下命名约定中重叠声音事件的数量:

 split[number]_[recordingnumber per split].wav

两年中数据集中声音类别分别为:

数据集链接:

2020年:
https://zenodo.org/record/3870859
2019年:
https://zenodo.org/record/2599196#.Xy-3-DW-uUk
https://zenodo.org/record/3377088

二、输入特征

1. Log-Mel

在语音识别中常用到频域特征梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients,MFCC)特征,基于对人耳听觉研究发现,人耳对不同频率信号敏感度不同,在1000Hz以下,与频率成线性关系;反之,与频率成对数关系。因此,引入Mel频率,Mel频率与实际的频率关系。

提取过程:

2. 广义互相关(GCC-Phat)

由于麦克风阵列中阵元距离声源的间距不等,当声波传递到阵元时,会在其之间产生延时差值,时间差结合阵元结构的几何关系,可以估计出声源的方位信息。

噪声、混响对相同位置同一声源产生广义互相关函数特征的谱峰相似,鲁棒性能较好。利用深度学习或者机器学习的方法,不直接计算其峰值,减少噪声和混响对其产生的干扰。选择其作为声源信号方位的估计特征。

3. 声强矢量(Intensity vector)

瞬时声强矢量:

I=rho v, rho 表示声压,可以用方位信息表示

声强矢量中包含声波能量方位信息,其反方向可以理解为其方位信息。

三、网络结构

模型选择CRNN [1]:

四、网络结构

利用单独的指标对声音事件检测与声音方位估计进行评价。对于声音事件检测的评价标准错误率(Error Rate, ER)和F分数(F-score),对于声音事件检测一般是基于1s的声音片段,当某一声音事件在该时间片段中超过一般时,则认为该时间片段中包含该事件。对应声音事件方位的估计评价标准,声音事件估计坐标为:声音事件参考坐标为。对于整个数据集的方位估计误差对于整个数据集的方位估计误差DOAerror为

alpha =2arcsin(frac{sqrt{Delta x^2+Delta y^2+Delta z^2}}{2})cdot frac{180}{pi}
(x_E,y_E,z_E)
DOA_error = frac{1}{N}sum_{n=1}^{N}sigma ((x_R^n,y_R^n,z_R^n),(x_E^n,y_E^n,z_E^n))

其中,

Delta x = x_R-x_E,Delta y = y_R-y_E,Delta z = z_R-z_E

N表示整个数据集方位估计总数。

考虑到估计DOA与参考DOA数量不对等时,提出了召回率(Frame Recall,FR)

FR = frac{TP}{TP+FN}

通过召回率检测整个网络声音事件与方位检测系统性能。

SELD_{score} = frac{SED_{score}+DOA_{score}}{2}
SED_{score} = frac{ER+(1-F)}{2}

参考文献:

[1]Cao Y, Iqbal T, Kong Q, et al. Two-stage sound event localization and detection using intensity vector and generalized cross-correlation[J]. Tech. report of Detection and Classification of Acoustic Scenes and Events 2019 (DCASE) Challange, 2019.

[2]Kong Q, Cao Y, Iqbal T, et al. Cross-task learning for audio tagging, sound event detection and spatial localization: DCASE 2019 baseline systems[J]. arXiv preprint arXiv:1904.03476, 2019.