“工业听诊”中多声源事件检测与定位

众所周知，基于领先的声音事件定位和检测技术，可以研发“声学照相机”和“工业听诊器”等产品，并在电力、水利、轨道交通、汽车制造等行业领域发挥效用，保证工作人员的安全以及节省成本。声学照相机可以利用高精度麦克风阵列技术定位声源位置，再配合摄像头，实现可以直接在设备上看到声源位置，方便工作人员的日常设备检修。利用声音定位和检测技术，可以设计工业质检系统实现实时检测设备声音，避免设备故障导致生产中断，还可通过声音监测产品质量，避免不良品流向市场。

多声源检测与定位系统(sound event detection and localization，SEDL)的目标是输出声音的标签和声音方位信息（仰角和方位角）。

一、数据库

数据库的形成是在不同的室内环境(2019年5个，2020年15个)通过球型Eigenmike麦克风阵列采集真实位置的脉冲响应（impulse responses ,IRs），与真实的声音事件进行卷积，获得某个位置的声音信号。

球型Eigenmike麦克风

当声源位置距离1m时，方位角范围[180° , 180°]每隔10°，仰角范围[40° , 40°]每隔10°，会产生324个方位的IRs；当声源位置距离2m时，方位角范围[180°，180°]，每隔10°，仰角范围[20°，20°]，每隔10°，会产生180个方位的IRs，由方位角-仰角-距离组成的IRs总共会有504个。利用采集的IRs与合成声音数据库，其中包含400个采样频率为48000Hz的一分钟的声音，为了创造真实的声学环境，在采集的IRs中添加30dB自然噪声。

以DCASE2019 Task3数据库为例，与DCASE2020 Task3格式有所不同

训练及测试文件命名格式为：

split[number]_ir[locationnumber]_ov[number of overlapping sound events]_[recording number per split].wav

评估数据集由100个录音组成，不包含任何位置信息，也不包含以下命名约定中重叠声音事件的数量：

 split[number]_[recordingnumber per split].wav

两年中数据集中声音类别分别为：

数据集链接：

2020年：
https://zenodo.org/record/3870859
2019年：
https://zenodo.org/record/2599196#.Xy-3-DW-uUk
https://zenodo.org/record/3377088

二、输入特征

1. Log-Mel

在语音识别中常用到频域特征梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients，MFCC)特征，基于对人耳听觉研究发现，人耳对不同频率信号敏感度不同，在1000Hz以下，与频率成线性关系；反之，与频率成对数关系。因此，引入Mel频率，Mel频率与实际的频率关系。

提取过程：

2. 广义互相关（GCC-Phat）

由于麦克风阵列中阵元距离声源的间距不等，当声波传递到阵元时，会在其之间产生延时差值，时间差结合阵元结构的几何关系，可以估计出声源的方位信息。

噪声、混响对相同位置同一声源产生广义互相关函数特征的谱峰相似，鲁棒性能较好。利用深度学习或者机器学习的方法，不直接计算其峰值，减少噪声和混响对其产生的干扰。选择其作为声源信号方位的估计特征。

3. 声强矢量（Intensity vector）

瞬时声强矢量：

I=rho v, rho 表示声压，可以用方位信息表示

声强矢量中包含声波能量方位信息，其反方向可以理解为其方位信息。

三、网络结构

模型选择CRNN [1]：

四、网络结构

利用单独的指标对声音事件检测与声音方位估计进行评价。对于声音事件检测的评价标准错误率(Error Rate, ER)和F分数(F-score)，对于声音事件检测一般是基于1s的声音片段，当某一声音事件在该时间片段中超过一般时，则认为该时间片段中包含该事件。对应声音事件方位的估计评价标准，声音事件估计坐标为：声音事件参考坐标为。对于整个数据集的方位估计误差对于整个数据集的方位估计误差DOAerror为

alpha =2arcsin(frac{sqrt{Delta x^2+Delta y^2+Delta z^2}}{2})cdot frac{180}{pi}

（x_E,y_E,z_E）

DOA_error = frac{1}{N}sum_{n=1}^{N}sigma ((x_R^n,y_R^n,z_R^n),(x_E^n,y_E^n,z_E^n))

其中，

Delta x = x_R-x_E,Delta y = y_R-y_E,Delta z = z_R-z_E

N表示整个数据集方位估计总数。

考虑到估计DOA与参考DOA数量不对等时，提出了召回率(Frame Recall，FR)

FR = frac{TP}{TP+FN}

通过召回率检测整个网络声音事件与方位检测系统性能。

SELD_{score} = frac{SED_{score}+DOA_{score}}{2}

SED_{score} = frac{ER+(1-F)}{2}

参考文献：

[1]Cao Y, Iqbal T, Kong Q, et al. Two-stage sound event localization and detection using intensity vector and generalized cross-correlation[J]. Tech. report of Detection and Classification of Acoustic Scenes and Events 2019 (DCASE) Challange, 2019.

[2]Kong Q, Cao Y, Iqbal T, et al. Cross-task learning for audio tagging, sound event detection and spatial localization: DCASE 2019 baseline systems[J]. arXiv preprint arXiv:1904.03476, 2019.