摘要
为了更好地研究歌唱中科学发声的特点,提出了一种基于功率谱的美声发声特征提取方法。首先,利用Burg法功率谱估计分别对正确和错误的美声信号进行分析;其次,针对功率谱曲线差异较大的地方,运用最小二乘法进行了函数多项式的拟合;最后,提取其多项式系数作为特征。采集了某音乐学院3名美声老师和5名美声新生共400条女高音信号并进行分析,结果表明,在功率谱曲线的5 kHz和10 kHz处,2种信号有着较大的差异,经过上述方法提取特征后,根据其样本的箱式图即可以明显区别正确与错误发声,识别率可达100%。相比之下,如果直接运用反向传播(back propagation,简称BP)神经网络识别功率谱信号,其识别率仅为95.23%。该研究成果从振动理论的角度对美声发声的辅助训练提供了技术支撑。
美声唱法由于音色清脆高亢、灵活多变及音量较
国内外学者围绕美声发声原理开展了相关研究。文献[
国内学者的研究主要集中在美声唱法与民族唱法、流行唱法的融合与对比领
大部分关于发声信号的研究采用傅里叶变换的方法,将原时域信号转化为频域信号。然而,频域信号仅对变换后信号的实部进行对比,忽略了相频信息。另外,对美声唱法样本的采集主要集中在美声与通俗唱法的对比上,但是通俗唱法从发声特点上与美声唱法存在明显差异,难以突出美声声音信号的特殊性。
针对上述问题,笔者利用功率谱的估计对信号进行研究,即从能量的观点对信号进行分析,保留频谱法所丢掉的相位信息。同时,从美声初学者与歌唱技巧成熟的美声老师中提取样本并进行对比研究。因为美声初学者的发音近似美声,所以更适合对美声发音的规范性进行系统评价。
笔者对美声声音信号的特征提取主要分为以下步骤:①对声音信号进行采集;②对采集到的声音信号进行端点检测处理,去除无用的语音段;③对处理后的信号做Burg法功率谱分析;④将得到的功率谱进行局部二次回归平滑处理。
对5名美声初学者和3名美声老师进行女高音信号的采集、筛选和分类。录音时要求发音人在相同录音环境下依次清唱出基础元音/a/,/i/和/u/,在录制的声音样本中选取发声时长在3~5 s的语音信号,最终得到老师的发音样本50条(设定为正确发声信号)和学生的错误发音样本350条。美声老师分别对学生的样本进行错误分析,指出发声存在的问题,总结出“口腔没打开”、“咬字位置不正确”等一系列错误原因。为了便于分析,下面只讨论发声为/a/的分析结果,并不影响其统计规律。
由于采集到的美声信号中存在无效的静音段和噪声段,会对功率谱分析和特征提取存在一定程度的干扰,增加运算量,因此需要对声音信号进行端点检测,确定其起点和终点,以便提高计算效率。笔者采用一种基于短时能量和谱质心特征进行端点检测的方
首先,对语音信号中的每一帧提取短时能量,设xi(n)(n=1~N)为第帧信号,长度为,该帧的能量为
(1) |
其次,提取该帧的谱质心。设第帧的谱质心为
(2) |
其中:Xi(k)(k=1~N)为第帧的离散傅里叶变换;为帧长度。
最后,估计短时能量和谱质心特征序列的阈值,设和分别为2个局部最大值的位置,则阈值为
(3) |
其中:为笔者设置的参数,越大,阈值就越靠近。
经过上述阈值化处理,可以得到一段标记语音段的阈值化序列,将该序列代入原始信号中,就可获得语音段在原始信号中开始和结束的位置。
将完成端点检测的信号进行Burg法功率谱分析。在对随机信号的分析中,可以利用自回归(autoregressive model,简称AR)模型进行功率谱估计。其中,Burg法无需对自相关函数进行估算,而是用已知序列求出反射系数,再利用Levinson递推算法,由反射系数来计算回归模型参数,以得到较好的谱估计结果。
利用Burg法估计AR模型参数,首先要确定
(4) |
(5) |
令,计算AR模型的反射系数
(6) |
在Levinson关系式的中,分别代入阶AR模型反射系数和阶AR模型反射系数,计算、前向预测误差和后向预测误差,分别为
(7) |
(8) |
(9) |
根据计算出,令。重复上述步骤,直至预计的阶数为止,以求出所有阶的AR模型参数。
Burg估计算法的递推过程建立在已知序列的基础上,很好地避免了对于序列自相关函数的计算,与其他算法相比,有着较好的频率分辨
笔者使用局部二次回归平滑对Burg法得到的功率谱进行平滑处理。局部二次回归平滑就是使用二次多项式作为局部多项式的回归拟合,是一种用于局部回归分析的非参数方法。
在对信号进行二次回归平滑时,首先要确定拟合点的数量和位置,再以拟合点为中心,确定个最邻近的点,通过权重函数计算这些点的权重。其中,对权重的计算要先确定区间内的点到拟合点的轴的距离,找到区间内的最大值,然后对其他距离做归一化处理。归一化函数表达式为
(10) |
使用三次指数函数对权重进行转化,三次函数表达式为
(11) |
接下来对区间内的散点进行局部二次回归拟合,考虑到离拟合点的远近不同,点的取值对拟合线的影响也不同,故在定义损失函数时,应率先降低近的点与拟合线的误差,即对最小二乘法加上权重。加权最小二乘法的表达式为
(12) |
对区间内的样本进行多项式拟合后,不断重复拟合过程,得到不同区间内的加权回归曲线,最后通过对回归曲线中心的连接,便可生成完整的平滑曲线。
采集某音乐学院5名女高音新生和3名老师的美声发声信号共400条,利用Matlab软件对经过预处理的美声信号进行Burg功率谱估计,对比正确样本与错误样本之间功率谱形态走势的区别,对与正确功率谱图像差距较大的地方做函数图像的拟合,并提取谱图的特征参数,最后比较科学美声发声和错误美声发声之间功率谱曲线与参数的差距。
声音信号端点检测时域波形如

图1 声音信号端点检测时域波形
Fig.1 Time domain waveform of sound signal endpoint detection
将预处理后的信号带入25阶AR模型,美声发声信号功率谱曲线如

图2 美声发声信号功率谱曲线
Fig.2 Power spectrum curve of bel canto signal
由功率谱曲线可以看出,高音信号的功率谱整体均呈下降趋势。由
在错误美声信号的功率谱中,
从能量区的分割上可以看出,错误样本曲线在每个能量区中均有不同幅度的波动;而正确样本曲线只有在进入第2能量区后有一处波谷,从第2能量区中部至第3能量区结束之间的图像下降匀速,无明显起伏特征。
基于上述情况,笔者在功率谱曲线区别较大的区间内进行基于最小二乘法的一阶拟合和二阶拟合,得到一元二次曲线方程和一元一次直线方程,再对2种方程的系数取平均值和方差。其中,一元二次方程拟合了3~7 kHz之间功率谱中存在的波谷曲线,由于2种信号在其区间内的变化差距较大,得到的方程在系数上有着较大差别。功率谱曲线一元二次方程拟合系数如
发声类型 | 多项式系数 | 平均值 | 方差 |
---|---|---|---|
正确发声信号 |
二次项系数a 一次项系数b 常数项c |
4.14×1 -0.056 93.69 |
6.51×1 1.10×1 1 177.61 |
错误发声信号 |
二次项系数a 一次项系数b 常数项c |
5.75×1 -0.067 111.83 |
1.80×1 3.90×1 794.41 |
在曲线方程中,二次项系数代表函数抛物线的开口大小,的绝对值越大,抛物线的开口越窄。对于2条抛物线和,其开度公式分别为
(13) |
(14) |
将正确信号和错误信号的多项式系数分别代入和,得到,即正确信号抛物线的开口度要大于错误信号。
再对图中10~15 kHz的下降直线进行拟合,得到了斜截式的一次函数直线方程,功率谱曲线一元一次方程拟合系数如
发声类型 | 多项式系数 | 平均值 | 方差 |
---|---|---|---|
正确发声信号 |
斜率k 截距b |
-4.31×1 -50.627 |
6.43×1 95.817 |
错误发声信号 |
斜率k 截距b |
-1.78×1 -73.769 |
8.16×1 169.543 |
为了更直观地观察数据的离散分布情况,了解数据分布状态,将拟合出的多项式系数进行箱式图分析,如

图3 多项式系数箱式图
Fig.3 Box-plot with polynomial coefficients
由箱式图可知,在二次项系数箱式图的处和斜率箱式图的处均有明显的分界,可以把正确信号和错误信号按照分界数值直接区分开,故采用阈值法的识别率可达到100%。
对美声信号的功率谱曲线做特征值统计,如
发声类别 | 平均值 | 标准差 | 方差 | 中位数 | 四分位差 | 最大值 | 最小值 |
---|---|---|---|---|---|---|---|
正确发声信号 | -105.13 | 28.5 | 814.96 | -103.43 | 46.23 | -32.06 | -145.9 |
错误发声信号 | -112.07 | 39.8 | 1 472.10 | -102.37 | 75.87 | -36.96 | -178.7 |
对400条声音信号进行训练集和测试集的划分,其中75%的数据作为训练集导入BP神经网络中进行训练,使BP神经对两类发声信号的特征值有记忆能力;再将剩余的15%数据作为测试集,来测试BP神经网络的识别正确率。BP神经网络收敛图如

图4 BP神经网络收敛图
Fig.4 Convergence diagram of BP neural network
由BP神经网络的识别结果可知,相比于利用BP神经网络对美声进行分类,基于系数箱式图的阈值法可以更直接地将2种类别区分开,且识别率达100%。因此,采用函数拟合的方法明显优于直接对功率谱特征值进行分类训练的方法。
1) 标准美声唱法的功率谱仅在6 kHz左右有一处明显的波谷,下降落差约为40 dB,其余频率并无较大的波谷产生。在错误的美声唱法中,有些谱线没有明显的波谷,而有些谱线波谷较多,波动幅度较大。对3~7 kHz内的波谷曲线和10~15 kHz内的下降直线分别做一元二次函数拟合和一元一次函数拟合,可以得出正确信号在拟合的曲线上有着更大的开口度和更深的波谷,在直线上有着更大的倾斜度。在系数箱式图中使用阈值法,可以将2种类型的信号直接区分开。
2) 根据功率谱的波动和走势,可将其划分为3个能量区。在能量区中,错误样本的曲线波动频率更大,且在区域交界处有波谷;正确样本仅在第1、第2能量区之间有波动,其余区域波动较不明显。
3) 使用美声声音信号功率谱进行2种声音信号的BP神经网络训练和分类识别,识别正确率可达95.23%;而使用系数阈值法,可实现对2种发声信号的100%分类,表明本研究提出的美声发声信号特征阈值法更加有效。
4) 可以利用笔者目前的研究结果建立一套针对美声发声的打分系统,用于评估声乐初学者在发声训练时的标准程度。
参 考 文 献
UM E, ZHENG Y. Misunderstanding analysis and countermeasure research in vocal music teaching of bel canto[J]. Advances in Social Science, Education and Humanities Research, 2018, 300: 773-777. [百度学术]
黄珣. 声乐教学中美声唱法与民族唱法的对比分析[J]. 艺术教育, 2020, 10: 58-61. [百度学术]
HUANG Xun. Comparative analysis of bel canto and national singing in vocal music teaching[J]. Art Education, 2020 ,10: 58-61. (in Chinese) [百度学术]
JOLIVEAU E, SMITH J, WOLFE J. Vocal tract resonances in singing: the soprano voice[J]. Acoustical Society of America, 2004, 116(4): 2434-2439. [百度学术]
MCHENRY M A, EVANS J, POWITZKY E. Effects of bel canto training on acoustic and aerodynamic characteristics of the singing voice[J]. Journal of Voice, 2016, 30(2): 198-204. [百度学术]
CAFFIER P P, NASR A I, RENDON M, et al. Common vocal effects and partial glottal vibration in professional nonclassical singers[J]. Journal of Voice, 2018, 32(3): 340-346. [百度学术]
MAYR A. Investigating the voce faringea: physiological and acoustic characteristics of the bel canto tenor's forgotten singing practice[J]. Journal of Voice, 2017, 31(2): 13-23. [百度学术]
SOUZA G V, DUARTE J, VIEGAS F, et al. An acoustic examination of pitch variation in soprano singing[J]. Journal of Voice, 2020, 34(4): 41-49. [百度学术]
HASAN T, SHAKARA A. A signal processing approach to music tutor[J]. Journal of Computer Engineering, 2017, 19(6): 13-25. [百度学术]
ZYSK A, BADURA P. An approach for vocal register recognition based on spectral analysis of singing[J]. International Journal of Cognitive and Language Sciences, 2017, 11(2): 207-212. [百度学术]
BARLOW C, LOVETRI J. Closed quotient and spectral measures of female adolescent singers in different singing styles[J]. Journal of Voice, 2010, 24(3): 314-318. [百度学术]
LU N. A tentative discussion on analysis methods of bel canto[C]∥2018 International Conference on Culture, Literature, Arts & Humanities. London: Francis Academic Press, 2018: 323-326. [百度学术]
LYU S L, ZHOU L X. The application of acoustic analysis in the study of yugur traditional folk songs[J]. Advances in Computer Science Research, 2017, 82: 61-64. [百度学术]
DING S Y. The application of bel canto in national vocal music[J]. Advances in Social Science, Education and Humanities Research, 2017, 171: 232-236. [百度学术]
钱一凡, 孔江平. 民歌男高音共鸣的实验研究[C]∥第七届中国语音学学术会议暨语音学前沿问题国际论坛. 北京: 中国中文信息学会, 2012: 268-274. [百度学术]
SREEKUMAR K T, GEORGE K K, ARUNRAJ K, et al. Spectral matching based voice activity detector for improved speaker recognition[C]∥2014 International Conference on Power Signals Control and Computations. Thrissur: IEEE, 2014: 1-4. [百度学术]