摘要
针对条件深度卷积生成式对抗网络(conditional deep convolutional generative adversarial network ,简称C⁃DCGAN)在训练过程中出现的不稳定性问题,提出具有随机梯度下降的双时间尺度更新规则(two time⁃scale update rule,简称TTUR)用于C⁃DCGAN机械故障诊断模型训练中,在判别器和生成器具有单独学习速率的情况下提高模型的稳定性。首先,给出了TTUR在C⁃DCGAN模型中收敛性证明;其次,在西储大学轴承数据集(Case Western Reserve University,简称CWUR)和实验室行星齿轮箱数据集上验证其有效性;最后,引入Jensen⁃Shannon 散度(Jensen⁃Shannon divergence,简称JSD)指标评估模型捕获到的真实数据和生成数据之间的相似度。实验结果表明,TTUR提高了C⁃DCGAN的学习能力,优于传统的C⁃DCGAN。
近年来,生成模型,特别是生成式对抗网络(generative adversarial network,简称GAN
GAN训练及其不稳定,是其主要缺点。C⁃DCGAN同样也存在训练不稳定的情况。GAN 训练中一个常见的问题是应该在什么时候停止训练。由于判别器损失降低时,生成器损失增加 (反之亦然),训练GAN是一个博弈,其解是一个纳什均衡,梯度下降可能无法收敛,由于梯度下降算法是一种局部最优方法,因此只能得到局部纳什均衡。如果在参数空间中某一点附近存在一个局部邻域,且该邻域内的生成器和判别器都不能单方面地减少各自的损失,则称该点为局部纳什均衡。因此,不能根据损失函数值来判断收敛
总之,生成器和判别器在训练过程中是在寻找一个纳什均衡,且训练常常是同时在两个目标函数上使用梯度下降,但梯度下降算法适应于损失函数是一个凸(凹)函数的情况,而对于神经网络,使用的交叉熵目标函数不是凸函数。如果应用梯度下降算法,且生成器和判别器使用同一个目标函数,很有可能是此消彼长、此长彼消的情
综上所述,笔者用TTUR来解决机械故障诊断模型中判别器正则化缓慢学习的问题,使得在每个生成器迭代更新次数中使用较少的判别器迭代次数成为可能。
深度卷积生成式对抗网络(deep convolutional generative adversarial network ,简称DCGAN

图1 基于故障诊断的C⁃DCGAN网络结构
Fig.1 C⁃DCGAN architecture based on fault diagnosis
一般来说,在GAN训练中,优化生成器G时,默认是假定判别器D的判别能力是比当前G的生成能力要好,这样D才能指导G向更好的方向学习。通常的做法是先更新D的参数一次或多次,然后更新G的参数。TTUR提出了一个更简单的更新策略:对判别器和生成器设置不同的学习率,让D收敛速度更快,即一般将判别器的学习率设置得比生成器的学习率大。通常,生成器使用较慢的更新规则,判别器使用较快的更新规则。使用TTUR方法,可以让生成网络G和判别网络D以1∶1的速度更新,只需要修改更新率,而且在相同的时间下,可以产生更好的结

图2 双时间尺度更新规则和原始更新策略
Fig.2 TTUR and Original
近年来,研究人员使用随机近似算
设判别器参数为:,生成器参数为:。C⁃DCGAN模型中使用的损失函数为交叉熵损失函数,基于判别器损失函数的随机梯度,生成器损失函数的随机梯度。判别器和生成器的梯度是随机的,因此使用mini⁃batches随机选取个真实样本;个生成样本,。真实样本和生成样本的梯度分别为和, 随机变量和定义为:=,,其中梯度和随机近似于真实梯度。用双时间尺度随机近似算法分析C⁃DCGAN的收敛性,设判别器D的学习速率为,生成器G的学习速率为
(1) |
(2) |
其中:,为慢迭代映射变量;,为快迭代映射变量;为慢迭代步长;为快迭代步长;为慢迭代随机变量;为快迭代随机变量。
以上迭代公式结果来自于文献[
1) 更新函数的假设。函数:,:是利普希茨连续(Lipschitz)。
2) 学习速率的假设
(3) |
(4) |
=() | (5) |
3) 噪声的假设。增加噪声
(6) |
随机变量序列和满足
(7) |
(8) |
4) 假设存在快速迭代解决方法。对每一个,常微分方程
= | (9) |
有唯一全局渐近稳定平衡解, :是利普希茨连续(Lipschitz)。
5) 假设存在缓慢迭代解决方法,即常微分方程
= | (10) |
有唯一全局渐近稳定平衡解。
6) 边界迭代假设
(11) |
(12) |
如果以上假设成立,那么迭代
相关性说明如下。
1) 随机梯度误差和是鞅差序
2) 用两种方法处理了带有权值衰减的假设(快速迭代和缓慢迭代)。对固定生成器,判别器必须收敛到一个最小值;反之,对固定判别器,生成器必须收敛到最小值。
权值衰减避免带有区域常数的判别器的问题,因此没有一个局部稳定的生成器。如果生成器是完美的,那么判别器就是0.5。对于带模式崩溃的生成器,在没有生成样本的区域中判别器为1,在只有生成样本的区域中判别器为0,即生成样本与真实样本局部比率。由于判别器是局部恒定的,所以生成器的梯度为0,不能进行改进,进而判别器不能改进,对于给定的生成器就有最小误差。如果没有权值衰减,纳什均衡不稳定,二阶导数也为0。
权值衰减避免了生成器被无界权值驱动到无穷大,比如一个线性判别器可以为每个有界区域的生成器提供一个梯度。总之,局部稳定的常微分方程假设可以通过在损失函数中增加一个权值衰减项来增加Hessian矩阵的特征值,避免了二阶导数为0的常数判别器问题。
为了验证所提出的方法,在CWUR轴承数据集和行星齿轮箱数据集上进行实验。实验软件开发环境为Python编程语言,深度学习神经网络算法的编程框架为PyTorch。
凯斯西储大学测试设备包括2个电机、1个耦合器(扭矩传感器和编码器)及其他设

图3 CWRU 数据采集装置
Fig.3 CWRU data set acquisition device
本研究利用数据集中的驱动端数

图4 C⁃DCGAN模型训练损失曲线图(CWUR)
Fig.4 Variations of loss functions with C⁃DCGAN (CWUR)
在C⁃DCGAN生成器中应用不平衡学习率TTUR进行实验,测试训练稳定方法的有效性。
为了进一步验证本研究方法的性能,对实验室HFXZ⁃I行星齿轮箱上的实测数据进行了测试。行星齿轮箱故障诊断实验平台如

图5 HFXZ⁃I行星齿轮箱实验系统平台
Fig.5 Experimental system platform of planetary gearbox data HFXZ⁃I
由于实验室实测行星齿轮箱数据复杂且数据量大,因此训练难度加大,训练时间较长。实验分3次进行。



图6 C⁃DCGAN模型训练损失曲线图(行星齿轮箱数据)
Fig.6 Variations of loss functions with C⁃DCGAN (planetary gearbox)
从
将C⁃DCGAN的双时间尺度更新规则(TTUR)与单时间尺度更新规则(Original)训练进行比较,观察TTUR是否提高了C⁃DCGAN的收敛速度和生成样本质量。在单时间尺度训练中判别器每训练2次,生成器更新1次;在TTUR训练中,只更新判别器1次(即判别器更新1次,生成器更新1次)。虽然通过实验验证了TTUR在判别器学习过程中是收敛的,但是以上两个实验都必须找到可行的学习速率(反复试验后,选取实验效果最好的一个)。因为学习速率应该足够小(对于生成器),以确保收敛;但同时又应该足够大,以允许快速学习。
GAN模型评估指标有很多,但这些评价标准只适用于图像而不适用于故障诊断领域。因为故障诊断目标对象是振动信号,和图像有很大的不同。因此,训练和评估要与应用领域相匹配非常重要。
C⁃DCGAN是故障振动信号生成模型,是一个一维卷积神经网络,它将一个振动信号的潜在向量映射到一个由全连接层输出的最大值所给出的振动信号向量序列。判别器也是一个应用于振动信号向量序列的一维CNN。笔者选择JSD散

图7 TTUR和单时间尺度训练的损失函数对比图
Fig.7 Training loss function comparison of TTUR and Original
观察
TTUR实验的目标是找到适合的学习速率,使得缓慢更新足够小以允许快速更新收敛。通常缓慢更新是生成器,快速更新是判别器,要调整这两个学习速率,使生成器以期望的方式影响判别器的学习,但对其还产生一定的扰动。这些扰动不仅取决于生成器的学习速率,也取决于损失函数、损失函数的当前值、优化方法、误差信号、生成器消失或爆炸的梯度、生成器学习任务的复杂性、生成器的架构以及正则化等。因此,即使生成器的学习率比判别器大,也能保证判别器有较小的扰动。来自生成器的判别器扰动与来自判别器的生成器扰动是不同的,学习率不能直接转化为干
本研究引入双时间尺度更新规则训练机械故障诊断模型C⁃DCGAN,用TTUR训练的C⁃DCGAN模型可以解决判别器正则化中缓慢学习问题,使得模型训练更加稳定。用JSD散度指标评估TTUR在模型上的性能,并在两个数据集上使用TTUR训练的网络模型与单时间尺度更新规则训练的网络模型进行了比较,结果表明,TTUR在所有实验中均优于常规的C⁃DCGAN训练。
参 考 文 献
GOODFELLOW I J, POUGET⁃ABADIE J, MIRZA M, et al. Generative adversarial nets[C]∥International Conference on Neural Information Processing Systems. Canada: MIT Press, 2014:2672-2680. [百度学术]
王坤峰,左旺孟,谭营,等.生成式对抗网络:从生成数据到创造智能[J].自动化学报,2018,44(5):769-774. [百度学术]
WANG Kunfeng, ZUO Wangmeng, TAN Ying, et al. Generative adversarial networks: from generating data to creating intelligence[J]. Acta Automatica Sinica, 2018,44(5):769-774. (in Chinese) [百度学术]
BROCK A, DONAHUE J, SIMONYAN K. Large scale GAN training for high fidelity natural image synthesis [DB/OL]. [2021-03-15]. https:∥arxiv.org/abs/1809.11096. [百度学术]
MA J, YU W, LIANG P, et al. Fusion GAN: a generative adversarial network for infrared and visible image fusion[J]. Information Fusion, 2019, 48:11-26. [百度学术]
LI J, HUO H T, LIU K, et al. Infrared and visible image fusion using dual discriminators generative adversarial networks with wasserstein distance[J]. Information Sciences, 2020,529(8):28-41. [百度学术]
ZHANG Y, GAN Z, CARIN L. Generating text via adversarial training[C]∥Conference on Neural Information Processing Systems. Spain: NIPS Foundation, 2016. [百度学术]
LEE Y O, JO J, HWANG J. Application of deep neural network and generative adversarial network to industrial maintenance: a case study of induction motor fault detection[C]∥IEEE International Conference on Big Data. Boston, MA: IEEE,2018:3248-3253. [百度学术]
WANG Z, WANG J, WANG Y. An intelligent diagnosis scheme based on generative adversarial learning deep neural networks and its application to planetary gearbox fault pattern recognition[J]. Neurocomputing,2018, 310: 213-222. [百度学术]
SUH S, LEE H, JO J, et al. Generative oversampling method for imbalanced data on bearing fault detection and diagnosis[J]. Applied Sciences⁃Basel,2019,9(4):746. [百度学术]
LUO J, HUANG J Y, LI H M. A case study of conditional deep convolutional generative adversarial networks in machine fault diagnosis[J]. Journal of Intelligent Manufacturing, 2021,32(2):407-425. [百度学术]
ARJOVSKY M, LEON B. Towards principled methods for training generative adversarial networks [DB/OL]. [2021-03-15]. https:∥arxiv.org/abs/ 1701. 04862. [百度学术]
SALIMANS T, GOODFELLOW I, ZAREMBA W, et al. Improved techniques for training GANs [DB/OL]. [2021-03-15]. https:∥arxiv.org/abs/ 1606.03498. [百度学术]
RADFORD A, METZ L, CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks [DB/OL]. [2021-03-15]. https: ∥arxiv.org/abs/ 1511.06434v1. [百度学术]
SPRINGENBERG J T. Unsupervised and semi⁃supervised learning with categorical generative adversarial networks [DB/OL]. [2021-03-15]. https: ∥arxiv.org/abs/ 1511.06390. [百度学术]
ZHANG H, GOODFELLOW I, METAXAS D, et al. Self⁃attention generative adversarial networks [DB/OL]. [2021-03-15]. https: ∥arxiv.org/abs/ 1805.08318. [百度学术]
QIN Y P, MITRA N, WONKA P. How does Lipschitz regularization influence GAN training? [DB/OL]. [2021-03-15]. https: ∥arxiv.org/abs/ 1811.09567. [百度学术]
罗佳,黄晋英.生成式对抗网络研究综述[J].仪器仪表学报,2019,40(3):74-84. [百度学术]
LUO Jia, HUANG Jinying. Generative adversarial network: an overview[J]. Chinese Journal of Scientific Instrument,2019, 40(3):74-84. (in Chinese) [百度学术]
HEUSEL M, RAMSAUER H, UNTERTHINER T, et al. GANs trained by a two time⁃scale update rule converge to a local nash equilibrium[C]∥International Conference on Neural Information Processing Systems (NIPS). USA:[s.n.], 2017: 6629-6640. [百度学术]
MIRZA M, OSINDERO S. Conditional generative adversarial nets [DB/OL]. [2021-03-15]. https:∥arxiv.org/abs/1411.1784. [百度学术]
HAROLD J. KUSHNER G. GEORGE Y. Stochastic approximation algorithms and applications[M]. New York: Springer, 1997:1-22. [百度学术]
PRASAD H L, PRASHANTH L A, BHATNAGAR S. Two⁃timescale algorithms for learning nash equilibria in general⁃sum stochastic games[C]∥ AAMAS'15: International Conference on Autonomous Agents and Multiagent Systems. Istanbul, Turkey:[s.n.], 2015:1371-1379. [百度学术]
BORKOR V S. Stochastic approximation with two⁃time scales[J]. Systems & Control Letters,1997, 29(5): 291-294. [百度学术]
BERTSEKAS D P, TSITSIKLIS J N. Gradient convergence in gradient methods with errors[J]. SIAM Journal on Optimization,2000,10(3):627-642. [百度学术]
RAMASWAMY A, BHATNAGAR S. Stochastic recursive inclusion in two timescales with an application to the lagrangian dual problem[J]. Stochastics, 2016, 88(8): 1173-1187. [百度学术]
SMITH W A, RANDALL R B. Rolling element bearing diagnostics using the case western reserve university data: a benchmark study[J]. Mechanical Systems and Signal Processing ,2015(64/65):100-131. [百度学术]
Case Western Reserve University. Bearing data center [EB/OL].[2019-02-15]. https:∥engineering.case.edu/bearingdatacenter/download-data-file. [百度学术]
MIYATO T, KATAOKA T, KOYAMA M, et al. Spectral normalization for generative adversarial networks[C]∥International Conference on Learning Representations (ICLR). Vancouver, Canada:[s.n.],2018. [百度学术]
ARJOVSKY M, CHINTALA S, BOTTOU L. Wasserstein GAN[DB/OL].[2021-03-15].https:∥arxiv.org/abs/1701.07875. [百度学术]
GOODFELLOW I. NIPS 2016 tutorial: generative adversarial networks [DB/OL]. [2021-03-15]. https:∥arxiv.org/abs/ 1701.00160. [百度学术]