使用Chrome浏览器效果最佳,继续浏览,你可能不会看到最佳的展示效果,

确定继续浏览么?

复制成功,请在其他浏览器进行阅读

基于TTUR的C‑DCGAN机械故障诊断模型稳定训练方法  PDF

  • 罗佳
  • 黄晋英
  • 马健程
中北大学机械工程学院 太原,030051

中图分类号: TH17TP183

最近更新:2022-08-25

DOI:10.16450/j.cnki.issn.1004-6801.2022.04.016

  • 全文
  • 图表
  • 参考文献
  • 作者
  • 出版信息
目录contents

摘要

针对条件深度卷积生成式对抗网络(conditional deep convolutional generative adversarial network ,简称C⁃DCGAN)在训练过程中出现的不稳定性问题,提出具有随机梯度下降的双时间尺度更新规则(two time⁃scale update rule,简称TTUR)用于C⁃DCGAN机械故障诊断模型训练中,在判别器和生成器具有单独学习速率的情况下提高模型的稳定性。首先,给出了TTUR在C⁃DCGAN模型中收敛性证明;其次,在西储大学轴承数据集(Case Western Reserve University,简称CWUR)和实验室行星齿轮箱数据集上验证其有效性;最后,引入Jensen⁃Shannon 散度(Jensen⁃Shannon divergence,简称JSD)指标评估模型捕获到的真实数据和生成数据之间的相似度。实验结果表明,TTUR提高了C⁃DCGAN的学习能力,优于传统的C⁃DCGAN。

引 言

近年来,生成模型,特别是生成式对抗网络(generative adversarial network,简称GAN

1已经得到了极大的关注,是当下热门的人工智能技术之2。GAN在生成逼真图3‑5和生成文本方6取得了显著成效。目前,国内外一些学者还将GAN应用到机械故障诊断领7‑9并取得一定的研究成果,笔者提出的C⁃DCGAN也成功应用到了机械故障诊断领10

GAN训练及其不稳定,是其主要缺点。C⁃DCGAN同样也存在训练不稳定的情况。GAN 训练中一个常见的问题是应该在什么时候停止训练。由于判别器损失降低时,生成器损失增加 (反之亦然),训练GAN是一个博弈,其解是一个纳什均衡,梯度下降可能无法收敛,由于梯度下降算法是一种局部最优方法,因此只能得到局部纳什均衡。如果在参数空间中某一点附近存在一个局部邻域,且该邻域内的生成器和判别器都不能单方面地减少各自的损失,则称该点为局部纳什均衡。因此,不能根据损失函数值来判断收敛

11,很难定量地判断生成器何时产生高质量的样品。为了克服GAN模型中的训练问题,学者们提出了各种GAN 的训练方法。Salimans12提出特征匹配,使用判别器中间层的特征来匹配图像的真伪,并将其作为一个监督信号来训练生成器,通过这种方式,生成器的生成数据会匹配真实数据的统计特性以及判别器中间层的预期特征值。小批量判13‑14也是GAN常用的训练方法之一,给判别器加入额外特征,即判别器每次考虑一小批样本而不是一个单独的样本,这样可以提高模型的鲁棒性,改善判别器的泛化性能。谱归一15是应用于卷积核的一种特殊归一化,它可以极大地提高训练的稳定性,在判别器和生成器中使用该方法能使GAN的训练更加稳定。另外,使用平滑标12可以增加网络的抗干扰能力,网络中损失函16和激活函13的选择也会影响GAN训练的稳定性,其他GAN训练方法可参考文献[17]。

总之,生成器和判别器在训练过程中是在寻找一个纳什均衡,且训练常常是同时在两个目标函数上使用梯度下降,但梯度下降算法适应于损失函数是一个凸(凹)函数的情况,而对于神经网络,使用的交叉熵目标函数不是凸函数。如果应用梯度下降算法,且生成器和判别器使用同一个目标函数,很有可能是此消彼长、此长彼消的情

12。在损失函数中加入额外的感知正则化可以在一定程度上缓解这种情况。因此,为了解决GAN训练不稳定的现象,笔者证实了TTUR18规则是有效的,即当判别器和生成器有不同的学习率时,GAN网络收敛于局部纳什均衡:生成器参数固定时,判别器收敛到一个局部最小值。生成器参数扰动很小且变化足够慢,判别器仍然是收敛的。为了确保收敛性能的提高,判别器必须先学习新的模式,然后才转移到生成器更新。与此相反,一个快速更新的生成器,可以稳定地驱动判别器进入新的模式,而不需要捕获它收集到的信息。

综上所述,笔者用TTUR来解决机械故障诊断模型中判别器正则化缓慢学习的问题,使得在每个生成器迭代更新次数中使用较少的判别器迭代次数成为可能。

1 C⁃DCGAN网络模型

深度卷积生成式对抗网络(deep convolutional generative adversarial network ,简称DCGAN

13将卷积神经网络(convolutional neural network,简称CNN)引入GAN结构,利用卷积层强大的特征提取能力来提高GAN的效果。笔者结合条件生成式对抗网络(conditional generative adversarial network ,简称CGAN19和DCGAN的特点,使用其相结合的模型C⁃DCGAN,其中生成器和辨别器都是CNN。将条件加入深度卷积生成对抗网络中的生成器,利用卷积网络提取特征的能力加上条件辅以训练。CNN生成器根据输入振动信号样本标签数据产生新的样本xfake,把新样本和原始真实标签数据xreal一起输入到CNN判别器进行真实性判别,然后使用真实性标签误差和类别标签误差作为损失函数,交替迭代训练生成器和判别器。将训练好的C⁃DCGAN中的判别器抽取出来,形成用于故障模式识别的新网络结构。基于故障诊断的C⁃DCGAN构架如图1所示。

图1  基于故障诊断的C⁃DCGAN网络结构

Fig.1  C⁃DCGAN architecture based on fault diagnosis

2 C⁃DCGAN稳定训练技术

2.1 双时间尺度更新规则

一般来说,在GAN训练中,优化生成器G时,默认是假定判别器D的判别能力是比当前G的生成能力要好,这样D才能指导G向更好的方向学习。通常的做法是先更新D的参数一次或多次,然后更新G的参数。TTUR提出了一个更简单的更新策略:对判别器和生成器设置不同的学习率,让D收敛速度更快,即一般将判别器的学习率设置得比生成器的学习率大。通常,生成器使用较慢的更新规则,判别器使用较快的更新规则。使用TTUR方法,可以让生成网络G和判别网络D以1∶1的速度更新,只需要修改更新率,而且在相同的时间下,可以产生更好的结

18,如图2所示。

图2  双时间尺度更新规则和原始更新策略

Fig.2  TTUR and Original

2.2 TTUR在C⁃DCGAN模型中的收敛性

近年来,研究人员使用随机近似算

20分析强化学习中的参与者‑评价者算21。随机近似算法是一种迭代过程,它在提供函数值或其导数的噪声观测情况下,求出函数的驻点(最小、最大、鞍点)。双时间尺度随机近似算法是两种步长不同的耦合迭代。为了证明相互交织的迭代收敛性,假设其中一个步长比另一个步长小的多,较慢的迭代足够慢,从而允许快的迭代收敛,同时又被较慢的迭代所影响,但慢速的迭代影响足够小,以保证快速的收敛。

设判别器参数为ωD(;ω),生成器参数为θG(;θ)。C⁃DCGAN模型中使用的损失函数为交叉熵损失函数,基于判别器损失函数lossD的随机梯度g˜(θ,ω),生成器损失函数lossG的随机梯度h˜(θ,ω)。判别器和生成器的梯度是随机的,因此使用mini⁃batches随机选取m个真实样本x(i),1 imm个生成样本z(i) 1 im。真实样本和生成样本的梯度分别为gθ,ω=ωDhθ,ω=θG, 随机变量M(ω)M(θ)定义为:g˜(θ,ω)= gθ,ω+M(ω)h˜θ,ω= hθ,ω+M(θ),其中梯度g˜(θ,ω)h˜θ,ω随机近似于真实梯度。用双时间尺度随机近似算法分析C⁃DCGAN的收敛性,设判别器D的学习速率为b(n),生成器G的学习速率为a(n)

ωn+1=ωn+bn(g(θn,ωn)+Mω) (1)
θn+1=θn+an(h(θn,ωn)+Mθ) (2)

其中:h(.)m,为慢迭代映射变量;g(.)k,为快迭代映射变量;  a(n)为慢迭代步长;b(n)为快迭代步长;M(θ)为慢迭代随机变量;M(ω)为快迭代随机变量。

以上迭代公式结果来自于文献[

22]。具体关于TTUR收敛性证明详见文献[18],本小节只引用其中部分假设内容对TTUR所学习到的收敛性进行解释和说明。

1) 更新函数的假设。函数h(.)m+kmg(.)m+km是利普希茨连续(Lipschitz)。

2) 学习速率的假设

nan = n a2(n) < (3)
nbn = n b2(n) < (4)
an=οbn (5)

3) 噪声的假设。增加噪声σ

n=σθl,ωl,Mlθ,Mlω,ln    (n0) (6)

随机变量序列(Mnθ,n)(Mnω,n)满足

nanMnθ< a.s (7)
nbnMnω< a.s  (8)

4) 假设存在快速迭代解决方法。对每一个θm,常微分方程

ω(t).= gθ,ω(t) (9)

有唯一全局渐近稳定平衡解λ(θ)λ mk是利普希茨连续(Lipschitz)。

5) 假设存在缓慢迭代解决方法,即常微分方程

θ(t).= hθ(t),λ(θt) (10)

有唯一全局渐近稳定平衡解θ*

6) 边界迭代假设

supnθn< (11)
supnωn< (12)

如果以上假设成立,那么迭代公式(1)和(2)收敛于(θ*,λ(θ*))。

相关性说明如下。

1) 随机梯度误差MnθMnω是鞅差序

23,这一假设在Robbins⁃Monro(R⁃M)设置中得以实24,其中小批量被随机取样,梯度是有界的。

2) 用两种方法处理了带有权值衰减的假设(快速迭代和缓慢迭代)。对固定生成器,判别器必须收敛到一个最小值;反之,对固定判别器,生成器必须收敛到最小值。

权值衰减避免带有区域常数的判别器的问题,因此没有一个局部稳定的生成器。如果生成器是完美的,那么判别器就是0.5。对于带模式崩溃的生成器,在没有生成样本的区域中判别器为1,在只有生成样本的区域中判别器为0,即生成样本与真实样本局部比率。由于判别器是局部恒定的,所以生成器的梯度为0,不能进行改进,进而判别器不能改进,对于给定的生成器就有最小误差。如果没有权值衰减,纳什均衡不稳定,二阶导数也为0。

权值衰减避免了生成器被无界权值驱动到无穷大,比如一个线性判别器可以为每个有界区域的生成器提供一个梯度。总之,局部稳定的常微分方程假设可以通过在损失函数中增加一个权值衰减项来增加Hessian矩阵的特征值,避免了二阶导数为0的常数判别器问题。

3 实验验证

为了验证所提出的方法,在CWUR轴承数据集和行星齿轮箱数据集上进行实验。实验软件开发环境为Python编程语言,深度学习神经网络算法的编程框架为PyTorch。

3.1 CWUR实验

凯斯西储大学测试设备包括2个电机、1个耦合器(扭矩传感器和编码器)及其他设

25。加速度传感器用于收集不同故障类型的多个加速度信号。使用16通道数据记录仪收集振动信号,并在Matlab环境中进行后处理,CWRU数据采集装置如图3所示。

图3  CWRU 数据采集装置

Fig.3  CWRU data set acquisition device

本研究利用数据集中的驱动端数

26,采样频率为12 kHz,诊断对象为深沟球轴承SKF6205,轴承转速为1 750 r/min。在电机负载为1.5 kW下,分别选取轴承状况为正常、内圈故障、滚动体故障、外圈故障(采用传感器布置在6点钟方向)的数据,故障大小分别为0.177 8,0.355 6和0.533 4 mm这3种。其中:0为外圈故障;1为内圈故障;2为球体故障;3为正常状态。图4所示为CWUR数据集上的C⁃DCGAN模型训练损失曲线图。

图4  C⁃DCGAN模型训练损失曲线图(CWUR)

Fig.4  Variations of loss functions with C⁃DCGAN (CWUR)

在C⁃DCGAN生成器中应用不平衡学习率TTUR进行实验,测试训练稳定方法的有效性。图4(a)中,对判别器D和生成器G进行1∶1均衡更新训练时,训练变得非常不稳定,还出现模式坍塌的现象(在一个极小的分布内,生成样本不再变化),判别器和生成器总是处于博弈中以相互削弱。图4(a)中出现模式坍塌是因为判别器和生成器之间的不平衡,可以通过关注平衡生成器和判别器之间的损耗来改进C⁃DCGAN,调节生成器G和判别器D的训练次数比。一般来说,D要训练的比G多,比如训练5次D,再训练1次G

27‑28。实验中,通过对D和G使用2∶1的不平衡更新(不平衡更新容易导致模型过拟合),可以有效缓解这种不稳定的训练,如图4(b)所示。本研究的目的是希望通过对D和G使用1∶1的平衡更新进行稳定训练且改善模型的收敛速度,因此使用TTUR意味着在相同的时间下,模型可以产生更好的生成数据质量。鉴于此,无需为生成器和判别器搜索适合的更新率,设置TTUR为2×10-4和1×10-4,C⁃DCGAN模型在第100次迭代中随机生成的数据样本可以在图中看出区别:应用TTUR生成的数据样本质量(图4(c))在整个训练过程中明显提高,同时还看出增加TTUR可以大大缓解GAN训练的不稳定性。生成器和判别器在整个训练过程都较为平滑, 随着训练次数的增加, 生成器损失增大,判别器损失减小,模型逐渐稳固收敛, 两个网络结构在后期相互对抗, 呈现出图中微幅震荡状态。因此,定性结果证明了TTUR对于C⁃DCGAN模型训练的有效性。

3.2 行星齿轮箱实验

为了进一步验证本研究方法的性能,对实验室HFXZ⁃I行星齿轮箱上的实测数据进行了测试。行星齿轮箱故障诊断实验平台如图5所示。通过安装在齿轮箱体表面顶部的加速度传感器测试振动信号,采样频率为10 240 Hz,在3种电机转速(900 ,1 200,1 500 r/min)和3种负载(0,0.33,0.84 A)情况下连续采样60 s。实验分4次进行,分别对应4种不同故障模式:0(行星轮外圈裂纹) ;1(行星轮磨损) ;2(太阳轮断齿) ;3(正常) 。

图5  HFXZ⁃I行星齿轮箱实验系统平台

Fig.5  Experimental system platform of planetary gearbox data HFXZ⁃I

由于实验室实测行星齿轮箱数据复杂且数据量大,因此训练难度加大,训练时间较长。实验分3次进行。图6为C⁃DCGAN在行星齿轮箱数据集上判别器和生成器的损失函数随着训练次数增加而变化的情况。

  

  

  

图6 C⁃DCGAN模型训练损失曲线图(行星齿轮箱数据)

Fig.6 Variations of loss functions with C⁃DCGAN (planetary gearbox)

图6(a)可以观察到,在整个训练过程中,判别器D的对抗损失总是趋于0,而生成器的损失却非常高。这有可能是其中一个网络没有足够的参数量来匹配另一个网络,从而导致整个训练过程中出现两次比较明显的模式坍塌现象,出现了生成的4个故障振动时域图一模一样。其原因在于刚开始D的更新速度小于G,D会错误地将齿轮箱振动数据信号空间中的某些点标记为可能是真,而不是假,G就会选择将所有噪声输入隐射到最可能为真的点。在进行D和G以2∶1不平衡训练实验中,网络整体训练相对稳定(前期有突出震荡状态),但从图6(b)中还是可以看出判别器网络损失大大减少,几乎每次都超过生成器。为了进一步提高训练稳定性,找到合适的学习速率,使得生成器缓慢更新足够小,以允许判别器快速更新收敛,在第3次实验中加入TTUR技术。从图6(c)可以看出,TTUR能够稳定学习,故可以使用更高的判别器学习速率。在迭代100次左右时, 两个网络的损失函数有一个随机上升和下降的过程,出现比较突出的震荡状态。这是完全正常的训练过程遇到突然的不稳定,在训练过程中要密切关注生成图像的质量,有时候视觉的理解通常比一些损失值更有意义。

4 TTUR评估

将C⁃DCGAN的双时间尺度更新规则(TTUR)与单时间尺度更新规则(Original)训练进行比较,观察TTUR是否提高了C⁃DCGAN的收敛速度和生成样本质量。在单时间尺度训练中判别器每训练2次,生成器更新1次;在TTUR训练中,只更新判别器1次(即判别器更新1次,生成器更新1次)。虽然通过实验验证了TTUR在判别器学习过程中是收敛的,但是以上两个实验都必须找到可行的学习速率(反复试验后,选取实验效果最好的一个)。因为学习速率应该足够小(对于生成器),以确保收敛;但同时又应该足够大,以允许快速学习。

GAN模型评估指标有很多,但这些评价标准只适用于图像而不适用于故障诊断领域。因为故障诊断目标对象是振动信号,和图像有很大的不同。因此,训练和评估要与应用领域相匹配非常重要。

C⁃DCGAN是故障振动信号生成模型,是一个一维卷积神经网络,它将一个振动信号的潜在向量映射到一个由全连接层输出的最大值所给出的振动信号向量序列。判别器也是一个应用于振动信号向量序列的一维CNN。笔者选择JSD散

29来测量模型和真实振动信号数据分布之间的性能。JSD散度是测量两个样本之间距离并评估其相似性最直接的方法。JSD越高,说明两者的差异程度越大;JSD越低,说明两者的差异程度越小。在评估时,需要进一步确定最优模型C⁃DCGAN+TTUR的散度不再减小时,停止训练的时间点即为更新步长。

表1给出了TTUR和Original的学习率及JSD值。从表中可以看出,TTUR达到比单时间尺度训练更低的JSD值,且能够稳定学习,可以使用更高的判别器学习率。图7为使用判别器D和生成器G进行2∶1更新训练的学习方法和TTUR学习方法的损失函数对比图。

表1  C⁃DCGAN的双时间尺度更新规则和单时间尺度更新规则在两种数据集上的性能对比
Tab.1  The performance comparision of C⁃DCGAN trained with TTUR and Original
C⁃DCGAN模型输入数据方法学习率JSD值方法相同的D,G学习率JSD值
DG
CWUR数据 TTUR 4×10-4 1×10-4 0.169 Original 1×10-4 0.175
齿轮箱数据 TTUR 2×10-4 1×10-4 0.380 Original 2×10-4 0.388

图7  TTUR和单时间尺度训练的损失函数对比图

Fig.7  Training loss function comparison of TTUR and Original

观察图7,两个数据集在单时间尺度训练过程中震荡幅度较大,训练出现明显的不稳定现象(蓝色曲线)。随着迭代次数的增加,TTUR迅速收敛,取得了较好的效果(红色曲线),进一步说明了TTUR在两种数据集中的训练都优于单时间尺度训练,收敛速度明显得到改进。与单时间尺度训练相比,TTUR能够学习生成更高质量的故障振动信号,更接近真实振动信号。

TTUR实验的目标是找到适合的学习速率,使得缓慢更新足够小以允许快速更新收敛。通常缓慢更新是生成器,快速更新是判别器,要调整这两个学习速率,使生成器以期望的方式影响判别器的学习,但对其还产生一定的扰动。这些扰动不仅取决于生成器的学习速率,也取决于损失函数、损失函数的当前值、优化方法、误差信号、生成器消失或爆炸的梯度、生成器学习任务的复杂性、生成器的架构以及正则化等。因此,即使生成器的学习率比判别器大,也能保证判别器有较小的扰动。来自生成器的判别器扰动与来自判别器的生成器扰动是不同的,学习率不能直接转化为干

18

5 结束语

本研究引入双时间尺度更新规则训练机械故障诊断模型C⁃DCGAN,用TTUR训练的C⁃DCGAN模型可以解决判别器正则化中缓慢学习问题,使得模型训练更加稳定。用JSD散度指标评估TTUR在模型上的性能,并在两个数据集上使用TTUR训练的网络模型与单时间尺度更新规则训练的网络模型进行了比较,结果表明,TTUR在所有实验中均优于常规的C⁃DCGAN训练。

参 考 文 献

1

GOODFELLOW I JPOUGET⁃ABADIE JMIRZA Met al. Generative adversarial nets[C]∥International Conference on Neural Information Processing Systems. CanadaMIT Press20142672-2680. [百度学术] 

2

王坤峰左旺孟谭营.生成式对抗网络:从生成数据到创造智能[J].自动化学报2018445):769-774. [百度学术] 

WANG KunfengZUO WangmengTAN Yinget al. Generative adversarial networks: from generating data to creating intelligence[J]. Acta Automatica Sinica2018445):769-774. (in Chinese) [百度学术] 

3

BROCK ADONAHUE JSIMONYAN K. Large scale GAN training for high fidelity natural image synthesis [DB/OL]. [2021-03-15]. https:∥arxiv.org/abs/1809.11096. [百度学术] 

4

MA JYU WLIANG Pet al. Fusion GAN: a generative adversarial network for infrared and visible image fusion[J]. Information Fusion20194811-26. [百度学术] 

5

LI JHUO H TLIU Ket al. Infrared and visible image fusion using dual discriminators generative adversarial networks with wasserstein distance[J]. Information Sciences20205298):28-41. [百度学术] 

6

ZHANG YGAN ZCARIN L. Generating text via adversarial training[C]∥Conference on Neural Information Processing Systems. SpainNIPS Foundation2016. [百度学术] 

7

LEE Y OJO JHWANG J. Application of deep neural network and generative adversarial network to industrial maintenance: a case study of induction motor fault detection[C]∥IEEE International Conference on Big Data. Boston, MAIEEE20183248-3253. [百度学术] 

8

WANG ZWANG JWANG Y. An intelligent diagnosis scheme based on generative adversarial learning deep neural networks and its application to planetary gearbox fault pattern recognition[J]. Neurocomputing2018310213-222. [百度学术] 

9

SUH SLEE HJO Jet al. Generative oversampling method for imbalanced data on bearing fault detection and diagnosis[J]. Applied Sciences⁃Basel201994):746. [百度学术] 

10

LUO JHUANG J YLI H M. A case study of conditional deep convolutional generative adversarial networks in machine fault diagnosis[J]. Journal of Intelligent Manufacturing2021322):407-425. [百度学术] 

11

ARJOVSKY MLEON B. Towards principled methods for training generative adversarial networks [DB/OL]. [2021-03-15]. https:∥arxiv.org/abs/ 1701. 04862. [百度学术] 

12

SALIMANS TGOODFELLOW IZAREMBA Wet al. Improved techniques for training GANs [DB/OL]. [2021-03-15]. https:∥arxiv.org/abs/ 1606.03498. [百度学术] 

13

RADFORD AMETZ LCHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks [DB/OL]. [2021-03-15]. https: ∥arxiv.org/abs/ 1511.06434v1. [百度学术] 

14

SPRINGENBERG J T. Unsupervised and semi⁃supervised learning with categorical generative adversarial networks [DB/OL]. [2021-03-15]. https: ∥arxiv.org/abs/ 1511.06390. [百度学术] 

15

ZHANG HGOODFELLOW IMETAXAS Det al. Self⁃attention generative adversarial networks [DB/OL]. [2021-03-15]. https: ∥arxiv.org/abs/ 1805.08318. [百度学术] 

16

QIN Y PMITRA NWONKA P. How does Lipschitz regularization influence GAN training? [DB/OL]. [2021-03-15]. https: ∥arxiv.org/abs/ 1811.09567. [百度学术] 

17

罗佳黄晋英.生成式对抗网络研究综述[J].仪器仪表学报2019403):74-84. [百度学术] 

LUO JiaHUANG Jinying. Generative adversarial network: an overview[J]. Chinese Journal of Scientific Instrument2019403):74-84. (in Chinese) [百度学术] 

18

HEUSEL MRAMSAUER HUNTERTHINER Tet al. GANs trained by a two time⁃scale update rule converge to a local nash equilibrium[C]∥International Conference on Neural Information Processing Systems (NIPS). USA[s.n.]20176629-6640. [百度学术] 

19

MIRZA MOSINDERO S. Conditional generative adversarial nets [DB/OL]. [2021-03-15]. https:∥arxiv.org/abs/1411.1784. [百度学术] 

20

HAROLD J. KUSHNER G. GEORGE Y. Stochastic approximation algorithms and applications[M]. New YorkSpringer19971-22. [百度学术] 

21

PRASAD H LPRASHANTH L ABHATNAGAR S. Two⁃timescale algorithms for learning nash equilibria in general⁃sum stochastic games[C]∥ AAMAS'15: International Conference on Autonomous Agents and Multiagent Systems. Istanbul, Turkey[s.n.]20151371-1379. [百度学术] 

22

BORKOR V S. Stochastic approximation with two⁃time scales[J]. Systems & Control Letters1997295): 291-294. [百度学术] 

23

BERTSEKAS D PTSITSIKLIS J N. Gradient convergence in gradient methods with errors[J]. SIAM Journal on Optimization2000103):627-642. [百度学术] 

24

RAMASWAMY ABHATNAGAR S. Stochastic recursive inclusion in two timescales with an application to the lagrangian dual problem[J]. Stochastics2016888): 1173-1187. [百度学术] 

25

SMITH W ARANDALL R B. Rolling element bearing diagnostics using the case western reserve university data: a benchmark study[J]. Mechanical Systems and Signal Processing201564/65):100-131. [百度学术] 

26

Case Western Reserve University. Bearing data center [EB/OL].[2019-02-15]. https:∥engineering.case.edu/bearingdatacenter/download-data-file. [百度学术] 

27

MIYATO TKATAOKA TKOYAMA Met al. Spectral normalization for generative adversarial networks[C]∥International Conference on Learning Representations (ICLR). Vancouver, Canada[s.n.]2018. [百度学术] 

28

ARJOVSKY MCHINTALA SBOTTOU L. Wasserstein GAN[DB/OL].[2021-03-15].https:∥arxiv.org/abs/1701.07875. [百度学术] 

29

GOODFELLOW I. NIPS 2016 tutorial: generative adversarial networks [DB/OL]. [2021-03-15]. https:∥arxiv.org/abs/ 1701.00160. [百度学术]