在基于深度神经网络开展医学图像分类任务中,能够使用高质量标签训练数据对于学习效果至关重要,因为训练数据中存在错误标签(噪声标签)会大大降低干净测试数据上模型的准确性。一方面,若想训练更好的深度网络,大数据或海量数据是必要的。而另一方面,深度网络往往会记住噪声标签的训练数据,从而导致模型在实践中性能较差。图1验证了噪声标签对深度学习模型性能的不利影响,而且随着噪声比例的增大,训练出的分类模型的性能越差。因此,为了降低医学图像分类任务噪声标签的影响,MILab提出一种基于贝叶斯统计理论的图像标签修正的方法,相关研究论文《Bayesian Statistics Guided Label Refurbishment Mechanism: Mitigating Label Noise in Medical Image Classification》于近期发表在国际学术期刊Medical Physics。

图1. 基于噪声标签的OCT图像分类。(噪声比例从10%到40%以及不含噪声的情形)

  

        图2展示了本研究提出的基于贝叶斯统计理论的图像标签修正算法的原理示意图。该方法可以融合于不同的神经网络模型中,在神经网络模型训练过程中,会记录每个迭代epoch下每一个训练样本的预测标签及预测概率。首先经历warm-up阶段,即在前一些轮的迭代中,模型基于人为提供的图像标签进行计算损失函数并且判断是否进入图像标签修正阶段。然后,当图像标签修正阶段开始工作时,针对标签需要修正的每一个样本,对应记录的预测标签和预测概率会用以计算似然函数,进一步依据贝叶斯理论统计得出最优的修正的图像标签,进而替换图像当下的标签。

图2. 即插即用的基于贝叶斯统计理论的图像标签修正算法模块(BLRM)


        关于含噪声标签条件下的图像分类的研究涉及人为随机引入噪声型和自带噪声型两类数据库,其中,随机引入噪声型数据库包括重构公开的OCT影像数据库和眼底影像数据库,自带噪声型数据库包括公开的自然图像数据库ANIMAL-10N。首先,在OCT影像数据库上,本研究选取Inception-V3作为基础网络,分别验证了所提出标签修正算法BLRM对轻微噪声和严重噪声的应对能力,具体地,分别设置噪声比例为0、10%、20%、30%和40%。表1展示了不同噪声比例下,基础模型(Inception-V3)和融合了BLRM算法的模型(Inception-V3-BLRM)的性能对比。本文提出的BLRM具备兼容不同网络模型的鲁棒性且具备对抗不同比例噪声的能力,降低了噪声标签的影响,提升了分类模型的性能。

表1. 基于不同噪声比例下,OCT图像的分类性能对比


        本研究继续在公开的Messidor数据库上验证BLRM算法的泛化性能。图3分别绘制了4个噪声等级下,实验组Inception-V3-BLRM和对照组Inception-V3的分类ROC曲线。红色的曲线代表实验室Inception-V3-BLRM,蓝色的曲线代表对照组Inception-V3。图3显示,在每个噪声等级下,红色曲线下的面积(实验组的AUC值)均超过蓝色曲线下的面积(对照组的AUC值),这也表明BLRM算法对噪声标签的抑制作用,对模型性能提升的有效性。

图3. 不同噪声比例下,实验组Inception-V3-BLRM和对照组Inception-V3的分类ROC曲线对比


        作者将本研究提出的BLRM方法和相关处理噪声标签的方法进行对比,总结来看,BLRM提升了网络模型对不同比例的噪声标签的鲁棒性,在绝大多数情况下,优于其他对比方法。进一步地,本研究借助于CAM图,从可解释性角度阐明本研究提出的BLRM方法的优越性。基于Inception-V3模型,在Messidor数据库的验证集上,本研究对比了Default方法和Inception-V3-BLRM方法的分类热力图,图4示例了三组对比结果。从可解释性角度表明,本文提出的BLRM方法既能够增强对阳性病灶的解释表达能力,提高疾病诊断的敏感性;也能减少对假阳性病灶的误判,提升疾病诊断的特异性。

图4. Default方法和Inception-V3-BLRM方法的分类热力图对比结果


该论文的第一作者是MILab博士生高孟娣,通讯作者是卢闫晔研究员。其他合作者还包括北京大学肿瘤医院孟祥溪助理研究员、任秋实教授,上海健康医学院周传清教授等人。该研究得到了北京自然科学基金(Z210008)、深圳科技计划(KQTD20180412181221912)、国家重大科技基础设施建设等项目支持。    

文章链接:https://doi.org/10.1002/mp.15799


  • 无标签
写评论...