深度神经网络已被广泛应用于医学图像领域,并成功辅助构建了一系列常见眼底疾病的自动筛查系统。然而,眼底疾病的发病率呈现出典型的长尾分布模式。虽然一些常见的眼底疾病相对容易地搜集足够的图像和标注可供大规模分析,但大多数眼底疾病发病率较低,导致我们很难积累充足的数据。通过训练深度神经网络(DNNs)来实现罕见疾病的自动诊断是具有挑战性的。因此,MILab提出一种基于联合正则损失和集成元学习的小样本罕见眼底影像分类方法,相关研究论文《Discriminative Ensemble Meta-Learning with Co-Regularization for Rare Fundus Diseases Diagnosis》于近期发表在国际学术期刊 Medical Image Analysis。

图1. 本研究提出的DEMCR的方法示意图。基础网络不同层输出的多尺度图像特征分别作用于共同正则化损失函数的计算以及最终预测分类结果的集成

       本研究提出了一种基于联合正则损失和集成元学习的眼底罕见病的小样本图像分类策略,即 Discriminative Ensemble Meta-learning with Co-Regularization loss (DEMCR)。眼底罕见疾病分类任务,由于能够获取的影像资料较少,基于深度学习的神经网络通常面临过拟合问题。如图1所示,本研究提出的DEMCR引入小样本元学习框架,充分发挥多个尺度特征图像的优势,从而提升小样本分类模型的泛化性能。来源于基础网络不同层的多级图像特征分别贡献于共同正则化损失函数和集成学习预测的分类结果。DEMCR主要包括三大子模块:元学习框架模块,共同正则化损失函数模块和多尺度集成学习模块。其中,元学习适用于小样本学习环境,可以迅速解决缺乏训练数据的新任务的快速学习和适应问题。同时,为了充分利用多尺度特征图像,本研究首先设计了共同正则化损失函数,综合考虑了来源于多个分类器的损失。最后,多尺度集成学习模块则是指针对基础网络多层分别输出图像特征并独立地进行分类,然后将这多个预测分类结果进行集成学习,得出最终的分类预测结果。本研究对比了Stacking策略集成学习、平均集成学习、投票集成学习这三种集成学习策略。

图2. FundusData-FS数据库中各个类别眼底影像的示例。其中,第一行是正常眼底影像,从左往右分别展示了图像预处理的流程,包括图像裁剪及尺寸调整、图像翻转、图像增强。

       由于目前并没有医学领域的小样本影像数据库,因此,本研究基于多个公开眼底影像数据库重组构造了一个用于小样本学习的FundusData-FS数据库。FundusData-FS由19个数据密集型的常见疾病和小样本的罕见疾病组成,图2展示了数据库中各个类别眼底影像的示例。基于此数据库,本研究分别在不同的N-way K-shot任务设置下,验证提出的DEMCR方法检测眼底罕见病的性能。图3则基于2-way 1-shot的设置,示例地构建了训练任务(a)和测试任务(b)。其中,每个训练任务包含的两种类别是从元训练集合的类别中随机筛选组合而成,每个测试任务的类别则是源于元测试集合的类别。

图3. 基于2-way 1-shot的设置,构建的(a)训练任务和(b)测试任务。其中,训练任务中包含的类别来源于元训练集合,测试任务中包含的类别来源于元测试集合


       表1示例性地展示了基于2-way 1-shot、3-shot和5-shot任务相关小样本学习分类方法与本研究DEMCR方法在FundusData-FS数据集上的针对罕见眼底疾病分类准确率对比。如表1所示,随着每个任务中shot数量的增加,分类准确率不断提升。此外,研究发现当shot数量越少时,神经网络对数据需求更敏锐(data-hungry),分类任务从1-shot到3-shot的性能增益优于3-shot到5-shot的性能增益。显然,本研究的DEMCR方法获得了最优性能,和次优的Baseline方法相比,在2-way 1-shot任务中获得0.85%的性能增益,在2-way 3-shot任务中获得1.36%的性能增益。对比方法RFS方法在2-way 5-shot任务中取得了第二的分类准确率(78.71%),低于本研究方法2.76%。

表1. 基于FundusData-FS数据集2-way分类准确率。

       本研究进一步综合对比了四个侧输出和三种集成学习输出的性能,以此来说明本研究提出的DEMCR方法的有效性(如图4所示)。具体来说,侧输出分别来自四个独立的基础分类器,每个基础分类器分别针对来自基础网络ResNet12最后四层的特征图像进行分类,即依次输出的是第9、10、11和12层的测试准确率(简称为Layer 9、Layer10、Layer 11和Layer 12)。集成学习输出的性能分别来自Stacking策略集成学习(Stacking)、平均集成学习(Averaging)、投票集成学习(Voting)。从图4中可以看出,简单地通过基础网络最后一层的特征图像来进行分类,得出的预测结果往往是不稳定的,综合多个多尺度的基础分类器的预测结果展开集成学习能够提升最终的分类性能,具有重要的意义。

图4. 在FundusData-FS数据库中,基于基础网络最后四层输出的特征分别进行分类的侧输出测试准确率以及基于三种集成学习策略得出的测试准确率的对比。

       本研究继续开展了消融实验以此证明DEMCR方法中包含的共同正则化损失和集成学习策略对性能提升的贡献。图5分别针对FundusData-FS数据库(a)和跨域CrossData-FS数据库(b),基于2-way任务,探索了的测试准确率与“shot”数量之间的关系。三组比较实验的差异取决于训练策略,其中对照组是指原始的元学习方法的分类性能(标记为绿色),共同正则损失组代表引入联合正则损失的元学习方法的性能(标记为紫色),集成组则是本研究提出的DEMCR方法的性能(标记为橙色)。图5(a) 显示,与对照组相比,引入联合正则损失的元学习方法的表现得到了显著提高,最大的增益体现在处理2-way 7-shot任务上,达到了5.61%。此外,集成组基于集成多个基础分类器的结果进一步提高了分类性能。与对照组相比,集成组从1-shot到10-shot任务分别提升了4.56%、4.98%、7.06%、5.87%和5.74%。图5(b)在跨域数据库CrossData-FS上得出了相似的结论。同时,引入联合正则损失的元学习方法的性能增益更加突出。总的来说,消融实验证明了DEMCR方法中的两个策略(共同正则化损失和集成学习策略)对分类性能的提升均有贡献,两者结合可以达到最优分类性能。

图5. 在FundusData-FS(a)和CrossData-FS(b)数据库上,基于2-way任务,三组消融实验的测试准确率对比。绿色柱状图代表原始的元学习方法的分类性能,紫色柱状图代表引入联合正则损失的元学习方法的性能,橙色柱状图则是本研究提出的DEMCR方法的性能。

       该论文的第一作者是MILab博士生高孟娣,通讯作者是卢闫晔研究员。其他合作者还包括任秋实教授等人。该研究得到了北京自然科学基金(Z210008)、

北大医学青年科技创新扬帆计划(BMU2023YFJHMX007)、深圳科技计划(KQTD20180412181221912, JCYJ20200109140603831)等项目支持。    

文章链接:https://doi.org/10.1016/j.media.2023.102884

代码和数据集将适时开源。



  • 无标签
写评论...