admin 百科大全 2023-01-31 19:28:02

性别不平衡的数据集导致人工智能诊断系统出现性别偏差

最近的一项研究显示，医学影像数据集中的性别不平衡，可能导致基于AI的诊断系统的性能存在性别偏差。主要表现于：在诊断代表性不足的群体时，这些系统的性能会出现明显的下降。

这项研究由一个来自阿根廷的研究团队进行。他们利用NIH Chest-XRay14数据集训练计算机算法来诊断14种常见的胸部疾病。该数据集有来自30805名患者的112120张胸部X线图像，其中男性患者的图像为63340张（56.5%），女性患者的图像为48780张（43.5%）。

在第1步，研究人员分别使用仅包括男性图像，或仅包括女性图像的数据集训练计算机算法。他们发现，当使用男性图像进行训练时，计算机模型对男性测试图像的诊断效果比对女性测试图像的诊断效果要好。相反，当使用女性图像训练时，计算机模型在诊断女性测试图像时表现出更好的性能。

之后，研究人员探索了不平衡数据集中的比例问题。也就是说，训练数据集中同时存在女性和男性患者的图像，但两者的比例不同（0%/100%、25%/75%或50%/50%）。不平衡（比例为0%/100%或25%/75%）数据集训练的模型在测试少数人群时，他们所表现出的性能要比用完全平衡（50%/50%）数据集训练的模型差。然而，它们在测试多数人群中的表现则与用平衡数据集训练的模型没有明显差异。换句话说，对于两个性别而言，用性别平衡数据集训练的模型都在测试中取得了最好的效果。

连同早前的研究，这个工作为我们提供了实验性的证据，证明医学影像数据集中的性别不平衡会导致基于AI诊断系统的性能偏差。参与研究的科学家们希望，这个结果不仅能在医学影像计算界引起警觉，也给负责监管和审批医疗系统的国家机构敲响警钟。