机器学习量化天文学领域性别歧视

2016-11-14　编辑：中国电子科学网小编　来源：互联网　

　　导读：瑞士苏黎世联邦理工学院利用机器学习算法，首次量化了天文学领域的性别歧视问题。研究发现，因性别偏见，女性第一作者论文的引用率比男性低约10%。该研究为消除学术不公提供了关键数据支撑。

在学术评价体系中，论文引用率是衡量科研影响力的核心指标之一。然而，在看似客观的引用数据背后，是否存在根深蒂固的性别偏见？这一问题长期以来困扰着科学界。近日，一项由瑞士苏黎世联邦理工学院（ETH Zurich）研究团队主导、利用机器学习算法进行量化分析的最新研究，给出了一个令人深思的答案：天文学领域的性别歧视，正以可量化的方式，显著拉低了女性科研工作者的学术影响力。

机器学习如何“看见”隐藏在引用率背后的性别歧视？

此前，科学界虽然承认引用率存在性别差异，但始终难以剥离出纯粹的“歧视”成分。毕竟，影响引用的因素众多：论文质量、研究领域、作者资历、期刊影响力等。要精准量化性别歧视的影响，就像要从一场复杂的交响乐中，单独测量某一件乐器的音量。

苏黎世联邦理工学院的研究人员给出了解决方案：训练一个“公平”的机器学习算法。他们分析了1950年至2015年间，发表在天文学领域5本核心期刊上的20万篇论文。首先，他们训练算法仅基于与性别无关的因素——如期刊名称、研究领域、发表年份、作者在机构中的职位（第一作者位置）以及论文发表年限——来预测一篇由男性第一作者撰写的论文应获得的引用率。这相当于建立了一个“无偏见”的引用率基准模型。

随后，他们让这个已经学会“公平预测”的算法，去分析女性第一作者的论文。结果令人震惊：自1985年以来，女性第一作者论文的实际引用率，比算法基于非性别因素预测的“应有”引用率，低了约4%。综合计算，这导致女性第一作者论文的整体引用率，比男性第一作者论文低了约10%。

核心问题：学术引用中的性别偏见究竟从何而来？

该研究不仅量化了偏见，更揭示了其复杂性。用户可能会追问：这10%的差距，真的是“歧视”造成的吗？会不会是女性科学家发表的论文本身质量较低，或者更倾向于选择引用率较低的研究领域？

研究团队通过机器学习模型，巧妙地回答了这些问题。算法的核心逻辑是“控制变量”。它已经将论文的具体内容、所属子领域、期刊级别、发表年份和作者资历等所有“非性别”因素全部纳入考量，并以此为基准进行预测。当预测值（无偏见下的理论引用率）与实际值（现实中的引用率）出现显著差异时，这种无法被其他客观因素解释的“剩余差异”，正是性别偏见留下的“量化指纹”。

美国印第安纳大学伯明顿分校的信息学家Cassidy Sugimoto评价道：“这篇文章的新颖之处在于，它打破了‘引用上的性别差异可能归因于论文的具体内容而非性别’的神话。” 该研究明确指出，即使女性科学家在相同领域、相同期刊、相同资历下发表了同样优秀的论文，她们获得同行认可和引用的机会依然更低。

对比清单：不同视角下的引用差异归因

归因维度	传统观点/表象	机器学习量化结果
研究领域差异	女性倾向于引用率较低的冷门领域	算法已控制领域差异，偏见依然存在
论文类型差异	女性发表综述或数据论文多，原创研究少	模型已考虑论文发表期刊和位置，偏见未被解释
资历与职位	女性资历浅，职位低，影响力有限	模型已纳入职位因素，女性仍被“低估”4%
隐性偏见	无法证实，无量化数据	被量化证实：导致约10%的总体引用差距