中科院计算所研究员、智源研究员郭嘉丰团队提出了基于自举代表性词预测的信息检索预训练模型B-PROP,该工作根据随机性偏差理论,利用文档中真实词项和随机词项分布的差距进行代表词自举采样,实现面向信息检索的无监督预训练。首先利用BERT的自注意力机制计算文档内词项分布,再利用所有文档的词项分布期望来刻画随机文档的词项分布,最终计算真实词项和随机词项文档的交叉熵实现对比式采样代表性词预测,基于该自监督任务构建面向信息检索的预训练语言模型。下游实验研究结果表明,该预训练模型相较于其他预训练模型在小数据集上检索性能更优。此外,将该模型应用于全球最大规模深度学习检索评测MS MARCO文档排序任务上,成为首个MRR@100超过0.4的团队。
(图片来源:学者提供)