复述生成技术是自然语言生成领域的一项重要的问题,并且具有极强的应用场景。在多样性文本复述方面,北京大学王选计算机研究所研究员、智源研究员万小军等从数据集构建、语句级复述与篇章级复述三个层次开展了研究并取得技术创新,构建了业界首个面向学术文献领域的文本复述数据集ParaSCI,提出了多样化语句复述模型DivGAN,并提出业界首个篇章复述模型-CoRPG。该系列研究分别为文本复述领域提供了基础数据资源、方法模型以及新的思路和任务,后续将进一步提升文本复述的多样性,探索多模态信息对文本复述的有用性,推动文本复述技术的应用落地。
图. 多样化语句复述模型DivGAN(图片来源:作者提供)