NLP评测作为对机器理解、处理、应用自然语言能力的一种评估和量化手段,是NLP领域的技术水平和研究进展的直观体现,也为相关方向的模型和方法的发展提供了标杆和方向,激励着研究者们更多地参与到相关方向的研究中,是NLP相关研究的工具和重要驱动力。北京大学教授、智源研究员穗志方等对NLP评测中的问题和对策进行了归纳和探讨,参照人类语言能力评测规范,提出类人机器语言能力评测的概念,从信度、难度、效度三个不同视角,提出了一系列类人机器语言能力评测的基本原则和实施设想,希望为未来的机器语言能力评测提供相对明确的方向和规范,推动评测向更科学、更有效、更系统的方向发展进步。