FlagEval 12月榜|新增大模型鲁棒性评测,加入Qwen-72B、DeepSeek-34B等开源模型
北京航空航天大学作为 FlagEval 大模型评测平台的共建单位,构建了大语言模型鲁棒性评测方案并针对当前主流模型进行了初步评测。鲁棒性是指模型在面对不同类型的异常、噪声、干扰、变化或恶意攻击时,能够保持稳定性和高效性的能力。目前的基础模型可以在给定数据输入图片的情况下, 经过其定义的计算 图片,得到模型期望的输出图片,而鲁棒性可以理解为:在给定扰动噪音图片的情况下,模型的输出图片是否等于期望的输出图片 ,量化该差异为图片,图片越小代表该模型鲁棒性能越好。