新闻动态

智源发布多模态模型中文评测基准CMMU,GPT-4V答题准确率约30%
多模态模型(Large Multimodal Model,简称LMM)近期被认为是大模型研究和发展的一个关键领域。与早期只能处理单一数据类型(如文本、图像或音频)的机器学习模型不同,LMM 能同时处理和理解多种数据类型,更接近于人类大脑的工作方式,让人机交互变得更为灵活和多样化,提升模型的综合性能和理解深度。
01.26.2024
查看详情
中国互联网协会人工智能工作委员会2024年度全体会议暨第四期AI智荟沙龙——“大模型的发展态势与评估体系”研讨会在京召开
岁月更替,华章再起。中国互联网协会人工智能工作委员会2024年度全体会议暨第四期AI智荟沙龙—“大模型的发展态势与评估体系”研讨会,1月18日下午在北京智源大厦召开。
01.22.2024
查看详情
2024年中国互联网协会AI工作委员会全体会议暨AI智荟沙龙:大模型的发展态势与评估体系
2024年中国互联网协会AI工作委员会全体会议暨AI智荟沙龙:大模型的发展态势与评估体系
01.17.2024
查看详情
FlagEval 2024年1月榜|平行测验增强主观评测可靠性,新增Mixtral、DeepSeek、MindSource等结果
FlagEval 评测体系致力于对大模型进行科学、可靠、全面的评测,主观评测可以帮助量化大模型输出内容的多样性和新颖性,成为 FlagEval 验证大语言模型能力的主要方法之一。为了保证时效性、防止评测数据泄露,主观评测集需要持续更新和迭代。如何保证迭代过程中评测结果的一致性和可靠性,就成为了我们亟需解决的问题。
01.17.2024
查看详情
GeoDream:将2D和3D先验解耦,生成高质量和多视角一致性的3D资产
3D建模是游戏、影视和AR/VR等多个行业的基础。然而目前模型生产普遍依赖专业3D从业者的手工建模,生产周期和成本一直居高不下。目前生成式AI技术貌似让3D建模这个产业发生变革,一个拥有丰富想象力的赛道正在开启。
01.15.2024
查看详情
量化新范式:智源提出首个1bit自然语言理解预训练模型BiPFT
预训练模型近年来成为了实现通用人工智能最有潜力的技术之一。然而,为了最大限度地提高基座模型的知识存储,增大模型规模也给推理带来了挑战,尤其是在计算资源有限的设备上,例如移动设备。
01.10.2024
查看详情
FlagData 2.0:全面、高效的大模型训练数据治理工具集
数据是大模型训练至关重要的一环。数据规模、质量、配比,很大程度上决定了最后大模型的性能表现。无论是大规模的预训练数据、精益求精的SFT数据都依托于一个完整的“获取-准备-处理-分析”数据流程。然而,当前的开源工具通常只专注于流程中的某一环节,很少有能够覆盖整个流程的项目。此外,这些工具处理的数据质量参差不齐,很难“干净地”从不同原始数据中提取表格、图片等结构化信息,这给构建大模型的训练数据集带来了极大的挑战。
12.31.2023
查看详情
FlagPerf能力升级:支持AI硬件在大模型场景下的多维度评测
FlagPerf是智源研究院发布的一体化AI硬件评测引擎,可快速高效地对AI硬件进行适配和评测,解决当前AI硬件所面临的兼容性差、技术栈异构程度高、应用场景复杂多变等挑战,快速对国产AI硬件进行评测。
12.29.2023
查看详情
TACO:开源最大规模、面向复杂任务的代码生成训练数据集与评测基准
代码能力是基础模型的核心能力之一,对于提升基础模型的推理、规划等关键技能至关重要。随着大型语言模型和代码生成模型的迅速发展,主流的代码评测基准已经显现出它们的局限性,难以全面反映模型在真实场景下的表现和潜力。
12.25.2023
查看详情
Emu2:新一代生成式多模态模型
根据少量演示和简单指令完成听、说、读、写、画等多模态任务是人类的基本能力。对于AI系统而言,如何利用多模态环境下的各种信息、实现少样本多模态理解与生成是有待攻克的「技术高地」。
12.21.2023
查看详情
首个「创造式任务」基准,智源与北大、清华联手发布Creative Agents:专为想象力而生
近年来,许多研究通过训练服从自然语言指令的智能体,让智能体具有了解决各种开放式任务的能力。
12.20.2023
查看详情
FlagEval 12月榜|新增大模型鲁棒性评测,加入Qwen-72B、DeepSeek-34B等开源模型
北京航空航天大学作为 FlagEval 大模型评测平台的共建单位,构建了大语言模型鲁棒性评测方案并针对当前主流模型进行了初步评测。鲁棒性是指模型在面对不同类型的异常、噪声、干扰、变化或恶意攻击时,能够保持稳定性和高效性的能力。目前的基础模型可以在给定数据输入图片的情况下, 经过其定义的计算 图片,得到模型期望的输出图片,而鲁棒性可以理解为:在给定扰动噪音图片的情况下,模型的输出图片是否等于期望的输出图片 ,量化该差异为图片,图片越小代表该模型鲁棒性能越好。
12.20.2023
查看详情
LM-Cocktail模型治理策略,像调鸡尾酒一样调制“多技能”语言大模型
近日,智源研究院信息检索与知识计算组发布LM-Cocktail模型治理策略,旨在为大模型开发者提供一个低成本持续提升模型性能的方式:通过少量样例计算融合权重,借助模型融合技术融合微调模型和原模型的优势,实现“模型资源”的高效利用。
12.11.2023
查看详情
智源FlagAttention:面向多种训练芯片的大模型高性能Triton算子集
随着人工智能产业的高速增长,大模型已成为行业创新的驱动引擎。大模型对计算资源的需求巨大,对各种AI芯片而言是难得的发展机遇。尽管NVIDIA的GPU芯片和CUDA软件生态在市场上占据主导地位,但其他芯片制造商也在加速研发,智源研究院牵头开发的FlagAttention项目,目标是构建一套对多种芯片适配更友好的大模型核心算子集合,我们选择Triton作为开发语言,基于Triton的开放性,FlagAttention不仅支持NVIDIA GPU,面向未来,还可以显著降低不同芯片之间模型适配的成本,提高大模型的训练与推理效率。
12.08.2023
查看详情
打破异构算力束缚,FlagScale首次实现大模型的异构混合训练,开源70B模型实验版
AIGC浪潮带来了算力需求的高峰,而算力市场供应紧张的局面时日已久,数百亿参数规模的大模型训练需要庞大的计算资源。当前的训练方法仅支持同一种训练芯片构成集群来完成大模型训练,意味着数百亿参数的大模型训练需要上千张同一型号的AI训练加速卡(例如英伟达的GPU或某些国产训练加速卡),这在很多情况下难以满足。在长期的算力积累过程中,企业往往在不同阶段购买同一厂商不同代际的AI加速硬件、或者采购不同厂商的硬件,以满足不同工作负载的需求,同时尽可能地发挥各类设备的最大优势,节省使用成本。
11.30.2023
查看详情
打造生成式人工智能压舱石,智源联合共建单位开源可信中文互联网语料库CCI
在中国网络空间安全协会人工智能安全治理专业委员会数据集工作组、北京市委网信办、北京市科委、中关村管委会、海淀区政府的支持下,智源研究院联合拓尔思、中科闻歌共建了 “中文互联网语料库”(Chinese Corpora Internet,简称 CCI),旨在为国内大数据及人工智能行业提供一个安全、可靠的语料资源,并以此为契机促进不同机构合作,共同推动大数据和人工智能领域的健康发展。
11.29.2023
查看详情
FlagEval 11月榜 | 开源中文语义理解评测集C-SEM,新增ChatGLM3、Yi 等模型评测
在自然语言处理领域的研究和应用中,语义理解被视为关键基石。然而,当前在中文大语言模型评测领域,仍然比较缺乏从语言学角度出发的公开评测基准。
11.17.2023
查看详情
JudgeLM:裁判各类大模型,仅GPT-4 1/120成本丨已开源
越来越多的公司和研究机构开始构建或微调AI大模型。在AI得到不断发展的同时,如何在开放性场景评估LLMs(大型语言模型),也成为了一个具有挑战度和紧迫性的问题。
11.10.2023
查看详情
生物神经元高效算法加速大脑仿真,智源联合成果登上Nature Communications
在人工智能领域,随着大型模型如ChatGPT等的崛起,人们对机器在未来具备超越人脑的智能充满信心。要实现这个目标,关键在于研究如何让机器在结构、规模和信号处理机制上逼近人类大脑的机制。这就需要借助更先进的神经元模型和仿真方法。
11.05.2023
查看详情
Aquila2-34B推出Int4量化版本,低资源实现最强开源模型性能
日前,智源团队发布了中英双语基础模型 Aquila2-34B以及中英双语对话模型AquilaChat2-34B,在各种中英双语主/客观综合评测中全面领先现有的全球开源模型(包括LLama-70B等)。其强大的推理(Reasoning)能力在多项推理评测中超越 LLama2-70B、GPT3.5等模型,仅次于 GPT4。
10.20.2023
查看详情
更大更强!有请智源 Uni3D 视觉大模型,从「最强2D」升维「最强3D」
计算机视觉是人工智能的眼睛,三维视觉的研究赋予这双眼睛探知真实空间纵深与距离的能力。如何让机器人在复杂场景里更聪明地路径规划,与周边的一切精准交互?三维视觉模型的发展被寄予重望。
10.19.2023
查看详情