BAAI智源研究院

向数字世界AGI迈进，智源提出「通用计算机控制智能体框架Cradle」

信息革命产生了数字世界，数字世界为大模型的诞生提供了数据，也最容易实现通用人工智能（AGI）。

03.07.2024

查看详情

张宏江：大模型技术发展的八点观察

继ChatGPT之后，Sora模型的出现再次激发了各行各业对AI的热情。面对术语的日新月异，个人和企业应用的纷繁涌现，以及商业模式的持续重构，大模型能够展现出惊人的能力并迅速影响社会，这背后有着更深刻的原因。在近日举办的“亚布力中国企业家论坛年会”上，智源研究院学术顾问委员会主任张宏江发表了闭幕式演讲，分享了他对大模型技术发展的八点观察。

03.06.2024

查看详情

Bunny-3B: 数据浓缩技术让3B多模态小模型媲美13B大模型

近期，Microsoft、Google、StabilityAI 等机构发布了多款小语言模型，并由此衍生出了一系列多模态小模型。多模态小模型因为训练和部署成本低，吸引了更多技术人员参与其中，这一趋势将促进大模型技术快速发展和普及。

02.22.2024

查看详情

EVA-CLIP-18B：性能最强的开源CLIP视觉大模型

随着大规模多模态模型在自然语言处理、计算机视觉等领域的发展，对比式语言-图像预训练（CLIP模型）的重要性日益凸显。EVA-CLIP 模型是一种视觉基础模型，能够从视觉信号中提取通用的、含有高层语义信息的视觉表征，为广泛的视觉理解和视觉-语言多模态任务提供感知基础。

02.07.2024

查看详情

年度总结｜FlagOpen大模型开源技术体系

2023年3月智源研究院牵头联合多家高校和企业团队，发布了FlagOpen(飞智)大模型技术开源体系，旨在打造全面支撑大模型技术发展的一站式开源项目技术体系，共建共享大模型时代的“新Linux”。

02.06.2024

查看详情

FlagEval 2月榜｜新增多个MoE模型及InternLM2系列模型评测结果

为了构建更强大的语言模型，模型的参数规模和复杂度不断增加，导致计算成本持续攀升，对大模型的应用落地造成了阻碍。为了解决这一问题，Mixture-of-Experts（MoE）架构被应用到大语言模型上。简言之，MoE架构是将多个模型（称为“专家 / Experts”）通过“门控网络”结合在一起，选择最合适的“专家”来处理输入，从而减少计算量，有效地提高大模型的推理效率，同时保证较好的性能。

02.05.2024

查看详情

王仲远博士加入智源研究院，接任院长一职

2024年2月1日，中国北京，北京智源人工智能研究院（以下简称“智源研究院”）今日宣布，智源研究院理事会任命王仲远博士接任智源研究院院长，全面负责研究院各项工作。

02.01.2024

查看详情

新一代通用向量模型BGE-M3：一站式支持多语言、长文本和多种检索方式

语义向量模型（Embedding Model）是语言模型生态体系中的重要组成部分，这一技术被广泛应用于搜索（Search）、问答（QA）、大语言模型检索增强（RAG）等应用场景之中。智源 BGE（BAAI General Embedding）模型自去年8月发布后广受好评，被开源爱好者集成至 LangChain、Llama_index 等项目，全球下载量已达713万次。

01.30.2024

查看详情

智源发布多模态模型中文评测基准CMMU，GPT-4V答题准确率约30%

多模态模型（Large Multimodal Model，简称LMM）近期被认为是大模型研究和发展的一个关键领域。与早期只能处理单一数据类型（如文本、图像或音频）的机器学习模型不同，LMM 能同时处理和理解多种数据类型，更接近于人类大脑的工作方式，让人机交互变得更为灵活和多样化，提升模型的综合性能和理解深度。

01.26.2024

查看详情

中国互联网协会人工智能工作委员会2024年度全体会议暨第四期AI智荟沙龙——“大模型的发展态势与评估体系”研讨会在京召开

岁月更替，华章再起。中国互联网协会人工智能工作委员会2024年度全体会议暨第四期AI智荟沙龙—“大模型的发展态势与评估体系”研讨会，1月18日下午在北京智源大厦召开。

01.22.2024

查看详情

2024年中国互联网协会AI工作委员会全体会议暨AI智荟沙龙：大模型的发展态势与评估体系

01.17.2024

查看详情

FlagEval 2024年1月榜｜平行测验增强主观评测可靠性，新增Mixtral、DeepSeek、MindSource等结果

FlagEval 评测体系致力于对大模型进行科学、可靠、全面的评测，主观评测可以帮助量化大模型输出内容的多样性和新颖性，成为 FlagEval 验证大语言模型能力的主要方法之一。为了保证时效性、防止评测数据泄露，主观评测集需要持续更新和迭代。如何保证迭代过程中评测结果的一致性和可靠性，就成为了我们亟需解决的问题。

01.17.2024

查看详情

GeoDream：将2D和3D先验解耦，生成高质量和多视角一致性的3D资产

3D建模是游戏、影视和AR/VR等多个行业的基础。然而目前模型生产普遍依赖专业3D从业者的手工建模，生产周期和成本一直居高不下。目前生成式AI技术貌似让3D建模这个产业发生变革，一个拥有丰富想象力的赛道正在开启。

01.15.2024

查看详情

量化新范式：智源提出首个1bit自然语言理解预训练模型BiPFT

预训练模型近年来成为了实现通用人工智能最有潜力的技术之一。然而，为了最大限度地提高基座模型的知识存储，增大模型规模也给推理带来了挑战，尤其是在计算资源有限的设备上，例如移动设备。

01.10.2024

查看详情

FlagData 2.0：全面、高效的大模型训练数据治理工具集

数据是大模型训练至关重要的一环。数据规模、质量、配比，很大程度上决定了最后大模型的性能表现。无论是大规模的预训练数据、精益求精的SFT数据都依托于一个完整的“获取-准备-处理-分析”数据流程。然而，当前的开源工具通常只专注于流程中的某一环节，很少有能够覆盖整个流程的项目。此外，这些工具处理的数据质量参差不齐，很难“干净地”从不同原始数据中提取表格、图片等结构化信息，这给构建大模型的训练数据集带来了极大的挑战。

12.31.2023

查看详情

FlagPerf能力升级：支持AI硬件在大模型场景下的多维度评测

FlagPerf是智源研究院发布的一体化AI硬件评测引擎，可快速高效地对AI硬件进行适配和评测，解决当前AI硬件所面临的兼容性差、技术栈异构程度高、应用场景复杂多变等挑战，快速对国产AI硬件进行评测。

12.29.2023

查看详情

TACO：开源最大规模、面向复杂任务的代码生成训练数据集与评测基准

代码能力是基础模型的核心能力之一，对于提升基础模型的推理、规划等关键技能至关重要。随着大型语言模型和代码生成模型的迅速发展，主流的代码评测基准已经显现出它们的局限性，难以全面反映模型在真实场景下的表现和潜力。

12.25.2023

查看详情

Emu2：新一代生成式多模态模型

根据少量演示和简单指令完成听、说、读、写、画等多模态任务是人类的基本能力。对于AI系统而言，如何利用多模态环境下的各种信息、实现少样本多模态理解与生成是有待攻克的「技术高地」。

12.21.2023

查看详情

首个「创造式任务」基准，智源与北大、清华联手发布Creative Agents：专为想象力而生

近年来，许多研究通过训练服从自然语言指令的智能体，让智能体具有了解决各种开放式任务的能力。

12.20.2023

查看详情

FlagEval 12月榜｜新增大模型鲁棒性评测，加入Qwen-72B、DeepSeek-34B等开源模型

北京航空航天大学作为 FlagEval 大模型评测平台的共建单位，构建了大语言模型鲁棒性评测方案并针对当前主流模型进行了初步评测。鲁棒性是指模型在面对不同类型的异常、噪声、干扰、变化或恶意攻击时，能够保持稳定性和高效性的能力。目前的基础模型可以在给定数据输入图片的情况下，经过其定义的计算图片，得到模型期望的输出图片，而鲁棒性可以理解为：在给定扰动噪音图片的情况下，模型的输出图片是否等于期望的输出图片，量化该差异为图片，图片越小代表该模型鲁棒性能越好。

12.20.2023

查看详情

LM-Cocktail模型治理策略，像调鸡尾酒一样调制“多技能”语言大模型

近日，智源研究院信息检索与知识计算组发布LM-Cocktail模型治理策略，旨在为大模型开发者提供一个低成本持续提升模型性能的方式：通过少量样例计算融合权重，借助模型融合技术融合微调模型和原模型的优势，实现“模型资源”的高效利用。

12.11.2023

查看详情

BAAI智源研究院

BAAI智源研究院

新闻动态