BAAI智源研究院

FlagEval 12月榜｜新增大模型鲁棒性评测，加入Qwen-72B、DeepSeek-34B等开源模型

北京航空航天大学作为 FlagEval 大模型评测平台的共建单位，构建了大语言模型鲁棒性评测方案并针对当前主流模型进行了初步评测。鲁棒性是指模型在面对不同类型的异常、噪声、干扰、变化或恶意攻击时，能够保持稳定性和高效性的能力。目前的基础模型可以在给定数据输入图片的情况下，经过其定义的计算图片，得到模型期望的输出图片，而鲁棒性可以理解为：在给定扰动噪音图片的情况下，模型的输出图片是否等于期望的输出图片，量化该差异为图片，图片越小代表该模型鲁棒性能越好。

12.20.2023

查看详情

LM-Cocktail模型治理策略，像调鸡尾酒一样调制“多技能”语言大模型

近日，智源研究院信息检索与知识计算组发布LM-Cocktail模型治理策略，旨在为大模型开发者提供一个低成本持续提升模型性能的方式：通过少量样例计算融合权重，借助模型融合技术融合微调模型和原模型的优势，实现“模型资源”的高效利用。

12.11.2023

查看详情

智源FlagAttention：面向多种训练芯片的大模型高性能Triton算子集

随着人工智能产业的高速增长，大模型已成为行业创新的驱动引擎。大模型对计算资源的需求巨大，对各种AI芯片而言是难得的发展机遇。尽管NVIDIA的GPU芯片和CUDA软件生态在市场上占据主导地位，但其他芯片制造商也在加速研发，智源研究院牵头开发的FlagAttention项目，目标是构建一套对多种芯片适配更友好的大模型核心算子集合，我们选择Triton作为开发语言，基于Triton的开放性，FlagAttention不仅支持NVIDIA GPU，面向未来，还可以显著降低不同芯片之间模型适配的成本，提高大模型的训练与推理效率。

12.08.2023

查看详情

打破异构算力束缚，FlagScale首次实现大模型的异构混合训练，开源70B模型实验版

AIGC浪潮带来了算力需求的高峰，而算力市场供应紧张的局面时日已久，数百亿参数规模的大模型训练需要庞大的计算资源。当前的训练方法仅支持同一种训练芯片构成集群来完成大模型训练，意味着数百亿参数的大模型训练需要上千张同一型号的AI训练加速卡（例如英伟达的GPU或某些国产训练加速卡），这在很多情况下难以满足。在长期的算力积累过程中，企业往往在不同阶段购买同一厂商不同代际的AI加速硬件、或者采购不同厂商的硬件，以满足不同工作负载的需求，同时尽可能地发挥各类设备的最大优势，节省使用成本。

11.30.2023

查看详情

打造生成式人工智能压舱石，智源联合共建单位开源可信中文互联网语料库CCI

在中国网络空间安全协会人工智能安全治理专业委员会数据集工作组、北京市委网信办、北京市科委、中关村管委会、海淀区政府的支持下，智源研究院联合拓尔思、中科闻歌共建了 “中文互联网语料库”（Chinese Corpora Internet，简称 CCI），旨在为国内大数据及人工智能行业提供一个安全、可靠的语料资源，并以此为契机促进不同机构合作，共同推动大数据和人工智能领域的健康发展。

11.29.2023

查看详情

FlagEval 11月榜 | 开源中文语义理解评测集C-SEM，新增ChatGLM3、Yi 等模型评测

在自然语言处理领域的研究和应用中，语义理解被视为关键基石。然而，当前在中文大语言模型评测领域，仍然比较缺乏从语言学角度出发的公开评测基准。

11.17.2023

查看详情

JudgeLM：裁判各类大模型，仅GPT-4 1/120成本丨已开源

越来越多的公司和研究机构开始构建或微调AI大模型。在AI得到不断发展的同时，如何在开放性场景评估LLMs（大型语言模型），也成为了一个具有挑战度和紧迫性的问题。

11.10.2023

查看详情

生物神经元高效算法加速大脑仿真，智源联合成果登上Nature Communications

在人工智能领域，随着大型模型如ChatGPT等的崛起，人们对机器在未来具备超越人脑的智能充满信心。要实现这个目标，关键在于研究如何让机器在结构、规模和信号处理机制上逼近人类大脑的机制。这就需要借助更先进的神经元模型和仿真方法。

11.05.2023

查看详情

Aquila2-34B推出Int4量化版本，低资源实现最强开源模型性能

日前，智源团队发布了中英双语基础模型 Aquila2-34B以及中英双语对话模型AquilaChat2-34B，在各种中英双语主/客观综合评测中全面领先现有的全球开源模型（包括LLama-70B等）。其强大的推理（Reasoning）能力在多项推理评测中超越 LLama2-70B、GPT3.5等模型，仅次于 GPT4。

10.20.2023

查看详情

更大更强！有请智源 Uni3D 视觉大模型，从「最强2D」升维「最强3D」

计算机视觉是人工智能的眼睛，三维视觉的研究赋予这双眼睛探知真实空间纵深与距离的能力。如何让机器人在复杂场景里更聪明地路径规划，与周边的一切精准交互？三维视觉模型的发展被寄予重望。

10.19.2023

查看详情

FlagEval 10月榜：新增Aquila2-34B、InternLM-20B、Qwen-14B等模型

当前针对生成式模型的客观评测方式主要分为两类，我们称之为“选项概率式”和“自由生成式”，后者是真正让模型生成答案内容，由真正生成的答案内容来判断模型的上下文理解能力、和指令跟随能力。相比起“选项概率式”，“自由生成式”评测方式更加符合AIGC生成式大模型，尤其是对话模型的用户使用场景。

10.18.2023

查看详情

最强开源中英双语大模型：悟道·天鹰340亿携全家桶登场

悟道·天鹰Aquila大语言模型系列全面升级到Aquila2，并再添 340亿参数(34B)重量级新成员，带来当前最强的开源中英双语大模型。

10.12.2023

查看详情

FlagPerf v1.0 发布，构建开源开放的AI硬件评测生态

国产AI硬件群雄逐鹿的局面之下，AI 硬件评测早已不是可选项，而是必做任务。首先，AI硬件制造商需要一个客观的坐标系度量自身创新进程；再者，产业落地需要公正的评测基准和方式，采购方迫切需要公正的、适应场景需求的评测来指导实际的生产环境搭建。

09.27.2023

查看详情

「生长策略」加持，智源团队只需70万算力成本从头训练千亿大模型

当前，大模型训练成本仍居高不下。有数据显示，GPT-3训练一次的成本约为140万美元，而对于更大的模型，训练成本则在200万美元-1200万美元之间。高昂的训练成本严重制约大模型研究和落地。

09.20.2023

查看详情

中科创达：与北京智源研究院共同成立”人工智能联合实验室“

7月13日, 中科创达和北京智源人工智能研究院共同成立”人工智能联合实验室“。北京智源研究院是全球知名的三大人工智能机构之一。

07.16.2023

查看详情

FlagEval 天秤大模型评测体系及开放平台，打造更全面的引领性评测基准

FlagEval （天秤）语言大模型评测体系建立了“能力-任务-指标”三维评测框架，目前涵盖了 22 个主观和客观评测集，84433 道题目，细粒度刻画大模型的认知能力。

06.14.2023

查看详情

黄铁军：难以预测，无法闭幕｜2023智源大会“AI安全与对齐论坛”

2023 年 6 月 10 日，为期 2 天的智源大会闭幕。在备受关注的「AI 安全与对齐」论坛闭幕式上，智源研究院院长黄铁军针对当下全社会共同思考的「AI 安全」问题发表了自己的看法，强调了关注 AI 安全，应对 AI 风险的重要性。毫无疑问，「AI 安全」将是人工智能发展下一阶段无法回避的核心问题。

06.12.2023

查看详情

悟道·天鹰 Aquila + 天秤 FlagEval，打造大模型能力与评测标准双标杆

为推动大模型在产业落地和技术创新，智源研究院发布“开源商用许可语言大模型系列+开放评测平台” 2 大重磅成果，打造“大模型进化流水线”，持续迭代、持续开源开放。

06.11.2023

查看详情

2023北京智源大会开幕，“悟道3.0”大模型系列发布，人工智能顶级专家共话通用人工智能机遇与挑战

6月9日，为期两天的“北京智源大会”在中关村国家自主创新示范区会议中心成功开幕。科技部副部长吴朝晖和北京市副市长于英杰出席开幕式并致辞。

06.10.2023

查看详情

国内AI大模型“太热”又“太小”

昨天，2023北京智源大会开幕。国际人工智能（AI）领域的顶级专家和学者齐聚大会，围绕当前人工智能学术领域的迫切问题和产业落地存在的各种挑战，开展深入研讨。

06.10.2023

查看详情

北京布局打造人工智能大模型产业高地——抢抓“风口”助大模型一臂之力

ChatGPT爆红，人工智能大模型成为新“风口”。本市启动“通用人工智能产业创新伙伴计划”，布局打造具有国际影响力的通用人工智能大模型创新发展高地。

06.03.2023

查看详情

BAAI智源研究院

BAAI智源研究院

新闻动态