新闻动态

FlagPerf能力升级:支持AI硬件在大模型场景下的多维度评测
FlagPerf是智源研究院发布的一体化AI硬件评测引擎,可快速高效地对AI硬件进行适配和评测,解决当前AI硬件所面临的兼容性差、技术栈异构程度高、应用场景复杂多变等挑战,快速对国产AI硬件进行评测。
12.29.2023
查看详情
TACO:开源最大规模、面向复杂任务的代码生成训练数据集与评测基准
代码能力是基础模型的核心能力之一,对于提升基础模型的推理、规划等关键技能至关重要。随着大型语言模型和代码生成模型的迅速发展,主流的代码评测基准已经显现出它们的局限性,难以全面反映模型在真实场景下的表现和潜力。
12.25.2023
查看详情
Emu2:新一代生成式多模态模型
根据少量演示和简单指令完成听、说、读、写、画等多模态任务是人类的基本能力。对于AI系统而言,如何利用多模态环境下的各种信息、实现少样本多模态理解与生成是有待攻克的「技术高地」。
12.21.2023
查看详情
首个「创造式任务」基准,智源与北大、清华联手发布Creative Agents:专为想象力而生
近年来,许多研究通过训练服从自然语言指令的智能体,让智能体具有了解决各种开放式任务的能力。
12.20.2023
查看详情
FlagEval 12月榜|新增大模型鲁棒性评测,加入Qwen-72B、DeepSeek-34B等开源模型
北京航空航天大学作为 FlagEval 大模型评测平台的共建单位,构建了大语言模型鲁棒性评测方案并针对当前主流模型进行了初步评测。鲁棒性是指模型在面对不同类型的异常、噪声、干扰、变化或恶意攻击时,能够保持稳定性和高效性的能力。目前的基础模型可以在给定数据输入图片的情况下, 经过其定义的计算 图片,得到模型期望的输出图片,而鲁棒性可以理解为:在给定扰动噪音图片的情况下,模型的输出图片是否等于期望的输出图片 ,量化该差异为图片,图片越小代表该模型鲁棒性能越好。
12.20.2023
查看详情
LM-Cocktail模型治理策略,像调鸡尾酒一样调制“多技能”语言大模型
近日,智源研究院信息检索与知识计算组发布LM-Cocktail模型治理策略,旨在为大模型开发者提供一个低成本持续提升模型性能的方式:通过少量样例计算融合权重,借助模型融合技术融合微调模型和原模型的优势,实现“模型资源”的高效利用。
12.11.2023
查看详情
智源FlagAttention:面向多种训练芯片的大模型高性能Triton算子集
随着人工智能产业的高速增长,大模型已成为行业创新的驱动引擎。大模型对计算资源的需求巨大,对各种AI芯片而言是难得的发展机遇。尽管NVIDIA的GPU芯片和CUDA软件生态在市场上占据主导地位,但其他芯片制造商也在加速研发,智源研究院牵头开发的FlagAttention项目,目标是构建一套对多种芯片适配更友好的大模型核心算子集合,我们选择Triton作为开发语言,基于Triton的开放性,FlagAttention不仅支持NVIDIA GPU,面向未来,还可以显著降低不同芯片之间模型适配的成本,提高大模型的训练与推理效率。
12.08.2023
查看详情
打破异构算力束缚,FlagScale首次实现大模型的异构混合训练,开源70B模型实验版
AIGC浪潮带来了算力需求的高峰,而算力市场供应紧张的局面时日已久,数百亿参数规模的大模型训练需要庞大的计算资源。当前的训练方法仅支持同一种训练芯片构成集群来完成大模型训练,意味着数百亿参数的大模型训练需要上千张同一型号的AI训练加速卡(例如英伟达的GPU或某些国产训练加速卡),这在很多情况下难以满足。在长期的算力积累过程中,企业往往在不同阶段购买同一厂商不同代际的AI加速硬件、或者采购不同厂商的硬件,以满足不同工作负载的需求,同时尽可能地发挥各类设备的最大优势,节省使用成本。
11.30.2023
查看详情
天数智芯与智源研究院完成大模型异构算力混合训练
钛媒体App 11月30日消息,北京智源人工智能研究院副院长兼总工程师林咏华日前宣布,正式开源700亿参数大模型Aquila2-70B-Expr(异构先驱版)。
11.30.2023
查看详情
打造生成式人工智能压舱石,智源联合共建单位开源可信中文互联网语料库CCI
在中国网络空间安全协会人工智能安全治理专业委员会数据集工作组、北京市委网信办、北京市科委、中关村管委会、海淀区政府的支持下,智源研究院联合拓尔思、中科闻歌共建了 “中文互联网语料库”(Chinese Corpora Internet,简称 CCI),旨在为国内大数据及人工智能行业提供一个安全、可靠的语料资源,并以此为契机促进不同机构合作,共同推动大数据和人工智能领域的健康发展。
11.29.2023
查看详情
北京智源人工智能研究院林咏华:联合各方共同打造面向下一代AI编译器的关键技术
钛媒体App 11月29日消息,北京智源人工智能研究院副院长兼总工程师林咏华今日在人工智能计算大会上表示,智源研究院正联合多个高校团队、多个芯片厂商共同打造面向下一代AI编译器的关键技术,构建公共的AI芯片开放软件生态。
11.29.2023
查看详情
FlagEval 11月榜 | 开源中文语义理解评测集C-SEM,新增ChatGLM3、Yi 等模型评测
在自然语言处理领域的研究和应用中,语义理解被视为关键基石。然而,当前在中文大语言模型评测领域,仍然比较缺乏从语言学角度出发的公开评测基准。
11.17.2023
查看详情
JudgeLM:裁判各类大模型,仅GPT-4 1/120成本丨已开源
越来越多的公司和研究机构开始构建或微调AI大模型。在AI得到不断发展的同时,如何在开放性场景评估LLMs(大型语言模型),也成为了一个具有挑战度和紧迫性的问题。
11.10.2023
查看详情
生物神经元高效算法加速大脑仿真,智源联合成果登上Nature Communications
在人工智能领域,随着大型模型如ChatGPT等的崛起,人们对机器在未来具备超越人脑的智能充满信心。要实现这个目标,关键在于研究如何让机器在结构、规模和信号处理机制上逼近人类大脑的机制。这就需要借助更先进的神经元模型和仿真方法。
11.05.2023
查看详情
Aquila2-34B推出Int4量化版本,低资源实现最强开源模型性能
日前,智源团队发布了中英双语基础模型 Aquila2-34B以及中英双语对话模型AquilaChat2-34B,在各种中英双语主/客观综合评测中全面领先现有的全球开源模型(包括LLama-70B等)。其强大的推理(Reasoning)能力在多项推理评测中超越 LLama2-70B、GPT3.5等模型,仅次于 GPT4。
10.20.2023
查看详情
更大更强!有请智源 Uni3D 视觉大模型,从「最强2D」升维「最强3D」
计算机视觉是人工智能的眼睛,三维视觉的研究赋予这双眼睛探知真实空间纵深与距离的能力。如何让机器人在复杂场景里更聪明地路径规划,与周边的一切精准交互?三维视觉模型的发展被寄予重望。
10.19.2023
查看详情
FlagEval 10月榜:新增Aquila2-34B、InternLM-20B、Qwen-14B等模型
当前针对生成式模型的客观评测方式主要分为两类,我们称之为“选项概率式”和“自由生成式”,后者是真正让模型生成答案内容,由真正生成的答案内容来判断模型的上下文理解能力、和指令跟随能力。相比起“选项概率式”,“自由生成式”评测方式更加符合AIGC生成式大模型,尤其是对话模型的用户使用场景。
10.18.2023
查看详情
最强开源中英双语大模型:悟道·天鹰340亿携全家桶登场
悟道·天鹰Aquila大语言模型系列全面升级到Aquila2,并再添 340亿参数(34B)重量级新成员,带来当前最强的开源中英双语大模型。
10.12.2023
查看详情
FlagPerf v1.0 发布,构建开源开放的AI硬件评测生态
国产AI硬件群雄逐鹿的局面之下,AI 硬件评测早已不是可选项,而是必做任务。首先,AI硬件制造商需要一个客观的坐标系度量自身创新进程;再者,产业落地需要公正的评测基准和方式,采购方迫切需要公正的、适应场景需求的评测来指导实际的生产环境搭建。
09.27.2023
查看详情
「生长策略」加持,智源团队只需70万算力成本从头训练千亿大模型
当前,大模型训练成本仍居高不下。有数据显示,GPT-3训练一次的成本约为140万美元,而对于更大的模型,训练成本则在200万美元-1200万美元之间。高昂的训练成本严重制约大模型研究和落地。
09.20.2023
查看详情
中科创达:与北京智源研究院共同成立”人工智能联合实验室“
7月13日, 中科创达和北京智源人工智能研究院共同成立”人工智能联合实验室“。 北京智源研究院是全球知名的三大人工智能机构之一。
07.16.2023
查看详情