2025全球时空智能大会
5月21-22日 北京
先导片发布,数十位KOL倾情演绎时空智能
邀你一起  探索未来

搜索中心

字节跳动开源多模态AI Agent—UI-TARS-1.5

分享至

4月23日,字节跳动开源了多模态AI Agent UI-TARS的最新1.5版本。与上一代相比,1.5版本在计算机使用、浏览器使用和手机使用等基准测试中均表现非常出色。在计算机使用方面,OSworld测试得分为42.5,高于OpenAI CUA的36.4、Claude 3.7的28以及之前的最高水平38.1(200步);Windows Agent Arena(50步)得分为42.1,远超之前的29.8。浏览器使用方面,WebVoyager得分为84.8,接近OpenAI CUA和之前最高水平的87,Online-Mind2web得75.8,优于OpenAI CUA的71、Claude 3.7的62.9和之前的71。手机使用方面,Android World得64.2,高于之前的59.5。

字节Seed智能体模型UI-TARS-1.5开源

分享至

4月17日,字节跳动豆包大模型团队(Seed)发布并开源UI-TARS-1.5。据介绍,这是一款基于视觉-语言模型构建的开源多模态智能体,能够在虚拟世界中高效执行各类任务。目前,UI-TARS-1.5已在7个典型的GUI图形用户界面评测基准中取得SOTA表现,并首次展现了其在游戏中的长时推理能力和在开放空间中的交互能力。

上海人工智能实验室开源通用多模态大模型书生·万象3.0

分享至

4月17日,上海人工智能实验室(上海AI实验室)升级并开源了通用多模态大模型书生·万象3.0(InternVL3)。通过采用创新的多模态预训练和后训练方法,InternVL3多模态基础能力全面提升,在专家级基准测试、多模态性能全面测试中,10亿~780亿参数的全量级版本在开源模型中性能均位列第一,同时大幅提升了图形用户界面(GUI)智能体、建筑场景图纸理解、空间感知推理以及通识学科推理等方面的能力。

中国自研AI图像生成模型HiDream-I1与HiDream-E1官宣全面开源

分享至

4月15日,HiDream智象未来团队宣布正式开源图像生成大模型HiDream-I1与交互编辑模型HiDream-E1。HiDream-I1在权威榜单Artificial Analysis中24小时内登顶,成为首个跻身全球第一梯队的中国自研生成式AI模型,并在图像质量、语义理解、艺术表现三大维度刷新行业纪录,实现图像的多风格生成,涵盖动漫、肖像、科幻等场景。目前,设计工具Recraft已集成HiDream模型,用户3步即可实现“一键出图+智能编辑”。

群核科技朱皓:开源模型将成为推动全球人工智能发展最强劲的引擎

分享至

4月14日举行的2025年世界互联网大会亚太峰会主论坛暨数智未来论坛上,群核科技联合创始人兼首席技术官朱皓表示,人工智能正在赋能千行百业,但并不能很好走进物理世界。需要借助开源的力量,加速AI走向物理世界。朱皓介绍,近年来,人工智能从技术和应用上都取得了飞跃式的发展。但今天的人工智能依然属于二维世界,仍难以理解空间关系和物理规律。要想创造更大的价值,就需要向三维现实进阶,用以理解三维世界的空间智能技术,成为了关键突破点。开源模型将成为推动全球人工智能发展最强劲的引擎。

智谱发布新一代开源模型,极速版最高达到200tokens/秒

分享至

4月15日,智谱发布新一代开源模型GLM-4-32B-0414系列,包含基座、推理、沉思模型权重,并遵循MIT License。目前系列所有模型可以通过“z.ai”访问体验。据介绍,推理模型GLM-Z1-Air/AirX-0414模型推理速度可以做到最高200 Tokens/秒(MaaS平台bigmodel.cn上实测)。

​智谱将开源推理模型GLM-Z1-Air和基座模型GLM-4-Air0414

分享至

3月31日,智谱将于4月14日开源推理模型GLM-Z1-Air和基座模型GLM-4-Air0414,并于近期陆续上线bigmodel.cn。上述模型是智谱新推出的AI Agent“沉思”背后的模型。

阶跃星辰Step-Video-TI2V图生视频模型开源

分享至

3月20日,阶跃星辰开源图生视频模型——Step-Video-TI2V,一款基于30B参数Step-Video-T2V训练的图生视频模型,支持生成102帧、5秒、540P分辨率的视频,具备运动幅度可控和镜头运动可控两大核心特点,同时天生具备一定的特效生成能力。与此同时,Step-Video-TI2V已完成与华为昇腾计算平台的适配,并在魔乐社区(Modelers)上线。

群核科技开源空间理解多模态模型,可用于具身智能训练等领域

分享至

3月19日,在GTC2025全球大会上,群核科技宣布开源其自主研发的空间理解模型SpatialLM。该模型仅通过一段视频即可生成物理正确的3D场景布局。据了解,SpatialLM突破了传统大语言模型对物理世界几何与空间关系的理解局限,让机器具备空间认知与推理能力,将为具身智能等相关领域提供空间理解基础训练框架。此外,该模型接下来还将迭代自然语言和场景交互功能。

昆仑万维开源R1V视觉思维链推理模型

分享至

3月18日,昆仑万维正式开源首款工业界多模态思维链推理模型Skywork R1V,即日起开源模型权重和技术报告。

腾讯混元推出5款3D生成模型,全部开源

分享至

3月18日,腾讯混元宣布推出5个全新3D生成模型,在生成速度、细节和材质表达上均有提升,并且全部开源。 同时,其自研的3D AI创作引擎也迎来升级,新增多视图输入、模型智能减面、格式全兼容等能力,面向C端用户全面开放使用。最新开源模型包括多视角形状模型Hunyuan3D-2mv和0.6B形状模型Hunyuan3D-2mini等。

元宇宙巨头Roblox发布AI生3D大模型!还开源

分享至

Roblox周一宣布推出其首个AI生3D的基础模型:名为"Cube",允许创作者使用生成式AI创建3D对象。该公司还发布了开源版本,使平台外的任何人都可以基于它进行构建。目前处于测试阶段的Cube 3D Mesh生成功能,使创作者能够通过单个提示生成"网格"(即物体的3D表示)。Cube 3D的开源版本允许任何人定制、创建插件或使用自己的数据集训练模型以满足其需求。

清华团队开源大模型推理引擎“赤兔Chitu”

分享至

3月14日,清华大学高性能计算研究所翟季冬教授团队与清华系科创企业清程极智联合宣布,开源大模型推理引擎“赤兔Chitu”,该引擎首次实现在非英伟达Hopper架构GPU及各类国产芯片上原生运行FP8精度模型,为国产AI芯片的广泛应用和生态建设带来了新的突破。清程极智CEO汤雄超表示,当前国内在推理引擎这一核心环节,仍缺乏生产级开源产品。开源‘赤兔’引擎是助力国内AI生态建设的重要一步。

傅利叶正式开源全尺寸人形机器人数据集Fourier ActionNet并发布全球首个全流程工具链

分享至

3月17日,上海 —— 傅利叶正式开源全尺寸人形机器人数据集Fourier ActionNet,并发布全球首个全流程工具链。首批上线超3万条高质量真机训练数据,包含多种自由度灵巧手的训练数据及专门针对手部任务的模仿学习数据,面向全球开发者及科研机构开源共享,提供从数据采集、训练、部署的一站式解决方案。

华为昇腾适配阶跃星辰多模态开源模型

分享至

魔乐社区(Modelers)今日上架由阶跃星辰自研的Step-Video视频生成和Step-Audio语音模型两款开源多模态大模型,并基于华为昇腾CANN异构计算架构和昇腾服务器,完成了对模型的适配。除魔乐社区外,魔搭社区、模力方舟、HuggingFace、Replicate平台也已上架。此外,包括天数智芯、阿里云、火山引擎、金山云、TCL、LiblibAI、欢瑞世纪等标杆企业均已接入阶跃星辰开源生态。

阿里发布并开源推理模型通义千问QwQ-32B

分享至

3月6日,阿里巴巴发布并开源全新的推理模型通义千问QwQ-32B,阿里巴巴称,这是一款拥有320亿参数的模型,其性能可与具备6710亿参数(其中370亿被激活)的DeepSeek-R1媲美。

智谱开源年第一弹:发布首个能生成汉字的开源文生图模型CogView4

分享至

3月4日,大模型独角兽智谱发布2025开源年的第一个模型:首个支持生成汉字的开源文生图模型——CogView4。据悉,该模型在DPG-Bench基准测试中的综合评分排名第一,在开源文生图模型中达到SOTA(最先进的)。该模型也是首个遵循Apache2.0协议的图像生成模型。

火山引擎宣布将大模型应用开源,正式上线“大模型应用实验室”平台

分享至

3月3日,火山引擎宣布将大模型应用开源,正式上线“大模型应用实验室”平台,并开源手机助手、Deep Research、DeepSeek联网版、实时视频理解、互动双语视频生成器、语音实时通话-青青等众多AI应用。据介绍,大模型应用实验室旨在通过找到高难度高价值问题,集成多模态模型和知识库、联网、文件解析等常用插件,并高效衔接多种终端和丰富的云服务,帮助开发者完成大部分AI应用基础构建工作,并以高质量代码形式开源给企业和开发者。

阿里万相大模型登上全球开源榜首

分享至

开源社区Hugging Face最新榜单显示,开源仅6天的阿里万相大模型登顶模型热榜、模型空间榜两大榜单,成为近期全球开源社区最受欢迎的大模型。根据最新数据,万相2.1(Wan2.1)在Hugging Face及魔搭社区的总下载量已超百万,在Github的Star数超6k。过去几天,阿里万相团队进一步扩大生态兼容,新增支持了ComfyUI、Diffusers等主流框架。万相团队表示,未来还将为用户开放更多体验形式。

DeepSeek宣布开源3FS

分享至

2月28日消息,DeepSeek宣布开源Fire-Flyer文件系统(3FS),它是一个高性能的并行文件系统,专门优化AI数据访问,为所有DeepSeek数据访问提供动力的引擎。据介绍,3FS是专为AI场景设计的高性能存储解决方案,通过架构创新和硬件适配显著提升了数据处理效率,与传统的云存储挂载工具(如s3fs)在目标场景和技术实现上存在显著差异。

点击加载更多