3月20日,阶跃星辰开源图生视频模型——Step-Video-TI2V,一款基于30B参数Step-Video-T2V训练的图生视频模型,支持生成102帧、5秒、540P分辨率的视频,具备运动幅度可控和镜头运动可控两大核心特点,同时天生具备一定的特效生成能力。与此同时,Step-Video-TI2V已完成与华为昇腾计算平台的适配,并在魔乐社区(Modelers)上线。
2月25日,阿里云宣布视频生成大模型万相2.1(Wan)开源,此次开源采用Apache2.0协议,14B和1.3B两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务,全球开发者可在Github、HuggingFace、魔搭社区下载体验。
天眼查知识产权信息显示,近日,阿里巴巴有限公司申请的“一种图生视频方法和装置”专利公布。摘要显示,本发明实施例将包含目标对象的源图像输入第一视频生成模型得到素材视频,根据素材视频确定帧间变换矩阵序列,然后从源图像中得到目标对象对应的对象掩码图像,将帧间变换矩阵序列应用于对象掩码图像可得到多张掩码图像从而组成掩码图像序列,将帧间变换矩阵序列应用于源图像可得到多张目标对象图像从而组成目标对象图像序列,根据源图像、掩码图像序列和目标对象图像序列确定目标输入数据,将目标输入数据输入支持局部重绘的第二视频生成模型,得到对应的目标视频。通过两次模型生成视频,实现了智能化端到端的图生视频,无需引入预设运动参数即可在保持目标对象不扩散的同时,实现运动轨迹多样性。
12月17日消息,谷歌今日宣布,其最新的AI视频生成模型Veo 2正式亮相。据介绍,Veo 2模型能够生成最高4K(4096 x 2160像素)分辨率、时长达到2分钟的视频片段,相较于OpenAI的Sora模型,分辨率提升了4倍,视频时长增加了6倍。Veo 2模型不仅能够在给定文本提示或文本和参考图像的情况下生成视频,还能更真实地模拟运动、流体动力学和光的属性,实现不同的镜头和电影效果,以及“细致入微”的人类表情。
Meta周一表示,它正在更新雷朋Meta智能眼镜,该眼镜具有实时人工智能视频功能和实时语言翻译功能。从周一开始,该公司开始推出v11软件更新。该公司表示,在实时AI会话中,Meta AI可以看到用户所看到的内容,并更自然地与他们交谈。用户可以获得实时、免提的帮助,无需说“Hey Meta”就可以提出问题,并可以自如参考他们之前讨论过的内容。用户也可以随时打断,询问后续问题或改变话题。
12月17日消息,今日,图森未来宣布正式发布图生视频大模型“Ruyi”,并将Ruyi-Mini-7B版本正式开源,用户可以从huggingface上下载使用。据介绍,Ruyi是一个基于DiT架构的图生视频模型,它由两部分构成:一个Casual VAE模块负责视频数据的压缩和解压,一个Diffusion Transformer负责压缩后的视频生成。模型的总参数量约为7.1B,使用了约200M个视频片段进行训练。Ruyi是图森未来正式发布的第一款“图生视频”模型。
12月10日消息,字节跳动视频生成模型PixelDance已在豆包电脑版正式开启内测,部分用户已开通体验入口。内测页面显示,用户每日可免费生成十支视频。
12月10日消息,当地时间周一,OpenAI宣布正式向用户开放其AI视频生成模型Sora。该系统可根据文本提示生成视频。Sora将于当天晚些时候向美国及其他市场ChatGPT付费用户开放。新版工具Sora Turbo可生成最长20秒视频,并且可以提供这些视频的多种变体。
12月3日消息,腾讯混元大模型今日宣布混元视频生成大模型HunYuan Video正式上线,并开源。该模型参数量130亿,具备原生转场和切镜能力,一次生成视频时长为5s。从视频生成效果看,HunYuan Video生成视频远景幅度大、动作流畅,在人文场景/人造场所、人、多主体组合这些类目上有较明显优势,其次在物品和动物/微生物类目也有一定优势。据混元大模型相关负责人介绍,HunYuan Video此次上线的版本以文生视频为主,生成视频分辨率当前为720P,此后不排除加更1080P/4k/8k分辨率版本,也不排除增加图生视频、视频自动配乐等功能。目前该模型已上线腾讯元宝APP,用户可在AI应用中的“AI视频”板块申请试用。
据潞晨科技微信公众号9月26日消息,潞晨科技宣布完成数亿元A++轮融资。北京市人工智能产业投资基金,Capstone Capital,领沨资本,石溪资本参与投资。潞晨科技表示,本轮融资后,公司将专注于打造:大模型时代的新DataBricks平台 ,最大化LLM的post-training和inference效率;世界一流视频生成大模型 。
9月24日,在2024火山引擎AI创新巡展上,火山引擎总裁谭待宣布推出豆包.视频生成模型。据他介绍,豆包.视频生成模型具有高效的DIT融合计算单元,能更充分地压缩编码视频与文本;还使用了全新设计的扩散模型训练方法,保证了多镜头生成的一致性;该模型还使用了深度优化的Transformer结构,大幅提升了视频生成的泛化能力。
9月14日,记者获悉,阿里通义将在云栖大会期间发布视频生成大模型,目前通义App频道和通义万相PC端已上线“视频生成”入口,仅支持用户预约,但未开放使用。页面内容显示,全新发布的视频生成大模型是由通义实验室自主研发,包含“文生视频”和“图生视频”两种创作模式。