豆包实时语音大模型于1月20日正式推出,并在豆包App全量开放,将豆包App升级至7.2.0版本即可体验。据介绍,豆包实时语音大模型,是一款语音理解和生成一体化的模型,实现了端到端语音对话。相比传统级联模式,在语音表现力、控制力、情绪承接方面表现惊艳,并具备低时延、对话中可随时打断等特性。
据科大讯飞官方微博,1月15日,讯飞星火大模型升级发布,正式发布星火深度推理模型X1,讯飞星火4.0 Turbo底座能力迎来全新升级,同时首发星火语音同传大模型。
11月9日消息,Rokid宣布将于2024年11月18日在杭州举办Rokid Jungle 2024合作伙伴暨新品发布会,带来新一代AR眼镜和对AR行业的新思考。根据Rokid官方预热,新一代AR眼镜“集成了众多创新元素于一体”,其功能和形态号称“或许最接近人们对未来AR眼镜的幻想”。Rokid称该眼镜适合全天候日常佩戴,支持“沉浸式音乐体验”,还可快速抓拍照片。此外,Rokid新一代AR眼镜带来了时下热门的AI语音聊天功能,并支持实时导航,方便用户出行。该眼镜还支持多模态大模型,可进行拍照翻译等,进一步丰富使用场景。
微软亚研院前首席研究经理谭旭于8月加入大模型创业公司月之暗面,主要负责研发端到端语音模型。谭旭加入后,主要目标之一是可能是帮月之暗面打造类似GPT-4o的语音体验。
OpenAI联合创始人兼首席执行官山姆·奥特曼当地时间5月15日就GPT-4o说明称,尽管GPT-4o的文本模式已经发布,但语音模式还未发布。
北京时间5月14日凌晨,OpenAI再迎重磅更新,虽然不是AI搜索,也不是GPT-5,而是发布了新旗舰模型GPT-4o,但也足以让业内震撼。 在此次OpenAI 仅有26分钟的春季发布会中,OpenAI首席技术官穆里·穆拉提(Muri Murati)宣布推出名为GPT-4o的新旗舰生成式AI模型,其集文本音频视觉于一身,能力全新升级。 此前不少爆料提到,OpenAI将推出AI搜索,与谷歌搜索竞争,从而增强ChatGPT的功能并开拓新市场,并称这款产品将在谷歌本周的开发者大会前推出。 不过,OpenAI CEO山姆·奥特曼对此否认,其表示,“不是 GPT-5,也不是搜索引擎,但我们一直在努力开发一些我们认为人们会喜欢的新东西!对我来说就像魔法一样。” GPT-4o显然就是奥特曼所说的“像魔法一样”的新东西。GPT-4o中的o就是Omni,其是拉丁语词根,意思是全面、全能,奥特曼称其“最好的模型”,并免费开放。
4月26日,讯飞星火大模型V3.5春季上新。面向用户高效准确知识获取的痛点,科大讯飞发布业界首个长文本、长图文、长语音大模型,能够把各种信息来源的海量文本、图文资料、会议录音等进行快速学习,在各种行业场景给出专业、准确回答。此外,科大讯飞进一步升级星火语音大模型,首发多情感超拟人合成,具备情绪表达能力,并推出一句话声音复刻功能。 面向企业应用场景,科大讯飞推出星火智能体平台。
1月30日下午,科大讯飞首次发布星火语音大模型,在首批37个主流语种上已整体超越OpenAI公司推出的Whisper V3。星火语音大模型超拟人合声MOS分达到4.5,拟人度超83%,保持在智能语音技术的国际领先水平。科大讯飞同时发布星火认知大模型V3.5。据悉,星火认知大模型V3.5是在全国产算力平台“飞星一号”的基础上训练出来的,相较于讯飞星火V3.0,在七大方面能力均有提升,其中语言理解、数学能力超过GPT-4 Turbo,代码能力达到GPT-4 Turbo的96%,多模态理解能力达到GPT-4V的91%。
近日,SpaceX发布了一个新的网络页面,用于推广其即将推出的“Starlink Direct to Cell”(星链直连手机)服务,该服务计划通过卫星为“现有LTE手机”提供蜂窝数据连接。PCMag报道称,星链会在2024年提供针对手机的短信服务,在2025年会提供语音和数据功能,同时支持物联网设备。