AI资讯
-
-
开源全模态模型Baichuan-Omni-1.5上线,多项能力跑赢GPT-4o mini
百川智能上线开源全模态模型 Baichuan-Omni-1.5 。模型支持文本、图像、音频和视频的全模态理解,具备文本和音频的双模态生成能力。在视觉、语音及多模态流式…… -
字节跳动推出 OmniHuman 多模态框架:图片+音频 = 逼真动画
字节跳动提出 OmniHuman ,基于扩散变换器的高保真人类视频生成框架。模型通过单阶段的音频和姿态驱动,能生成高质量的人类视频内容。支持文本、音频、姿态等…… -
VideoWorld开源:多方合作打造仅靠视觉认知世界的视频生成模型
字节跳动豆包大模型团队联合北京交通大学、中国科学技术大学发布的“ VideoWorld ”视频生成模型,现已开源。模型首次实现仅通过视觉信息认知世界,无需依赖语言…… -
海螺AI推出全新 S2V-01 主体参考模型,AI视频创作再上新台阶
海螺AI 推出全新S2V-01主体参考模型,支持用户通过上传一张参考图片,生成与原图高度一致的角色视频。显著提升AI视频创作的效率和质量,使得每一帧画面都能完…… -
Vidu 2.0全新升级,更快、更强、更稳定
Vidu 2.0正式上线,带来生成速度与画质的双重突破,10秒即可出片。效果升级,视频风格、主体更一致,首尾帧更自然。推出超值套餐,成本低至4分/秒。新增错峰模…… -
香港大学携手快手科技推出 GameFactory 框架,突破游戏场景泛化难题
香港大学与快手科技联合推出 GameFactory 框架,旨在解决游戏视频生成中的场景泛化难题。框架基于在开放域视频数据上预训练的视频扩散模型,可生成多样化游戏…… -
豆包大模型1.5正式发布,全面上线火山方舟
字节跳动旗下火山引擎正式发布 豆包大模型1.5 Pro 。模型在知识、代码、推理、中文等多个权威测评基准上表现优异,综合得分超越GPT-4o、Claude 3.5 Sonnet等业…… -
通义开源两大AI模型:支持理解长视频和捕捉事件等能力
通义开源两大AI模型: Qwen2.5-VL 和 Qwen2.5-1M 。Qwen2.5-VL推出3B、7B和72B三个版本,全面超越GPT-4o与Claude3.5。模型支持超1小时的视频理解,无需微调即…… -
前追觅中国区执行总裁郭人杰创业,「乐享科技」宣布完成近2亿元天使轮融资
前追觅中国区执行总裁郭人杰创立的「乐享科技」宣布完成近 2 亿元人民币的天使轮融资,由 IDG 资本领投,Monolith、经纬创投、真格基金等跟投,投后估值约 6 ……

