AI资讯
-
ElevenLabs推出Flash语音对话模型:仅75毫秒延迟,支持32种语言
ElevenLabs推出最新的人声合成模型 Flash ,宣称是目前最快的文本转语音解决方案,延迟仅为75毫秒,非常适合低延迟的对话式语音助手。Flash模型有两个版本,Fl…… -
IBM 发布新语言模型 Granite 3.1,性能、上下文能力增强
IBM发布大语言模型新版本 Granite 3.1 ,相较于3.0版本,Granite 3.1采用了更密集的架构,能处理多达128,000个令牌,显著提升了处理复杂文本的能力。版本包含8…… -
PixVerse V3.5 正式上线,模型全面升级,10秒极速生成
爱诗科技宣布 PixVerse V3.5 版本正式上线,新版本在Turbo模式下10秒内即可生成高质量视频,保持行业领先的语义理解和细节表现力。动漫生成效果显著提升,支持…… -
全面对决Suno,国产AI音乐三巨头的突围之战
国内AI音乐领域三巨头——字节跳动的海绵音乐、昆仑万维的天工 SkyMusic 和趣丸科技的天谱乐,正与全球顶级产品Suno展开激烈竞争。通过提供个性化音乐生成、多模…… -
通义实验室开源 ClearerVoice-Studio,高效去除背景噪声
阿里通义实验室语音团队开源 ClearerVoice-Studio 技术框架,集成语音增强、分离和音视频说话人提取功能。通过复数域深度学习算法,有效消除背景噪声,保留语…… -
文小言电脑版正式发布,支持Windows和Mac免费下载,双端协同
文小言电脑版 正式发布,支持Windows和macOS系统免费下载,实现与APP的双端协同和消息互通。可以一键拖拽解析多种格式文件,针对原文提问,获得有据可依的回答…… -
快手开源全球首个”多视角视频生成”工具,解锁无限视角!
快手开源全球首个”多视角视频生成”工具 SynCamMaster ,能从任意视点生成开放世界视频,解决了多视点间动态一致性问题。SynCamMaster通过即插即用模块增强预训…… -
OpenAI o1 推理模型 API 满血开放,成本暴降60%,定制升级
OpenAI在第9天直播中发布 o1 模型API全面开放,成本降低60%,具有更高可定制性,新增函数调用、开发者消息和图像分析等功能。GPT-4o音频成本降低60%,mini版本…… -
AI编程助手 Cursor 再获融资1亿美元,估值飙升至26亿美元
AI编程助手 Cursor 背后的公司Anysphere完成1亿美元B轮融资,估值达26亿美元。公司收入从4月的年化经常性收入400万美元增长至10月的每月400万美元。Cursor 0.4…… -
Qwen开源视觉推理模型QVQ,像物理学家一样更睿智地看世界!
Qwen团队发布开源多模态推理模型 QVQ ,基于Qwen2-VL-72B构建,提升AI的视觉理解和复杂问题解决能力。QVQ在MMMU评测中得分70.3,显著优于Qwen2-VL-72B-Instruc……

