AI资讯日报 2025/12/18

AI资讯 | 每日早读 | 全网数据聚合 | 前沿科学探索 | 行业自由发声 | 开源创新力量 | AI与人类未来 | 访问网页版↗️ | 进群交流🤙

今日摘要

腾讯混元世界模型1.5上线支持文字图片生成互动世界
字节Seedance实现100%视听同步已上线即梦豆包
OpenAI发布FrontierScience基准GPT-5.2奥赛77%
姚顺雨任腾讯首席AI科学家向刘炽平汇报
英伟达收购Slurm开发商SchedMD强化算力调度护城河

产品与功能更新

腾讯混元世界模型1.5上线。 国内首个🎮实时互动体验平台开放体验(AI资讯) 了！输入文字或图片就能瞬间生成互动世界，用键鼠或手柄(✧∀✧)自由探索。该模型还首次开源训练体系，从数据到推理部署全覆盖。
Kling 2.6语音控制功能正式发布。 快影AI📢上线了Voice Control，用你的专属声音创作更具魅力的个性化内容(AI资讯) 。官方同步开启创意大赛🏆现金最高1000美金，提交作品就有机会登上首页推荐。
字节Seedance 1.5 Pro发布。 新一代音视频模型实现🎬100%视听同步，角色口型、语调与表演节奏高度拟合。支持多语种方言自然表达，还能执行希区柯克变焦等高难度镜头运动(AI资讯) 。已在即梦AI和豆包平台上线。
Meta推出SAM Audio模型。 继图像分割后，Meta将"🔊分割一切"理念延伸到音频领域。支持文本、视觉和时间跨度三种提示方式，能像抠图(AI资讯) 一样精准分离声音。已在Segment Anything Playground开放试用。
小米MiMo大模型对开发者开放。 小米宣布开放🤖MiMo系列大模型和CarIoT硬件生态。AIoT平台连接设备突破10.4亿，开发者规模达 120万(AI资讯) 。MiMo-V2-Flash已开源，在Agent测评跻身全球开源模型TOP2。
Meta推出AI听力增强眼镜。 新款眼镜采用开放式扬声器设计，可以放大👓与你交谈的人的声音。特别适合咖啡馆或繁忙街道等嘈杂环境(AI资讯) 使用，让日常交流更轻松。

前沿研究

OpenAI发布FrontierScience基准。 专为评估专家级科学能力构建，包含物理、化学、生物学数百道原创题目。GPT-5.2在奥赛赛道得分77%，研究赛道🔬25%，均领先其他前沿模型。Gemini 3 Pro在奥赛赛道与GPT-5.2 表现相当(AI资讯) 。
FreeKV框架提升LLM推理效率。 针对长上下文KV缓存问题，该框架实现算法-系统协同优化。通过投机检索和双缓冲流式召回，达到🚀近无损精度，相比SOTA方法最高提速13倍(AI资讯) 。
Titans让AI有了真正的记忆力。 谷歌Jeff Dean点赞的论文，解决了(✧∀✧)AI的"金鱼记忆"问题。短期记忆+长期记忆+持久记忆三种机制各司其职，在200万token超长文本理解任务中准确率96%+，吊打 Mamba2的5.4%(AI资讯) 。

行业展望与社会影响

姚顺雨出任腾讯首席AI科学家。 官宣！腾讯升级大模型研发架构，95后明星学者姚顺雨任职"CEO/总裁办公室"首席AI科学家，向刘炽平汇报。同时兼任AI Infra部、大语言模型部负责人，将📈全面强化腾讯大模型研发体系(AI资讯) 。
英伟达收购Slurm开发商SchedMD。 这波低调出手被评价为"护城河又宽了"💪SchedMD开发的Slurm是全球超半数TOP500超算在用的资源调度工具，Meta、Mistral、Thinking Machines都离不开。哪怕用AMD芯片，只要需要算力调度就绕不开英伟达(AI资讯) 。
AI上下文管理引发隐私争议。 把全部人生笔记上传给第三方服务器，你放心吗？社区讨论显示，虽然🔥把Obsidian笔记喂给Claude能获得个性化建议，但多数人倾向寻求本地LLM等可控方案(AI资讯) 。另有人警告依赖AI摘要会侵蚀真正的知识掌握。
GitHub Actions开始收取平台费。 自2026年起，私有仓库和自托管runner的调度将按$0.002/分钟计费💸即使算力在用户自己服务器上也要交"税"。小型团队相对受伤更重，社区已开始评估迁往GitLab或 Forgejo等替代方案(AI资讯) 。
AI能否让形式验证成为主流？ 讨论焦点在于：规范本身难以形式化，需求又频繁变动。乐观者指出Opus、GPT-5.2等🤖大模型显著加速了证明工程，悲观者则认为文化与经济障碍才是普及的真正阻碍(AI资讯) 。

开源TOP项目

摩尔线程开源LiteGS基础库。 在SIGGRAPH Asia 2025斩获银奖🥈的3DGS重建算法已开源！60秒任务34秒交卷，仅需原版10%训练时间即可达到同等质量。从GPU系统到算法设计全链路优化，代码在 GitHub开放(AI资讯) 。⭐已引发学术界关注。
英伟达发布Nemotron 3开源模型。 MoE架构支持百万token上下文，包含Nano(30B)、Super(100B)、Ultra(500B)三个规模。Nano版已发布，吞吐量比前代🚀提升4倍，被评为同类型中最开放高效的模型(AI资讯) 。
小米MiMo-V2-Flash开源发布。 309B总参数，15B激活，专为极致推理效率自研的MoE大语言模型。代码和Agent能力强💡生成速度快，API限时免费可接入Claude Code、 Cursor等工具(AI资讯) 。⭐开发者反响热烈。
Chatterbox开源TTS系统。 号称最先进的开源文本转语音系统，已获得⭐15614星标，项目地址 resemble-ai/chatterbox(AI资讯) 。
微软开源TRELLIS.2图生3D模型。 4B参数规模，支持图片生成3D模型。在线体验地址已开放，社区反馈效果褒贬不一(￣▽￣)“有人觉得还不如之前版本，模型在 Hugging Face发布(AI资讯) 。
美团开源LongCat虚拟人模型。 类似字节OmniHuman和快手Avatar，支持音频驱动照片生成视频🎤特别适用于主播和MV场景，项目主页和模型已在 Hugging Face发布(AI资讯) 。

社媒分享

Prompt Caching技术深度解读。 缓存的不是文本是"思维状态”🧠本质是复用KV矩阵，节省约90%Token费用，长文本首字延迟降低85%。实测显示Anthropic手动模式命中率100%(AI资讯) ，OpenAI自动模式仅50%。
Gemini 3 Flash已开放使用。 相比Pro版本速度提升显著，前端效果基本没变(✧∀✧)美学依旧领先其他模型。ZenMux首发目前免费，使用地址点这里(AI资讯) 。
Vibe Coding时代的护城河思考。 技术不再是核心竞争力了🤔拿一波流量很容易，但建立护城河需要多花时间思考。有人看到缺陷，有人看到机会(AI资讯) ，这些机会不是给挑刺的人准备的。
GPT Image 1.5图像能力测试。 只是单纯的绘画模型，而不是Banana Pro那样的🌍世界模型。社区评价"谷歌这次领先了一代"，天气卡片生成效果可参考宝玉的测试(AI资讯) 。
AI硬件创意Stickerbox走红。 语音输入→AI自动绘图→即时打印贴纸🖨️帮孩子把脑海里的故事变成现实！儿童安全模式无屏幕交互，这个逻辑马上会迁移到 3D打印领域(AI资讯) 。

AI资讯日报语音版

🎙️ 小宇宙	📹 抖音
来生小酒馆	自媒体账号

12-19 AI资讯 12-17 AI资讯