AI Daily-AI资讯日报
AI资讯日报 2026/2/4
AI资讯|每日早读|全网数据聚合|前沿科学探索|行业自由发声|开源创新力量|AI与人类未来| 访问网页版↗️ | 进群交流🤙
今日摘要
OpenAI发布Codex桌面端支持多Agent独立线程运行
智谱GLM-5与MiniMax M2.2春节前发布主打编程推理
腾讯CL-bench揭示模型上下文学习仅解决17%任务
马斯克合并SpaceX与xAI估值1.25万亿推太空算力
Vibe Coding一周年理念是完全拥抱LLM忘记代码产品与功能更新
OpenAI发布Codex桌面应用。 这是一个🚀专为多智能体设计的 指挥中心(AI资讯) 。支持同时运行多任务(✧∀✧),不只是问答式代码片段生成。每个Agent运行在独立线程中,按项目组织管理。通过Git Worktree让多智能体🔧在隔离副本工作,还能定义自定义Skills同步全端使用。

智谱GLM-5与MiniMax M2.2春节前发布。 智谱AI的 GLM-5模型(AI资讯) 预计2月15日前亮相,主打创意写作🔥、编程和推理突破。MiniMax的M2.2版本着重增强编程能力,被称为程序员的"秘密武器"💡。DeepSeek仅小幅更新V3系列,万亿参数旗舰还需等待。字节和阿里也将推新模型(ノ◕ヮ◕)ノ*:・゚✧!
前沿研究
腾讯混元发布CL-bench评估基准。 这是姚顺雨加入腾讯后首篇🔬署名 论文(AI资讯) 。该基准专测模型能否从上下文学习新知识并正确应用。结果显示💡模型平均仅解决17.2%任务,最好的GPT-5.1也才23.7%。这揭示了一个真相(つд⊂):模型还不会真正利用上下文。
ProjDevBench评测AI端到端项目开发。 现有评测多聚焦bug修复,这个 新基准(AI资讯) 专门评估从需求到完整仓库的能力🚀。包含20道跨8类的编程题目,结合OJ测试与LLM代码审查。六个编码Agent整体通过率仅27.38%,复杂系统设计是大短板(눈_눈)。
强化学习训练LLM解释人类决策。 认知建模的 新方向(AI资讯) 来了💡!研究者用基于结果的强化学习引导LLM生成显式推理链。目标是同时实现预测准确🎯和解释可读。这让AI不只是黑箱预测,还能说清楚为啥。
RLVR训练不稳定机制被揭示。 可验证奖励的 强化学习(AI资讯) 能持续提升推理能力,但MoE架构常崩。研究者提出🔍目标层面hacking框架解释这事儿。核心发现是token级信用错配会产生虚假信号,导致训练推理差异异常增长(°ロ°)!
行业展望与社会影响
马斯克宣布SpaceX合并xAI。 靴子落地🚀!合并后估值达1.25万亿美元。马斯克在 内部信(AI资讯) 中表示将推进太空部署数据中心计划💡。他预言基于太空的AI是规模化唯一途径,计划发射百万颗卫星构建轨道数据中心,迈向卡尔达肖夫二级文明(✧∀✧)!
SpaceX申请发射百万颗计算卫星。 这计划核心是构建 轨道数据中心(AI资讯) ,不是搞通讯🛰️!星座预想总算力达80EFLOPS。利用太空低温真空解决散热难题,预计2028启动、2030完成。传统IDC厂商可能面临💥降维打击。
腾讯混元再引顶级科学家加盟。 清华博士庞天宇正式加入🎯,担任混元多模态部 首席研究科学家(AI资讯) 。他将重点负责强化学习技术研究,此前任职新加坡Sea AI Lab。这是继姚顺雨后又一重磅引援(ノ◕ヮ◕)ノ*:・゚✧!
开源TOP项目
superpowers:Agent技能框架。 一个有效的代理技能框架和💡软件开发方法论,已获⭐43217星。项目地址在 GitHub(AI资讯) 。帮助开发者构建🚀更强大的AI代理系统。
dexter:深度金融研究Agent。 用于深度金融研究的自主代理🔥,已获⭐9951星。可在 GitHub(AI资讯) 查看详情。专门针对金融领域💰打造的智能分析工具。
ccpm:Claude Code项目管理系统。 使用GitHub Issues和Git worktrees实现🔧并行代理执行,已获⭐6563星。项目地址在 GitHub(AI资讯) 。让多Agent协作更高效(✧∀✧)!
vm0:自然语言工作流自动化。 自动运行自然语言描述工作流的🚀最简单方式,已获⭐585星。 项目(AI资讯) 让你用自然语言定义工作流💡。
review-prompts:AI审查提示词。 专门用于AI代码审查的🔍提示词集合,已获⭐235星。 GitHub(AI资讯) 上可获取完整内容。
社媒分享
Vibe Coding概念诞生一周年。 Andrej Karpathy去年提出的 Vibe Coding(AI资讯) 概念已满一周年🎉!核心理念是完全拥抱LLM,忘记代码存在💡。他说现在的模型太强了(✧∀✧),他甚至只用语音和Composer对话。
Codex App体验:沉默的工程师。 有用户 评价(AI资讯) 说Codex像沉默寡言的工程师🔧,只会埋头干活不会邀功。没有第三方App那些漂亮仪表盘💅。和Claude Code的情绪价值差太远了(´;ω;`)!
呼吁统一Skills目录路径。 OpenAI开发者呼吁所有Agent🚀统一使用 .agents/skills(AI资讯) 文件夹存放技能文件。替代各自独立的路径💡,不然又变成一堆重复目录(눈_눈)。
Brex公司AI能力四级分类。 有人分享 Brex公司(AI资讯) 把员工AI能力分成四级🎯:User会问问题、Advocate推广工具、Builder能做东西、Native融入日常💡。可以对照看看自己在哪级(✧∀✧)!
AI时代学编程策略讨论。 Hacker News上关于 AI时代学编程(AI资讯) 的热议🔥!核心观点:夯实算法架构基础、把LLM当导师而非权威、刻意挣扎才能学会💡。有人担忧编码会商品化(つд⊂)。
AI资讯日报语音版
| 🎙️ 小宇宙 | 📹 抖音 |
|---|---|
| 来生小酒馆 | 自媒体账号 |
![]() | ![]() |

