Bubble's Brain - 2025-12-08

AI资讯 2025/12/8

AI 日报

AI内容摘要

谷歌Gemini 3现支持文本生成交互式3D粒子系统,其CEO预测通用人工智能或在2030年前实现。
谷歌为此发布Titans新架构,可处理超长上下文,在长时记忆和持续学习方面取得关键进展。
此外,阿里千问团队从新视角解释了LLM强化学习的不稳定性,并提出了新的训练稳定方法。

Today’s AI News

  1. Google Gemini 3 现已支持通过简单的文本提示词,无需编程即可生成实时交互的3D粒子系统,用户可通过摄像头的手势来控制粒子效果。文章详细对比了 Gemini 的两大工具:Gemini Canvas 提供了集成的实时渲染环境,适合快速生成可交互的最终成品,对非开发者友好;而 Google AI Studio 则定位为面向开发者的"核武库”,支持高达200万token超长上下文和系统级指令,更适合构建和调试应用程序。
  2. 谷歌DeepMind CEO戴密斯·哈萨比斯预测,AGI(通用人工智能)可能在2030年前实现,但这需要一到两个"Transformer级别”的重大突破。与此同时,谷歌在NeurIPS 2025大会上发布了名为Titans的全新AI架构,被视为Transformer的有力继任者。该架构融合了RNN的快速响应与Transformer的强大性能,并结合MIRAS理论框架,能有效处理超过200万token的超长上下文,在长时记忆持续学习方面取得关键进展。
  3. 微软GitHub开源了名为VibeVoice的前沿语音AI项目,目前已获得超过12,000星标
  4. ai-engineering-hub: 一个提供关于 LLMRAG 和真实世界 AI 智能体应用的深度教程的 GitHub 项目,目前已获得 21762 颗星
  5. claude-quickstarts: 一个由 Anthropic 发布的 GitHub 项目合集,旨在帮助开发者使用 Claude API 快速入门并构建可部署的应用,目前已获得 11142 颗星
  6. Qwen 团队揭示 LLM 强化学习不稳定性之谜: 阿里千问团队发表论文,从"一阶近似”的全新视角解释了大型语言模型(LLM)强化学习(RL)中的不稳定性问题。研究指出,主流的 token 级优化目标可以视为序列级奖励期望的一种一阶近似,而该近似的有效性取决于训练与推理的数值差异以及策略更新的幅度。这一理论统一并解释了重要性采样、**剪切(Clipping)等稳定训练技巧的有效性。针对混合专家(MoE)**模型的特殊挑战,团队提出了"路由重放”(Routing Replay)方法以固定专家路由,从而提高训练稳定性。在 30B MoE 模型上的大量实验证明,在 on-policy 训练中,带重要性采样校正的方法最稳定;而在 off-policy 训练中,必须同时使用 Clipping 和 Routing Replay 才能避免训练崩溃。研究还发现,只要训练过程稳定,不同冷启动方式的模型最终性能会趋于一致,表明未来研究应更关注 RL 方法本身而非冷启动细节。

留言讨论