AI 自动挑选 · 多信源聚合 · 实时热度

AI HOT

把每天数百信源里真正重要的 AI 信号，折射成一束清晰的光。

150 今日动态·21 信源在线·● 实时更新

全部 All 模型产品 Agent Skill 工具行业论文技巧开源

🔥当前热点多信源热度 · 随时间消退

11 信源

BEV感知技术引入具身智能，助力机器人数据规模化

1小时前

21 信源

PersonaDrive：检索增强VLA智能体实现人类风格闭环驾驶仿真

1小时前

31 信源

重新审视LLM心理测量：自我报告何时能预测行为

1小时前

41 信源

合适提示词可让LLM更准确捕捉人类判断分布

1小时前

51 信源

DPO用于聊天机器人微调的实证研究

1小时前

AI 日报6 月 12 日 · 今日三条最值得看查看完整日报 →

Prometheus融资120亿美元造通用工程师

贝索斯物理AI公司估值达410亿，瞄准重工与药物设计

田渊栋递归AI系统三项基准刷新纪录

方向与Anthropic警告的递归自改进一致，引安全关注

CVPR 2026：NeuroFlow实现视觉-神经双向转换

为脑机接口从单向解码迈向双向交互提供新范式

精选信息流 Featured feed

按时间排序 · 06 / 12

04:00arXiv cs.CL精选 72

SENTINEL：用失败驱动的强化学习训练工具调用语言模型智能体

SENTINEL: Failure-Driven Reinforcement Learning for Training Tool-Using Language Model Agents

该论文提出 SENTINEL 方法，针对工具调用型语言模型智能体的强化学习训练难题，通过失败驱动的任务分布调整策略来提升训练效率。核心思路是在训练过程中动态聚焦于智能体当前失败的任务，避免固定任务分布导致的学习瓶颈，使智能体在多轮工具交互场景中获得更稳健的泛化能力。

强化学习工具调用Agent课程学习训练策略

推荐理由 · why

关注Agent训练效率的研究者值得看，提供了RL训练中任务分布动态调整的新思路。

04:00arXiv cs.AI精选 72

从AGI到ASI：后AGI时代的人工智能发展路径研究

From AGI to ASI

该论文探讨在AGI实现之后，人工智能如何沿着机器智能连续体继续向ASI（超级智能）演进。过去十年，构建人类水平AGI已从遥远猜想变为多家头部AI机构的十年内目标，论文分析了后AGI世界中AI持续发展的路径、对人类社会的深远影响，以及这一进程中需要面对的复杂问题。

AGIASI超级智能AI安全

推荐理由 · why

关注AI长期发展路线图的研究者和安全对齐从业者值得一读，提供了AGI后演进的系统性分析框架。

04:00arXiv cs.AI精选 72

如何评估大模型「测谎器」？新研究构建可验证信念的模型有机体测试床

Did you lie? Evaluating Lie Detectors across Model Scale and Belief-Verified Model Organisms

该研究指出现有训练的模型有机体常无法满足「模型确实相信与其输出相反内容」这一前提，导致此前测谎检测的正负结果难以解读。作者构建了13个推理模型有机体作为可验证信念的测试床，用于跨模型规模系统评估谎言检测器的鲁棒性，为模型审计与行为监控提供更可靠的评估框架。

AI安全模型可解释性测谎检测对齐研究

推荐理由 · why

关注AI对齐与模型审计的研究者值得读，提供了评估模型欺骗行为检测方法的新基准。

04:00arXiv cs.AI精选 72

大模型能否察觉自己的回复被预填充篡改？

Prefill Awareness in Large Language Models

研究探讨前沿大语言模型是否能区分助手侧消息是自身生成还是被外部插入/编辑。这一能力对安全对齐评估、越狱测试及AI控制协议的有效性构成潜在威胁——若模型能识别预填充并据此改变行为，现有安全研究方法的可靠性将被削弱。论文系统考察了模型的「预填充感知」能力及其安全影响。

AI安全对齐研究预填充攻击越狱评估

推荐理由 · why

关注AI安全评估方法论的研究者必读，揭示预填充技术的隐性失效风险。

04:00arXiv cs.CL精选 75

无需隐藏提示词：仅修改论文表述即可操纵AI同行评审

No Hidden Prompts Needed! You Can Game AI Peer Review with Presentation-Only Revisions

该研究揭示AI同行评审系统的一种新型脆弱性：攻击者无需使用提示注入或隐藏指令，仅通过修改论文的表述层内容（如摘要措辞、段落组织等），不改动方法、实验、图表或数值结果，即可显著影响AI审稿评分。这一发现对当前将AI评审嵌入学术基础设施的趋势提出了严重的政策层面警示。

AI同行评审对抗攻击学术诚信鲁棒性

推荐理由 · why

揭示AI审稿的表层操纵漏洞，学术出版、AI安全及审稿工具开发者应关注。

04:00arXiv cs.AI精选 72

研究揭示主流Agent框架缺乏结构性安全保障

The Containment Gap: How Deployed Agentic AI Frameworks Fail Public-Facing Safety Requirements

该论文提出六项基于组合模型的「遏制原则」，系统评估当前用于构建自主Agent系统的主流框架在架构层面是否提供结构性安全保障。研究发现，这些框架在工具调用、持久记忆、多步规划等环节普遍缺乏安全约束，而此类系统已部署于政务、医疗分诊、金融咨询等公共领域，存在显著风险敞口。

Agent安全框架评估AI治理遏制原则

推荐理由 · why

Agent框架开发者和企业部署决策者应关注，论文提供可操作的安全评估维度。

04:00arXiv cs.CL精选 72

多轮对话中信息分散导致LLM准确率骤降65%，滚动记忆+强化学习方案大幅缓解

Multi-Turn Reasoning When Context Arrives in Pieces: Scalable Sharding and Memory-Augmented RL

研究发现当关键信息分散在多轮对话中时，LLM准确率最高下降65%，即使完整上下文可用也无济于事，作者将此称为「Lost in Conversation」退化。论文提出用紧凑滚动记忆替代不断增长的历史注意力机制，并设计低成本分片管线将单轮QA数据集转化为多轮训练数据，结合记忆增强强化学习进行可扩展训练，显著改善多轮推理表现。

多轮推理滚动记忆强化学习上下文退化

推荐理由 · why

揭示多轮对话中LLM的系统性缺陷并给出可训练方案，Agent和对话系统开发者应关注。

04:00arXiv cs.CL精选 72

结构注意力税：检索格式如何独立于内容劫持上下文学习

The Structural Attention Tax: How Retrieval Format Hijacks In-Context Learning Independent of Content

研究发现 RAG 系统中注入内容的格式（而非语义相关性）会独立扭曲 LLM 的注意力分配。作者提出「结构注意力税」概念：知识图谱三元组因其关系分隔符和重复槽模式，每个 token 获得的注意力是语义等价散文的 2-3 倍，导致模型偏向结构化片段而非真正相关内容，揭示了 RAG 检索格式对生成质量的隐性干扰机制。

RAG注意力机制知识图谱上下文学习

推荐理由 · why

做 RAG 系统的工程师必读，揭示格式选择对生成质量的隐性影响，可指导检索结果的呈现策略。

查看全部动态 →