AIHOT

5月1日

08:00

HuggingFace Daily Papers（社区热门论文）

针对现有树状检索增强生成方法在应对跨文档多跳查询时面临的分布适应性差、结构隔离和抽象粒度粗糙三大挑战，研究者提出了Ψ-RAG框架。该框架包含两个核心组件：一是通过“合并与坍缩”迭代过程构建、无需先验分布假设的分层抽象树索引；二是配备重组查询和智能体驱动混合检索器的多粒度检索代理。Ψ-RAG支持从词元级问答到文档级摘要的多样化任务，在跨文档多跳问答基准测试中，其平均F1分数显著优于现有先进方法。相关代码已开源。

arXiv检索增强搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Code World Model 准备情况报告

Meta 发布了用于代码生成与推理的 Code World Model，并对其进行了前沿风险准备情况评估。报告显示，该模型在预设的可能带来灾难性风险的领域测试中，未表现出超越当前 AI 生态系统的额外前沿风险。基于评估结果，Meta 决定以开放权重模型的形式公开发布 CWM。

Meta安全/对齐开源/仓库模型发布

08:00

HuggingFace Daily Papers（社区热门论文）

Odysseus：通过强化学习将视觉语言模型扩展至游戏中的百轮以上决策

研究团队提出Odysseus框架，利用强化学习训练视觉语言模型在《超级马里奥大陆》中执行超过100轮的长序列决策。该方法采用改进的PPO算法与轻量级轮次评论家，显著提升了训练稳定性和样本效率。相比从零开始的深度强化学习，预训练视觉语言模型提供了强动作先验，减少了对人工动作工程的需求。实验表明，Odysseus在游戏进度上达到前沿模型的至少3倍，并在游戏内与跨游戏泛化中保持性能提升，同时未损害模型的通用领域能力。该研究为在多模态长序列任务中稳定应用强化学习提供了关键要素与实践指导。

智能体具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Stable-GFlowNet：通过对比轨迹平衡实现多样且鲁棒的LLM红队测试

针对大型语言模型红队测试中生成对抗性攻击时面临的训练不稳定与模式崩溃问题，研究团队提出Stable-GFN方法。该方法摒弃了传统生成流网络中的分区函数估计，转而采用基于成对比较的稳定训练目标，并引入鲁棒掩码机制以应对奖励噪声。此外，通过流畅度稳定器防止模型陷入生成无意义文本的局部最优。实验表明，该方法在保持生成流网络最优策略的同时，实现了更稳定的训练过程，其生成的对抗攻击在效果与多样性方面均表现优异。

arXiv安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

从树到流再回归：统一决策树与扩散模型

研究建立了层次决策树与扩散过程在极限状态下的数学对应关系，提出统一的优化原则——全局轨迹分数匹配（GTSM），并证明理想化梯度提升是其渐进最优解。基于该框架，treeflow 在表格数据生成任务中实现了更高保真度与 2 倍计算加速，生成质量达到竞争水平；dsmtree 作为一种新型蒸馏方法，能将层次决策逻辑迁移至神经网络，在多项基准测试中与教师模型性能差距不超过 2%。

数据/训练论文/研究

08:00

Apple Machine Learning Research（RSS）

精选67

强化智能体：面向工具调用智能体的推理时反馈机制

本文提出一种将评估机制嵌入工具调用智能体实时执行循环的新方法。通过引入一个专门的评审员智能体，在推理时对主智能体的中间决策轨迹进行即时评估，并生成结构化反馈。这使得主智能体能在单次运行中动态调整其工具选择与参数调用，无需依赖传统的提示调整或模型重训练。该实时干预机制旨在直接纠正错误，提升了工具使用的准确性与可靠性，突破了传统后验评估无法在运行中修正行为的局限。本工作已被ACL 2026的自然语言生成、评估与指标研讨会接收。

智能体MCP/工具论文/研究

推荐理由：Apple 把评估嵌进 agent 执行循环，不是事后分锅，而是让 reviewer 实时纠错，这对 tool-calling 类应用是个真方向，做 agent 架构的值得细读。

08:00

HuggingFace Daily Papers（社区热门论文）

Online Self-Calibration Against Hallucination in Vision-Language Models

针对大型视觉语言模型普遍存在的幻觉问题，研究提出在线自校准框架OSCAR。该方法利用模型自身判别能力高于生成能力的特点，通过蒙特卡洛树搜索和双粒度奖励机制构建偏好数据，并采用直接偏好优化进行迭代训练。实验表明，OSCAR在多个幻觉基准测试中取得最优性能，同时提升了模型的通用多模态能力，避免了传统离线对齐方法中存在的监督-感知失配问题。

多模态安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LASE：用于印度语系跨文字身份保护的语言对抗性说话人编码

研究提出LASE（语言对抗性说话人编码器），以解决多语言语音克隆中因发音文字不同导致的说话人身份漂移问题。现有编码器如WavLM和ECAPA-TDNN在跨文字切换时性能下降。LASE在冻结的WavLM-base-plus模型上增加小型投影头，结合监督对比损失和梯度反转的跨语言分类对抗损失进行训练，使编码消除语言信息的同时保留说话人特征。实验表明，在1118个跨文字语音对上，LASE将身份漂移降至接近零，并扩大与基线的差距2.4-2.7倍。在合成多说话人日记任务中，LASE仅用约百分之一训练数据即达到与ECAPA-TDNN相当的说话人召回率。研究同时发布了模型检查点、语料库和评估代码。

Hugging Face开源生态论文/研究语音

08:00

HuggingFace Daily Papers（社区热门论文）

学习行动与协作：用于分布式黑盒共识优化的轨迹驱动框架

本文针对分布式黑盒共识优化问题，提出轨迹驱动的自设计框架LACMAS。该方法首先设计了具有自适应内部机制的智能体群体动力学，以平衡探索、收敛与局部逃逸。在此基础上，利用大型语言模型根据历史优化轨迹，为智能体的内部行动与外部协作模式提供稀疏的高层指导，并采用分阶段认知调度策略进行资源感知的适应。实验表明，该框架在基准测试和实际任务中，能持续提升解决方案质量、收敛效率与通信效率，为从人工设计转向自设计多智能体优化系统提供了可行路径。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

部署中学习：面向通用机器人策略的集群规模强化学习框架

研究团队提出了“部署中学习”（LWD）框架，用于对通用视觉-语言-动作（VLA）策略进行持续的集群规模离线到在线强化学习。该系统从预训练策略出发，利用机器人集群自主运行和人工干预数据，形成部署、经验共享、策略改进与再部署的闭环。为稳定处理异构稀疏奖励数据，LWD结合了用于鲁棒价值估计的分布隐式价值学习（DIVL）和用于基于流的动作生成器中策略提取的伴随匹配Q学习（QAM）。在16台双臂机器人集群的八项真实操作任务（包括语义商品补货与长时程任务）验证中，单一通用策略随经验积累平均成功率提升至95%，长时程任务改进尤为显著。

智能体arXiv具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

让ViT说话：生成式语言-图像预训练

本文提出生成式语言-图像预训练框架GenLIP，为多模态大语言模型设计了一种极简的视觉Transformer预训练方法。该框架直接使用语言建模目标训练ViT，使其根据视觉token预测语言token，无需构建对比批次或额外文本解码器。其优势在于结构简单、数据和模型规模可扩展性强，并在多项多模态基准测试中取得有竞争力或更优的结果。基于Recap-DataComp-1B中80亿样本训练后，GenLIP在使用更少预训练数据的情况下达到或超越了强基线模型。进一步在多分辨率图像上持续预训练后，模型在OCR和图表理解等细节敏感任务上表现进一步提升。

arXiv多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于一维语义分词器的端到端自回归图像生成

研究团队提出一种端到端训练框架，联合优化图像重建与生成过程，使分词器能直接受到生成结果的监督。该方法突破了以往分词器与生成模型分两阶段训练的范式，并探索利用视觉基础模型提升一维分词器在自回归建模中的性能。最终模型在无引导的 ImageNet 256×256 图像生成任务中，取得了当前最优的 FID 分数 1.48。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Map2World：基于分割地图的文本到3D世界生成

本文提出Map2World，一个创新的3D世界生成框架。它允许用户根据任意形状与尺度的自定义分割地图来生成3D世界，确保了全局尺度一致性与大范围环境的布局灵活性。该方法通过一个细节增强器网络来生成精细场景细节，在融入全局结构信息的同时保持整体场景连贯性。整个流程利用资产生成器的强先验知识，即使在场景生成训练数据有限的情况下，也能实现跨领域的稳健泛化。实验表明，本方法在用户可控性、尺度一致性和内容连贯性上显著优于现有方法。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

UniVidX：基于扩散先验的统一多模态视频生成框架

UniVidX是一个利用视频扩散模型先验的统一多模态视频生成框架。它将像素对齐任务统一为共享多模态空间中的条件生成，核心设计包括：随机条件掩码，实现全向条件生成；解耦门控LoRA，为各模态引入独立适配器以保留骨干网络先验；跨模态自注意力，通过共享键值促进模态间信息交换。该框架在两个领域实例化：UniVid-Intrinsic用于RGB视频及其内在属性图；UniVid-Alpha用于混合RGB视频及其RGBA分层。实验表明，即使在少于1000个视频的小数据集上训练，模型也能在多种任务上达到先进性能，并能稳健地泛化到真实场景。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Themis：训练稳健的多语言代码奖励模型以实现灵活的多标准评分

针对代码奖励模型研究不足且现有模型多局限于功能正确性评分的问题，研究团队构建了Themis-CodeRewardBench基准，用于在5个偏好维度和8种编程语言上评估模型，并分析了50多个现有模型。为改进模型，团队创建了迄今最大的开源代码偏好数据集Themis-CodePreference（含超35万个偏好对），并据此训练了参数规模从6亿到320亿不等的Themis-RM系列多语言代码奖励模型，支持灵活的多标准评分。实验表明，模型具有正向缩放趋势，在多样化偏好训练下展现出强大的跨语言迁移能力，验证了多标准训练对可靠代码奖励建模的重要性。

Hugging Face数据/训练论文/研究

07:46

dax@thdxr

man opencode的撤销功能真是救了我大忙，我几乎每次会话都会用到它，当我不可避免地给出一个糟糕的提示时

大佬观点编码

07:45

OpenRouter@OpenRouter

精选68

@xai 的新模型 Grok-4.3 现已在 OpenRouter 上线！ Grok-4.3 以比 Grok-4.2 更低的价格发布，同时在代理性能上实现大幅跃升：在 @ArtificialAnlys 的 GDPval-AA 基准上 ELO 分数提升 321 点至 1500，尽管价格更低，但仍超越了其他顶级模型。

智能体xAI模型发布评测/基准

关联讨论 1 条

推荐理由：Grok-4.3 降价但性能反升，agentic 跑分直接到 1500，如果之前觉得 Grok 贵而没试过，这次可以上车了。

07:16

Mistral AI@MistralAI

Mistral AI 入选 TIME100 2026 年 AI 领域前十最具影响力公司

Mistral AI 被列入 TIME100 2026 年最具影响力公司名单，并在人工智能类别中排名前十。公司强调其客户能够根据自己的条件在自有基础设施上运行前沿模型，这体现了自主性和数据控制优势。Mistral AI 感谢客户的信任和全球团队成员的贡献，同时祝贺所有今年被认可的企业。

开源生态行业动态

07:16

OpenClaw🦞@openclaw

OpenClaw 2026.4.29 🦞 💬 群聊体验现在感觉好多了 📌 基于上下文的后续承诺 🔐 更安全的执行、配对和所有者控制 🟩 NVIDIA 提供商 + 模型目录 ⚡ 更快的启动速度 + 插件/频道修复群聊终于感觉是原生为智能体设计的了。 https：//github.com/openclaw/openclaw/releases/tag/v2026.4.29

智能体产品更新部署/工程

07:15

Peter Steinberger 🦞@steipete

OpenClaw宣布其群聊功能已大幅改进，建议用户体验新版对话机制。若此前使用GPT效果不佳，推荐切换至codex harness插件。同时启用两项改进可显著提升性能。此次更新使群聊体验更原生，具体改进包括优化对话感受、增强上下文跟进承诺、提升安全执行与管控、新增NVIDIA供应商及模型目录，并加速启动与修复插件/通道问题。

智能体GitHub开源/仓库教程/实践

07:15

Luma@LumaLabsAI

物体是对的。比例不对。上传你的参考图。设定尺寸。Luma Agents 会处理后续的缩放调整。立即调整 → http：//lumalabs.ai/app

产品更新多模态

关联讨论 1 条

07:15

SemiAnalysis@SemiAnalysis_

平壤，2026年4月29日：人工智能基础设施有一个角落几乎无人深入报道，但每个人都想了解。他们正与超大规模云服务商/AI实验室达成数十亿美元的交易，并在计算领域迅速抢占市场份额。（1/4） 🧵

现象/趋势部署/工程

07:14

Artificial Analysis@ArtificialAnlys

Suno发布V5.5音乐生成模型，登顶双榜并推出个性化新功能

Suno公司最新发布的音乐生成模型V5.5，在Artificial Analysis的器乐和人声排行榜上均位列第一，性能较前代V5模型有显著提升。本次更新重点聚焦个性化与身份特征，推出了三项新功能：用户可通过上传人声样本生成定制演唱音色；可个性化定制最多三个反映自身风格的模型版本；系统还能学习用户偏好的音乐流派、情绪和风格，以提供个性化推荐。该模型已通过Suno平台向Pro和Premier订阅用户开放，年费订阅起价为每月8美元（约含500首歌曲生成额度），且包含商业使用权。

模型发布语音

07:14

Artificial Analysis@ArtificialAnlys

xAI发布Grok 4.3模型：智能指数提升且成本大幅降低

xAI推出Grok 4.3模型，其在Artificial Analysis智能指数得分达53，超越Muse Spark等模型，较前代提升4分。模型在显著降低成本的同时保持智能水平，输入与输出价格分别降低约40%和60%。在真实世界智能体任务上表现突出，GDPval-AA基准得分大幅提升至1500 ELO，超越Gemini 3.1 Pro Preview等多款模型，但仍落后于GPT-5.5 (xhigh)。其在指令遵循和客服任务上表现强劲，但AA-Omniscience非幻觉率略有下降。

智能体xAI推理模型发布

关联讨论 2 条

07:13

Simon Willison 博客

我们对 OpenAI GPT-5.5 网络能力的评估

英国人工智能安全研究所发布了对 OpenAI GPT-5.5 网络安全能力的评估结果。该模型在发现安全漏洞方面的能力与 Claude Mythos 相当，但不同于仍处于预览阶段的 Mythos，GPT-5.5 目前已可公开使用。此次评估是继该研究所先前对 Claude Mythos 进行评估后的又一重要测评。

AnthropicOpenAI安全/对齐

关联讨论 2 条

07:10

IT之家（RSS）

苹果 CEO 库克：Mac Studio 和 Mac Mini 将在未来数月内供不应求

苹果CEO蒂姆·库克在财报电话会议上表示，Mac mini和Mac Studio将在未来数月内持续供不应求，预计需几个月才能达到供需平衡。苹果低估了两款产品的需求，因其作为AI和智能体工具的优秀平台，客户认知速度快于预期。目前部分型号发货延迟已达数月，苹果已停售512GB RAM版Mac Studio，并停止接受某些大内存型号订单，基础款Mac mini在美国官网已显示缺货。

端侧行业动态

07:10

Berryxia.AI@berryxia

Stripe 重磅推出 Link CLI！

Stripe 发布 Link CLI 工具，旨在为 AI Agent 提供安全的支付解决方案。该工具允许 Agent 通过命令行生成一次性支付凭证，每次消费时用户会收到实时推送，并需通过 FaceID 等方式进行同步人工批准，从而确保每笔交易都经过用户确认，有效解决了 Agent 自主支付的信任问题。Claude 已成功使用该工具在 Gumroad 上自主购买礼物，完成了支付闭环。Link CLI 为 Agent 时代的应用提供了关键的支付基础设施，开发者可便捷集成，让 Agent 在受控前提下安全执行交易任务。

智能体GitHub产品更新

关联讨论 1 条

07:10

Berryxia.AI@berryxia

David Sacks 回应 AI 安全机构公告，解读 GPT-5.5-cyber 的网络攻击模拟能力

AI 安全机构宣布 OpenAI 的 GPT-5.5-cyber 成功完成多步网络攻击模拟，成为继 Anthropic 的 Mythos 后第二个端到端完成攻击链的模型。David Sacks 回应指出，此类模型并非魔法或末日武器，仅是能自动化网络安全任务的工具，且所有前沿模型（包括中国模型）预计将在约6个月内达到同等水平。他强调模型不创造漏洞，而是发现并帮助修补已有漏洞，从而增强系统安全。从“前AI”到“后AI”网络安全将经历重大升级，最终达到AI驱动攻防的新平衡。关键在于确保防御方优先获得模型访问权，且需加速此进程。GPT-5.5-cyber 因无token限制，可能成为首个防御方可实际使用的模型。

AnthropicOpenAI大佬观点安全/对齐

07:10

Berryxia.AI@berryxia

这一波GPT-Image-2出圈的原因感觉更多的是将其结合游戏真实的UI设计融合且效果出奇好。省token简单的prompt就可以完成，开发3D游戏也可以快速打好草稿。

OpenAI图像生成大佬观点

06:45

Peter Steinberger 🦞@steipete

过去几个月我对安全生态系统有了很多了解。很荣幸能与 @nvidia @OpenAI @Microsoft @GitHub @TencentHunyuan @convex @Atlassian @useblacksmith 合作保障 Claw 的安全。我们撰写了关于安全通告泛滥、实际修复方案、ClawHub、混沌代理以及那些公开协助强化 OpenClaw 的公司的内容。🦞 https：//openclaw.ai/blog/openclaw-security-in-public/

安全/对齐行业动态

06:45

Orange AI@oran_ge

人类又开始大型幻觉了 V4 写作都比 Opus 好了大家开心就好哈节日快乐

大佬观点

06:16

Midjourney@midjourney

精选60

两个快速公告--我们推送了一项更新，提升了V8.1的图像质量和清晰度，特别是在SREFs、情绪板和HD图像方面，但整体效果您也应该能注意到！其次，V8.1现已在我们主网站和Discord上可用。尽情享受吧！

产品更新图像生成

推荐理由：V8.1更新提升图像锐度，常规打磨却恰好卡在SREF和moodboards的痛点上，对用Midjourney做视觉稿的算个小福音。

06:16

OpenClaw🦞@openclaw

事实证明，最安全的龙虾是每个人都能检查的那一只。我们撰文探讨了咨询洪流、真正的修复方案、ClawHub、混沌代理，以及那些公开帮助强化OpenClaw的公司。🦞 https：//openclaw.ai/blog/openclaw-security-in-public/

安全/对齐开源生态

06:15

Tibo@thsottiaux

你现在可以让Codex持续运行数天。使用GPT-5.5，它可以根据你的要求构建完整的操作系统内核，或在代码库中发现关键错误，或优化你的数据库架构，或者……可能性无穷无尽。【引用 @fcoury】：/goal功能也随Codex CLI 0.128.0版本上线。我们对Ralph循环的实现：让目标在多轮对话中保持活跃。不达目标绝不停止。由我的同事兼OpenAI导师Eric Traut（即Pyright的开发者）构建。这是我日常合作的最强者之一。

智能体OpenAI产品更新

关联讨论 2 条

06:15

Nathan Lambert@natolambert

蒸馏在很大程度上是行业标准，并非仅是中国实验室针对 OpenAI/Anthropic 的做法。许多美国公司也会蒸馏中国的（开源）模型。

DeepSeek大佬观点开源生态

06:15

Microsoft Research@MSFTResearch

精选71

安全的智能体并不能保证由相互连接的智能体组成的生态系统是安全的。微软研究院研究了当AI智能体交互时会出现什么问题，以及为什么网络层面的风险需要新的方法。了解更多：https：//www.microsoft.com/en-us/research/blog/red-teaming-a-network-of-agents-understanding-what-breaks-when-ai-agents-interact-at-scale/

智能体Microsoft安全/对齐论文/研究

推荐理由：大多数 Agent 安全研究还在测单个模型，微软这篇把场景放大到多个 Agent 交互的网络，发现了只靠单体安全挡不住的生态风险，做多 Agent 系统的人最好读一下。

06:15

Greg Brockman@gdb

Codex 应用正变得不可思议

OpenAI大佬观点编码

06:12

Marc Andreessen 🇺🇸@pmarca

有效。【引用 @Birdyword】：许多人似乎不希望数据中心建在自家附近，尽管它们不会造成太多交通拥堵，且常为地方带来大量税收。我猜部分原因是因为它们太丑了！我的建议：

大佬观点现象/趋势

06:12

Simon Willison 博客

Zig 语言创始人 Andrew Kelley 谈如何识别 AI 生成的代码

Zig 语言创始人 Andrew Kelley 反驳了“无法识别谁在使用 LLM”的常见误解。他指出，尽管可能未捕获所有由 AI 辅助的拉取请求，但人类错误与 LLM 的幻觉存在本质区别，使得后者易于识别。他进一步比喻道，习惯于使用 AI 代理编程的人带有一种“数字气味”，就像吸烟者进入房间时，不吸烟者能立刻察觉一样。Kelley 澄清自己并非反对使用 LLM，但明确禁止在 Zig 项目中使用 AI 辅助生成的代码。

大佬观点开源生态编码

06:10

ginobefun@hongming731

本文介绍了一套提升内容在主流AI（如ChatGPT、Claude）中可见性的实用方法，核心是主动提供结构化数据。关键步骤包括：在网站部署`llms.txt`文件概述站点；在`robots.txt`中允许AI搜索爬虫；向Google、Bing等提交Sitemap并利用其工具监测AI引用；参与Perplexity出版者计划；使用JSON-LD结构化数据标记内容；甚至可为AI创建专用知识端点，集中提供实时更新的结构化信息。这些做法旨在帮助AI更准确、高效地理解内容，而非制造垃圾信息。

Tw93：这几天，有好几个小伙伴@我说，我的一些作品在他们问 AI 的时候主动被推荐了，很神奇，我想了想感觉啥也没有做，居然可以被收录，那要不要做点更体系化的事情来整一整…

搜索教程/实践部署/工程