美国国家安全局(NSA)已部署Anthropic最强大的AI模型Mythos Preview。作为负责电子监控的美国情报机构,NSA将该模型应用于其情报工作流程。这标志着Anthropic的尖端AI技术已进入美国情报体系的核心应用场景,用于支持电子监控和情报分析任务。
开发者Simon Willison发布的Claude Token Counter工具新增模型对比功能,支持用户直观比较不同版本Claude模型的token计数差异。该更新于2026年4月20日发布,可帮助开发者精确计算和优化API调用的token消耗,在Hacker News社区获得100个积分关注。
西班牙巴塞罗那超级计算中心分拆企业 Openchip 计划其 AI 芯片于 2026~2027 年流片,目标 2028 年实现商业出货。该矢量加速器采用 Chiplet 设计与 RISC-V 指令集,支持无 CPU 运行模式,针对智能体推理场景优化,可在同等算力下节省 30% 功耗。公司正联合 imec、Kalray 及 NEC 等合作伙伴,推进全栈欧洲计算解决方案开发。
DR-Venus 是一个仅用1万条开放数据训练的40亿参数深度研究智能体,基于Qwen3-4B-Thinking-2507架构,支持200步工具调用和超20万tokens的上下文。它通过监督微调与强化学习两阶段训练,在BrowseComp、GAIA等多个深度研究基准上树立了小模型性能新标杆。其SFT版本已超越多数同类开源模型,而RL版本进一步将长程任务可靠性和工具使用校准度提升2-3个百分点。项目已全面开源模型、代码与训练流程。
华为在Pura系列发布会上推出Pura 90系列手机。其中Pro和Pro Max版本搭载全新麒麟9030S处理器,该芯片NPU图像理解能力提升200%,AI ISP色彩引擎提升43%,长焦视频清晰度提升110%,防抖精度提升30%。标准版则搭载麒麟9010S处理器,该芯片此前已用于nova 15 Ultra,相较上代产品整机性能提升18%。
华为 MateBook 14 鸿蒙版于4月20日发布,为首款全面搭载鸿蒙操作系统的轻薄本。该机配备14.2英寸2.8K OLED云晰柔光屏,支持120Hz刷新率与100% sRGB/P3广色域,可减少99%环境干扰光。机身采用波点圆键盘设计与追色工艺,提供原野绿、樱粉金、深空灰三色。接口涵盖双USB-A、USB-C及HDMI。内置智慧助手"小艺"支持慧记、深度解题等AI功能,针对办公与学习场景全面提效。
国产AI推理GPU企业曦望完成新一轮超10亿元融资,估值突破百亿,成为首家纯推理GPU独角兽。该公司自2024年底从商汤分拆独立以来,一年多内已完成七轮融资,累计募资约40亿元。本轮为2026年AI推理落地潮以来国内GPU赛道最大单笔融资之一,资金将主要用于S3推理GPU规模化量产、软件生态建设及S4/S5芯片研发。
爱奇艺在世界大会公布"AI艺人库"计划,宣布于和伟、张若昀等100多名艺人入驻纳逗Pro艺人库,旨在为AIGC创作者提供规范合作平台。随后张若昀、王楚然等多位艺人否认签署AI授权协议。爱奇艺紧急澄清,入驻仅代表艺人有接洽AI影视项目意愿,但参与具体项目或出演角色仍需单独商谈授权,流程与传统真人影视合作一致。
华为AI眼镜正式发布,提供钛银灰、流光银、摩登黑三款配色及圆形、方形两种镜框,售价2499元起,将于4月25日开售。产品采用轻量化设计,镜架仅重35.5克,镜腿薄至6.25毫米,基于超30万亚洲头形数据构建平衡架构。内置自研AI芯片,支持语音唤醒、AI交互、第一人称视角拍摄及支付宝支付等功能,综合续航达12小时,支持连续8小时通话或9小时音乐播放。
NVIDIA 借国家机器人周契机,集中展示推动 AI 进入物理世界的最新技术突破,发布 Physical AI 领域研究成果与开发者资源。
开发者发布了一个基于 Gemma 4 和 E2B 的 Prompt-to-Excalidraw 浏览器演示,支持通过自然语言提示直接生成 Excalidraw 手绘图表。该方案将 3.1GB 的 Gemma 4 模型完全部署在浏览器端本地运行,借助 E2B 沙箱环境实现前端 AI 推理,无需后端服务器支持。项目在 Hacker News 获得 101 个赞。
一家已破产的人工智能公司前首席执行官及前首席财务官因涉嫌欺诈被正式起诉。据路透社4月17日报道,司法机关已对这两名前高管提起刑事指控,案件涉及该公司破产前的财务违规行为。这是该公司破产后的重大法律进展,具体涉案金额与欺诈细节仍有待司法程序进一步披露。
本研究探讨了稀疏自编码器(SAE)在增强大语言模型(LLMs)对抗越狱攻击鲁棒性中的作用。通过在推理时将预训练SAE集成到Transformer残差流中,不修改模型权重或阻断梯度。实验覆盖Gemma、LLaMA、Mistral和Qwen四个模型家族,针对GCG、BEAST等白盒攻击及三项黑盒基准测试,结果显示越狱成功率最高降低5倍,并减少了跨模型攻击的可迁移性。参数消融表明,L0稀疏度与攻击成功率呈单调剂量-反应关系,且中间层在防御效果和模型正常性能间达到最佳平衡。这些发现支持表征瓶颈假说,即稀疏投影重塑了越狱攻击所利用的优化几何结构。
研究团队提出了一种名为SIREN的轻量级防护模型,通过利用大型语言模型内部各层的安全相关特征来检测有害内容。该方法采用线性探测识别安全神经元,并通过自适应层加权策略整合信息,无需修改底层模型。评估显示,SIREN在多项基准测试中显著优于当前最优的开源防护模型,且可训练参数数量仅为后者的1/250。该模型对未见过的基准测试具有优异的泛化能力,支持实时流式检测,并比生成式防护模型大幅提升了推理效率。
Flash-SemiCRF 通过流式计算突破半马尔可夫条件随机场(semi-CRFs)的内存瓶颈,实现超长序列精确推理。该方法用前缀和数组即时计算替代存储边势张量,内存占用随片段长度与标签数量乘积大幅降低;采用流式前向-后向传递与检查点边界归一化,保持工作内存亚线性增长,可处理超过10万位置的基因组序列。方案融合为Triton内核,解决了传统方法在大状态空间下的不可行问题。
研究团队发布 AJ-Bench 基准测试,系统评估 Agent-as-a-Judge 在复杂环境中的验证能力。该基准涵盖搜索、数据系统和图形用户界面三大领域,包含155个任务与516条标注轨迹,全面测试评判智能体的信息获取、状态验证与过程验证能力。实验表明,Agent-as-a-Judge 相比 LLM-as-a-Judge 基线取得持续性能提升,但在基于智能体的验证中仍面临显著挑战。相关数据与代码已开源。
本文提出UDM-GRPO框架,首次实现均匀离散扩散模型与强化学习的稳定结合。针对训练不稳定问题,该方法将最终干净样本作为动作,并通过扩散前向过程重建轨迹以对齐预训练分布。此外,引入Reduced-Step和CFG-Free策略提升效率。实验表明,GenEval准确率从69%提升至96%,PickScore从20.46提升至23.81,OCR基准准确率从8%跃升至57%,在文本到图像任务中达到SOTA性能。
研究团队提出PSRD(分阶段自奖励解码)框架,在推理阶段动态缓解大型视觉语言模型(LVLMs)的视觉幻觉问题,无需外部监督。研究发现幻觉在每个语义阶段开始时达到峰值,据此将LVLMs的幻觉引导信号蒸馏为轻量级奖励模型,实现解码过程中的实时干预。实验显示,该方法使LLaVA-1.5-7B的幻觉率降低50.0%,并在五个幻觉评估基准上持续优于现有事后方法,同时实现了性能与推理效率的可控平衡。
研究团队提出了一种基于对比归因与 LRP 的 LLM 故障诊断框架,通过量化错误输出与正确候选间的 logit 差异,并将其归因至输入 token 及内部模型状态,同时支持长文本的跨层归因图构建。该研究在多个真实基准测试上开展系统实证,覆盖不同数据集、模型规模及训练阶段,结果显示 token 级对比归因虽能为部分失败案例提供有效诊断信号,但其适用性存在明显局限,尚无法通用于所有场景。
研究团队提出MM-JudgeBias基准,用于评估MLLM-as-a-Judge的组合偏见。该基准通过Query、Image、Response三维度受控扰动,结合Bias-Deviation与Bias-Conformity指标,对26个主流模型进行测试。数据集涵盖29个源基准的1800余个样本,可细粒度诊断9种偏见类型。实验揭示模型存在系统性模态忽视与不对称评估倾向,表明当前MLLM评判器在证据缺失或扰动下可靠性不足。
研究人员提出基于极性反转的双视角数据合成策略,通过提示 LLM 生成互补指令,使相关文档与违反指令的难负样本交换相关性标签,强制检索器依据指令而非固定主题线索重新评估候选集。在 305M 参数的编码器上,该方法在 FollowIR 基准测试中性能提升 45%,超越同等或更大规模的通用嵌入模型。实验表明数据多样性与指令监督具有互补作用,前者保持通用检索质量,后者提升指令敏感度。
技术博主Simon Willison详细剖析了Claude Opus 4.6与4.7版本间系统提示词的变化,该分析在Hacker News社区获得104个点赞。文章重点对比了两个版本系统提示的差异,但未披露具体的修改内容或量化指标。
内存市场面临严重的供应短缺危机,且这一状况预计将持续数年。需求激增与产能扩张之间的结构性失衡导致供应链持续紧张,可能对全球数据中心建设、人工智能训练及消费电子产业造成长期影响。行业分析师警告,短期内难以缓解的短缺态势将推高内存产品价格,并制约下游科技制造业的发展。
Anthropic与Amazon签署十年协议,承诺向AWS投入超1000亿美元以获取高达5吉瓦算力,用于Claude训练与部署。Amazon追加投资50亿美元(未来可达200亿美元),新容量包括上半年上线的Trainium2及2026年底前部署的近1GW Trainium2与Trainium3。Claude Platform将直接集成AWS,目前超10万客户通过Bedrock使用Claude,Anthropic年化收入已突破300亿美元。
Anthropic 在数月内从亏损状态逆转为营收巨头,年化收入突破 300 亿美元,可能已超越 OpenAI。这一业绩激增引发投资者对其估值高达 1 万亿美元的讨论。这家 AI 公司正凭借强劲的收入增长势头,成为资本市场关注的焦点。
德国高等地区法院近日裁定,使用AI将受版权保护的照片转换为漫画作品不构成版权侵权。法院认定,只要AI仅复制原作的"主题"(motif)而非具体表达形式,此类改编即属合法范围。该判决明确了AI转换性使用的法律边界,为生成式AI在版权领域的应用提供了重要司法参考。
数百个AI虚拟形象正在TikTok、Instagram和YouTube等平台密集发布支持特朗普的内容。部分账号已积累超过3.5万粉丝和数百万次观看,特朗普本人也曾分享相关AI生成内容。目前尚不清楚这些活动是个人行为还是协调竞选操作,这一现象正值美国中期选举前夕。
RealChart2Code 基准测试针对基于真实数据集构建的复杂可视化图表,对14个领先AI模型进行评估。结果显示,当图表结构趋于复杂时,即使是最顶尖的专有模型,其性能也损失近半,远低于在简单测试中的表现。这一发现揭示了当前AI模型在理解和转换复杂数据可视化内容方面存在显著局限。
研究团队为 Ray-Ban Meta 智能眼镜开发了 OpenClaw 智能体,旨在探索持续感知型 AI 如何改变用户使用智能体系统的方式。这项研究表明,集成该智能体的全天候智能眼镜能够加速日常任务处理,展示了始终开启的 AI 助手在可穿戴设备上的应用潜力。
Google 推出 A2UI 0.9,这是一项框架无关的生成式 UI 标准,支持 AI 智能体实时生成界面元素并直接调用应用现有组件库。该标准兼容 Web、移动端等多平台,使 AI 代理能够跨平台动态构建用户界面,无需为不同终端单独开发前端代码。
一位大学讲师为遏制学生使用人工智能代写作业,改用打字机布置和完成作业。这一反常规的教学方法旨在通过物理打字杜绝AI生成内容,同时向学生传授生活技能。该举措反映了教育工作者面对生成式AI普及化时采取的创造性应对策略,试图在数字时代重拾传统写作方式以确保学术诚信。
针对现有相机可控图像编辑方法因几何引导碎片化导致的几何漂移与结构退化问题,研究团队提出了UniGeo新框架。该框架利用视频模型提供连续视角先验,并首次在表征、架构和损失函数三个层级系统性地统一注入几何引导。具体创新包括:表征层的帧解耦几何参考注入、架构层的几何锚点注意力对齐多视图特征,以及损失函数层的轨迹端点几何监督策略。在多个公开基准测试中,UniGeo在广泛及有限的相机运动设置下,于视觉质量和几何一致性方面均显著优于现有方法。
针对联合图像-特征扩散模型中语义表示空间固定不变的问题,CoReDi 框架通过协同进化机制,在训练过程中联合优化轻量级线性投影与扩散模型,动态调整表示空间以适应生成任务。该方法结合停止梯度目标、归一化和针对性正则化防止特征崩溃,增强了语义特征与图像潜变量的互补性。在 VAE 潜变量扩散和像素空间扩散的实验表明,相比固定表示空间的方法,CoReDi 实现了更快的收敛速度和更高的样本质量。
研究团队提出四层认知复杂度分类法定义时间序列推理(TSR)任务,发布包含83k样本的HiTSR数据集,涵盖多样化任务组合与验证CoT轨迹。基于此开发的LLaTiSA模型整合可视化模式与精度校准数值表增强视觉语言模型(VLM)的时间感知,经多阶段课程微调策略训练,在多样TSR任务及真实场景中实现卓越性能与强分布外泛化。
针对从观测数据恢复潜在变量的不适定问题,研究者提出多样化字典学习框架。该框架证明,即使在没有线性假设或辅助监督的一般场景下,潜在变量的交集、补集、对称差及依赖结构仍可被识别。通过集合代数组合,可构建隐藏世界的结构化视图。当数据具有足够结构多样性时,所有潜在变量均可被完全识别。该方法仅需简单的归纳偏差即可集成到现有模型,并在合成与真实数据上验证有效。
现有语音到语音翻译系统常剥离笑声、哭声等非语言发声,严重限制实用性。研究团队提出MoVE架构,采用Mixture-of-LoRA-Experts设计和软加权路由器捕捉混合情感状态,仅需30分钟精选数据即可训练。在英汉翻译任务中,MoVE在76%的情况下成功重现目标非语言发声,显著优于现有系统最高14%的保留率,并获得最高的人类评分自然度与情感保真度。
本文提出SDVG框架,首次将推测解码应用于自回归视频生成。通过图像质量路由器替代token验证:1.3B draft模型生成候选块,经VAE解码后采用ImageReward worst-frame评分,高于阈值tau的块被接受至14B目标模型。关键设计包括强制拒绝首块以稳定场景构成,以及通过单一阈值平衡质量与速度。在832x480分辨率下,实现1.59倍加速(保留98.1%质量)至2.09倍加速(保留95.7%),无需训练即可集成到现有流程。
UniMesh是一个统一3D网格理解与生成的新型框架,通过单一架构联合学习两大任务。该框架引入Mesh Head连接扩散式图像生成与隐式形状解码器;提出Chain of Mesh (CoM)几何迭代推理机制,实现用户驱动的语义网格编辑闭环;并构建Actor-Evaluator-Self-reflection自反思机制,可诊断纠正3D字幕等高级任务错误。实验表明,UniMesh不仅性能优异,更实现了生成与理解的相互增强及迭代编辑能力。
研究人员发布CSR-L和CS-MTEB两项基准测试以评估混合语言检索场景,后者涵盖11类任务。实验显示,语码转换使检索性能最高下降27%,其根源在于纯文本与混合文本在嵌入空间存在显著差异。即使采用词汇扩展等标准多语言技术也无法完全消除该缺陷,暴露出当前系统在处理自然混合语言查询时的结构性脆弱。