AIHOT

AI HOT

4月30日

22:41

1X@1x_tech

构建你的NEO

具身智能行业动态

22:14

Runway@runwayml

实现宏大创意无需封锁街道。只需精彩的叙事。从构想到执行，这个短片概念由一位创作者仅用一天时间通过Runway完成。点击下方链接亲自尝试。#MadeWithRunway

教程/实践视频

22:13

向阳乔木@vista8

DeepSeek开源视觉语言模型DeepSeek-VL，聚焦真实场景应用

DeepSeek团队开源视觉语言模型DeepSeek-VL，包含1.3B和7B两个版本，旨在缩小开源模型与GPT-4V在真实场景中的差距。模型从数据、架构、训练三方面优化：数据构建上，采用从真实用户需求倒推的分类体系，并包含70%纯文本以保持语言能力；架构上创新采用SigLIP与SAM-B的混合视觉编码器，分别处理语义与细节特征；训练采用三阶段策略及模态平衡技术，缓解多模态训练对语言能力的侵蚀。

DeepSeek多模态开源生态现象/趋势

22:13

向阳乔木@vista8

DeepSeek-VL论文揭示多模态训练最佳配方：70%文本+30%多模态

DeepSeek-VL论文指出，多模态训练会损害语言模型的语言能力，使用100%视觉数据训练将导致语言benchmark性能断崖式崩塌。研究确定最佳训练配方为70%纯文本数据与30%多模态数据结合，并强调视觉与语言模态之间存在固有竞争关系，这种竞争无法通过参数调整来规避。论文结论突显了平衡多模态数据比例对维持模型语言性能的关键作用。

DeepSeek多模态数据/训练论文/研究

22:13

SenseTime@SenseTime_AI

我们也相信，原生统一多模态智能是迈向通用人工智能（#AGI）的基础性一步 🙌

多模态现象/趋势

22:13

meng shao@shao__meng

Glean发布专用搜索规划模型Waldo，优化AI代理工作流

Glean推出自研的智能搜索专用模型Waldo，旨在将企业AI任务中的“检索规划”与“深度推理”分离。Waldo基于NVIDIA Nemotron 3 Nano构建，作为前置环节运行，专门负责调用Glean Search、员工搜索和Web搜索等工具进行检索规划，并将检索到的上下文直接交给前沿大模型进行综合作答。这种架构避免了让昂贵的前沿模型处理机械的搜索任务，使单次调用延迟降低至约250毫秒，比默认推理模型快10倍以上。集成后，系统端到端延迟降低约50%，Token消耗减少约25%，且约一半查询可走“快路径”无需调用完整前沿模型。该设计印证了专用小模型在处理重复性任务上的效率优势，是智能体AI架构的重要演进。

MCP/工具产品更新搜索

22:11

DogeDesigner@cb_doge

我的儿子掌握着针对OpenAI的文件。他们攻击了他并杀害了他。 -- OpenAI举报人Suchir Balaji的母亲。

OpenAI行业动态

22:11

Artificial Analysis@ArtificialAnlys

腾讯发布开源推理模型Hy3-preview，综合评分42分落后于近期同类模型

腾讯发布开源混合专家模型Hy3-preview，总参数量2950亿，激活参数量210亿。其在Artificial Analysis综合智能指数上得分42，落后于近期开源的GLM-5.1、DeepSeek V4 Flash及Qwen3.6 27B等推理模型。具体评测表现不均衡：在真实世界任务基准GDPval-AA上落后于主要竞品，但在研究级物理评测CritPt上与高分模型GLM-5.1持平；其相对弱项在于AA-Omniscience指数，幻觉率较高。模型采用Tencent HY社区许可协议，商业使用受限，已在Hugging Face和SiliconFlowAI平台提供。

开源/仓库推理模型发布评测/基准

22:11

Baidu Inc.@Baidu_Inc

人人皆可构建：MeDo平台推动开发方式根本性转变

SBTI迷因测试的流行，揭示了低门槛参与的趋势正驱动AI应用开发工具的演进。Miaoda及其国际版MeDo是一个生成式AI驱动的无代码对话式应用开发平台，用户仅需通过自然语言描述，即可在几分钟内获得功能完整、可部署的应用，无需编写代码。平台背后由10多个专用AI代理协作，覆盖从需求分析到部署的全流程。传统上全球仅0.4%的人口是专业程序员，而该平台已助力创建超50万个商业应用，其中81%的创建者是非程序员，服务超1000万用户。这标志着开发方式从编写代码转向描述意图的根本性变革。

智能体产品更新开源生态

22:10

Berryxia.AI@berryxia

🚀 Claude Code 内置神技上线！直接调用 Claude Platform 官方技能，模型迁移、Prompt Caching、Managed Agents 上手全自动搞定！ 1. 直接说 "Add prompt caching" 就能自动应用最佳实践 2. 完全开源，支持 7 种语言 SDK + CLI，还集成到 CodeRabbit、JetBrains 等工具

AnthropicMCP/工具产品更新编码

21:43

Peter Steinberger 🦞@steipete

WAT 【引用 @theo】：有趣的事实--如果你的近期提交中有一个 json 数据块提到了 OpenClaw，Claude Code 要么会拒绝你的请求，要么会向你收取额外费用。这是一个空仓库，我只是直接调用 Claude Code。太疯狂了。

Anthropic现象/趋势编码

21:42

Greg Brockman@gdb

Chronicle 赋予 Codex 对你电脑使用行为的被动记忆，这解锁了令人惊喜的用例【引用 @ajambrosino】：它仍处于实验阶段，所以我们稍作隐藏，但在 Codex 应用中，不妨试试： &gt；根据 Chronicle 的记录，我一直在电脑上低效地做着什么？给出一些建议。直接点。告诉我需要听的内容。

OpenAI教程/实践

21:41

Chubby♨️@kimmonismus

精选76

Meta首次日活用户下降，资本支出激增致股价大跌

2026年第一季度，Meta全球日活跃用户首次下降，“应用家族”日活减少2000万。公司归因于伊朗网络中断和俄罗斯禁用WhatsApp，但合并数据掩盖了具体应用流失。同时，Meta将2026年资本支出指引上调至1250-1450亿美元，主要用于应对内存芯片涨价和加码AI基础设施投资，日均投入约4亿美元。尽管营收增长33%至563亿美元、净利跃升61%，公司仍计划裁员8000人以“抵消”AI投资成本，Reality Labs部门亏损40亿美元。华尔街对其支出轨迹不满，股价盘后大跌超7%。

Meta数据/训练行业动态

推荐理由：Meta 日活首降叠加千亿 AI 资本开支，这份财报把社交帝国的焦虑摊在了桌面上，用户流失与 AI 军备竞赛同时加速，信号交叉值得细看。

21:12

向阳乔木@vista8

如果你用Dia 浏览器，可以新开一个Tab，对话框中输入：coffeeonjosh，体验这个新功能。会自动连接Gmail，也可以连接Notion等工具，制作一份晨间早报。

产品更新

21:11

歸藏(guizang.ai)@op7418

主推文抱怨内容被盗，而引用推文展示Codex AI的强大能力：仅根据用户对类似《杀戮尖塔》游戏的中国风格要求，便能自动生成从代码到素材的完整可玩游戏。这突显了人工智能在创造性任务中的自主原创性，与盗窃行为形成鲜明对比，引发对科技赋能内容创作的关注。

歸藏(guizang.ai)：我操，Codex 太牛逼了！自己给我做了一个类似于《杀戮尖塔》的爬塔游戏，从代码到素材全是自己搞。我就跟他说了一个要做类似《杀戮尖塔》的游戏，要中国风格…

OpenAI大佬观点编码

20:41

Chubby♨️@kimmonismus

4290美元买一个双臂机器人。天啊。

产品更新具身智能

20:41

Chubby♨️@kimmonismus

Anthropic估值一年飙涨15倍，逼近9000亿美元

Anthropic的估值在约12个月内从615亿美元跃升至近9000亿美元，增幅达15倍。其年化收入从约10亿美元暴增至400亿美元，推动了这一惊人的价值增长。当前，即使愿意投资50亿美元的投资者也难以获得公司高管的会议机会，这凸显了AI融资市场中资金供给方的主导地位。自2024年初以来，Anthropic估值增长将达50倍，这可能是科技史上最快的价值创造案例。

Anthropic行业动态

20:11

歸藏(guizang.ai)@op7418

DeepSeek 多模态大语言模型的论文《Thinking with Visual Primitives》已经公开

该论文介绍了基于DeepSeek-V4-Flash底座的多模态大模型。其核心创新在于模型能同时进行文字推理和“视觉原语”（如画框、打点）思考。该模型以极低的Token成本，在多项前沿指标上达到了与GPT-5.4、Claude、Gemini等模型相当甚至更优的性能。

DeepSeek多模态论文/研究

关联讨论 2 条

20:11

PixVerse@PixVerse_

停。HappyHorse 转为免费会员制 + 0 积分截止至太平洋夏令时间5月7日00：00--在PixVerse让它真正快乐之后。转发+关注+回复=300积分（仅限72小时）

产品更新视频

20:10

ginobefun@hongming731

京东广告发布GRAM架构，用大模型知识工程突破推荐瓶颈

京东广告团队推出GRAM架构，旨在通过大模型原生知识工程解决传统CTR模型的瓶颈。该架构构建了毫秒级查询的级联知识图谱，将商品属性与业务规则作为“事实护栏”注入，以杜绝AI幻觉，确保推荐符合现实。它颠覆了依赖历史数据的冷启动模式，即使零销量新品也能通过知识网络的高维特征关联实现精准分发。同时，GRAM将企业内隐知识结构化作为上下文，使大模型能进行复杂的深度决策，而非仅计算曝光。

教程/实践数据/训练部署/工程

20:10

Berryxia.AI@berryxia

姚老师于GitHub开源一款AI教程生成工具。用户只需输入主题并提供参考资料，该工具即可以资料为核心，自动补充高质量素材并过滤低质信息，生成系统性的定制教程。教程支持PDF、Word和HTML格式输出，内容按章节组织，并能根据章节特点自动生成并插入图表。其设计融入了《课程营销学》的底层逻辑，排版借鉴了kami风格，确保了质感与规范。文末附有基于实际文章的生成示例。

姚金刚：开源一个教程Skill 打磨了十几版，效果还不错，已推到GitHub 如果想在五一假期高质量充电，或随时给自己生成一份定制高质量教程欢迎下载基本逻辑： …

开源/仓库教程/实践

20:10

Emad@EMostaque

你使用常规思维还是扩展思维来处理 GPT 5.5 Pro

OpenAI大佬观点

19:11

歸藏(guizang.ai)@op7418

Codex成功创建了类似《杀戮尖塔》的完整游戏关卡演示，细节精细，除声音外近乎完美。演示中的主要场景和角色素材由GPT-Image生成，其余素材由开发者自行收集。项目方宣布，安装包将于今晚或明天发布，同时整个代码将开源。

歸藏(guizang.ai)：太猛了，Codex 做类《杀戮尖塔》游戏完整关卡演示！现在非常细了，除了没有声音以外，其他的都相当完美了！主要的场景和角色素材是 GPT-Image 生…

OpenAI开源/仓库编码

19:11

Chubby♨️@kimmonismus

四大科技巨头云收入激增，资本开支飙升引市场担忧

Meta、亚马逊、Alphabet和微软2026年第一季度营收均超预期，云业务增长强劲，其中Google Cloud收入暴涨63%首次突破200亿美元。然而，四家超大规模企业2026年资本开支总额预计将超过6500亿美元，巨额AI基础设施投资引发市场焦虑，导致Meta和微软股价在盘后下跌。这些巨头在计算领域的投入规模正重塑全球经济，其投资能否带来相应回报将定义未来十年的科技投资格局。

GoogleMicrosoft数据/训练行业动态

19:10

阿绎 AYi@AYi_AInotes

LMArena文本榜显示，百度文心5.1 Preview以1476分位列国内第一、全球前十五，成为榜单中唯一国产模型，排名超过GPT-5.5等。尽管当前AI热点集中于Agent、多模态等领域，但DeepSeek V4与文心5.1 Preview仍以文本为核心。文章强调，文本能力是大模型的基础，代码、推理等多模态能力均从中"生长"，文本差距直接决定上层能力水平，因此仍是衡量模型差距的关键分水岭。

Berryxia.AI：今天看到一条容易被刷掉的消息，但越想越觉得有意思。 LMArena 文本榜最新更新，文心 5.1 Preview 拿下 1476 分，国内第一，全球前十五唯一…

DeepSeek评测/基准

18:39

Alibaba Cloud@alibaba_cloud

HiClaw v1.1.0 现已发布！🚀 🔹 K8s 原生：具备高可用和 RBAC 的生产就绪 Helm chart。 🔹 Hermes 支持：自主编码代理作为一等工作者。 🔹 轻量化：镜像大小减少约 1.7GB。 🔹 企业就绪：多租户隔离与可插拔存储。立即升级以获得可扩展的 AI 编排能力！了解更多：https：//int.alibabacloud.com/m/1000412675/ #HiClaw #Kubernetes #AI

智能体产品更新部署/工程

18:10

阿绎 AYi@AYi_AInotes

精选79

马斯克律师庭审出示关键证据，揭露OpenAI早期转型营利内幕

马斯克律师在庭审中出示了OpenAI联合创始人Greg Brockman 2017年的私人日记，其中明确写道团队真正想要的是营利性结构并计划将马斯克排除在外，承认若转型则此前承诺皆为谎言。然而两个月后，Brockman却公开向马斯克表达敬意。证据显示OpenAI早在2017年就已策划从非营利转向商业。此前，OpenAI试图用Sam Altman 2022年提及股权的短信作为证据，但被马斯克以非营利组织法律上不能有股权为由反驳，反而坐实了其早期就已背离公益初心。

阿绎 AYi：Damn，OpenAI这次在法庭上真把自己坑惨了🤣👀🤯 律师昨天甩出2022年Sam发给马斯克的一条短信，想证明：“当年我们主动给你股权，你自己不要，现…

OpenAIxAI行业动态

关联讨论 2 条

推荐理由：Brockman日记证明OpenAI早在2017年就密谋排挤马斯克且转向营利，这不是花边八卦，是直接动摇OpenAI非营利合法性的实锤，所有AI创业者都该关注后续判决。

18:10

Berryxia.AI@berryxia

文心5.1 Preview登顶国内文本榜，揭示文本能力仍是AI模型关键分水岭

文心5.1 Preview在LMArena文本榜以1476分位列国内第一，是全球前十五名中唯一的国产模型，排名超越GPT-5.5与DeepSeek-V4-Pro。尽管AI领域热点转向Agent与多模态，但DeepSeek V4与文心5.1等旗舰模型仍以文本为核心。作者强调文本能力是大模型的地基，代码、推理等多维度能力均由此衍生，地基差异直接影响上层性能，因此文本仍是模型拉开差距的关键分水岭。引用推文显示，文心5.1在数学、法律与政府、商业管理及软件服务等类别表现突出。

大佬观点推理模型发布

17:41

向阳乔木@vista8

开发者利用Codex成功生成了一个类《杀戮尖塔》游戏的完整关卡演示。该演示目前已经相当完善，主要缺陷仅在于缺少声音。演示中的核心视觉素材，如主要场景和角色，是由GPT-Image生成的，其余素材则由开发者自行补充。这一成果展示了AI在游戏内容生成方面的强大潜力。

OpenAI图像生成现象/趋势

17:39

Rohan Paul@rohanpaul_ai

精选75

微软研究揭示AI助手在长文档编辑中普遍损坏内容

微软最新论文指出，当前AI助手在执行长链条编辑任务时，普遍会损坏文档内容。研究通过可逆任务对测试了19个模型，发现即使是前沿模型平均也会破坏约25%的文档内容，且问题随文件增大、流程变长而加剧。失败模式通常不是微小失误，而是偶尔出现的重大错误，这些错误会静默破坏部分文档并随时间累积。研究表明，当前的LLM在简短演示或狭窄编码任务中可能表现良好，但作为现实世界长文档工作的委托代理仍不可靠。

智能体Microsoft论文/研究

推荐理由：微软这篇论文点了当前 LLM 的死穴，短期 demo 很牛，长期编辑文档直接掉链子，25% 损坏率不是小问题，做 AI 文本编辑产品的团队得掂量一下用户信任。

17:39

Rohan Paul@rohanpaul_ai

Anthropic研究显示Claude能解决人类专家遗漏的真实生物信息学问题

Anthropic最新研究利用BioMysteryBench测试平台评估Claude在真实生物信息学问题上的能力。该测试将客观答案隐藏于真实数据集中，涵盖99项任务。在至少一位人类专家解决的76个问题上，Claude Mythos Preview模型准确率约为83%；更值得注意的是，在23个专家小组未能解决的问题上，该模型仍解决了其中约29.6%。然而，模型在困难问题上的成功重复性较低，表明其表现尚不稳定。研究指出，Claude最有效的模式并非充当“先知”，而是扮演快速研究协作伙伴的角色：通过分层使用方法、交叉验证证据并运用广泛背景知识来缩小搜索空间。

Anthropic数据/训练论文/研究

17:39

Rohan Paul@rohanpaul_ai

白宫阻止Anthropic扩大其漏洞挖掘模型Mythos的访问权限

白宫阻止了Anthropic扩大其新型AI模型Mythos访问权限的计划。该模型能发现并利用软件漏洞，能力足以触发国家安全管控。Anthropic希望新增约70家机构使用，但官员认为扩大访问会加剧安全风险，并可能挤占已授权机构的计算资源。此事反映出Anthropic与华盛顿关系紧张，涉及军事用途争议与信任问题。此类模型能极大缩短漏洞发现与武器化之间的时间，因此推广决策首先是安全决策。白宫的策略是限制访问以降低即时风险，并优先保障已获授权机构的需求。

Anthropic安全/对齐政策/监管

17:10

歸藏(guizang.ai)@op7418

Codex展示了其强大的游戏开发能力，仅根据"制作类似《杀戮尖塔》的中国风格游戏"的简单指令，便自主完成了从代码编写到素材整合的完整可玩关卡。主要场景和角色素材由GPT-Image生成，其余素材由Codex自行寻找。最终成果是一个除声音外相当完善的游戏演示，凸显了AI在理解复杂指令并执行完整项目上的巨大潜力。

OpenAI图像生成教程/实践编码

17:10

Baidu Inc.@Baidu_Inc

根据IDC中国2025年下半年报告，百度智能云在2025年中国自动驾驶研发解决方案市场排名第一。百度智能云占据超过三分之一的市场份额，目前服务于中国销量前15的汽车品牌以及前10的新能源汽车公司。我们正通过更强大的计算能力、高保真仿真、算法调优和车路协同技术，帮助汽车制造商将自动驾驶从研发阶段推进到大规模生产--所有这些都专为实际部署而构建。

行业动态

17:09

Rohan Paul@rohanpaul_ai

代理性工具工程：基于可观测性的编码代理工具自动演化

本文提出Agentic Harness Engineering方法，使编码代理能自动重写自身工具和规则，并通过可审计实验验证每次更改的有效性。传统代理工具调整依赖手动或混乱自我改进循环，缺乏明确证据。该方法将编辑转化为文件级可回滚部分，压缩运行日志为简短失败证据，并让代理为编辑写预测后基于任务结果检查。在Terminal-Bench 2测试中，从小型shell-only工具开始，经10轮进化且基础模型固定，单次尝试成功率从69.7%提升至77.0%，超越其他基线。最终工具可迁移至其他模型和SWE-bench-verified任务，在不同模型家族获得5.1到10.1点提升，并减少12%令牌使用，为昂贵工具工作提供可靠、可控的自我改进途径。

智能体arXiv编码论文/研究

17:09

Rohan Paul@rohanpaul_ai

Sam Altman： "曾几何时，我们常常嘲笑那些只有想法、需要技术人员来实现的'点子王'。但现在，那些真正深刻理解用户却完全不会编程的人，我想资助这些人。"

OpenAI大佬观点现象/趋势

16:39

Orange AI@oran_ge

大家发在 X 上的提到了 ColaOS 的帖子，都会被官网自动收录了欢迎大家多多分享使用案例 😄 吐槽…也行吧 https：//colaos.ai/community

智能体产品更新

16:39

Chubby♨️@kimmonismus

Anthropic发布BioMysteryBench基准，AI在复杂生物信息学难题上开始超越人类专家

Anthropic发布了BioMysteryBench基准测试，包含99个使用原始、杂乱真实生物数据集的开放式生物信息学挑战。最新Claude模型（4.7）解决了大部分人类专家能处理的任务，并在专家小组未能解决的23个难题中攻克了约30%。其能力源于整合数十万篇论文知识，并在不确定时叠加多种分析策略。Genentech和Roche的独立测试（CompBioBench）中，Claude Opus 4.6总体准确率达81%，最难问题准确率69%。两项基准共同表明，AI已在部分最困难的生物学问题上超越人类专家。

Anthropic数据/训练论文/研究

16:39

Rohan Paul@rohanpaul_ai

移除人为瓶颈，实现AI完全自主以提升效率

Andrej Karpathy指出，要最大化利用现有AI工具，关键在于将自身从交互循环中移除，避免成为持续提示的瓶颈。他主张构建完全自主的系统，通过最大化token吞吐量来实现高效率运作。核心目标是提升个人杠杆率：仅需偶尔投入极少量的token，就能驱动系统自动完成大量工作，从而使人从重复性操作中解放出来，专注于更高层次的决策与设计。

智能体大佬观点现象/趋势

16:39

Rohan Paul@rohanpaul_ai

美国劳工部推出全国性AI学徒门户网站

美国劳工部推出全国性AI学徒门户网站，旨在为AI时代培养劳动力。该网站将资源分为通用AI技能、行业特定模块以及学徒计划的三种整合路径。雇主可选择加入现有计划、创建新的AI重点注册学徒计划，或更新现有计划将AI技能融入现有技能栈。学徒机会由雇主或项目发起方提供，求职者应使用“学徒工作查找器”进行搜索，并直接向雇主或发起方申请。

政策/监管数据/训练