4月28日
12:34
Anthropic:Newsroom(网页)
43
Anthropic 任命澳新总经理并正式开设悉尼办公室

Anthropic 正式任命 Theo Hourmouzis 为澳大利亚和新西兰总经理,并同步开设悉尼办公室。Hourmouzis 拥有超过20年的亚太科技行业领导经验,将负责制定本地战略,推动 Claude 人工智能进入客户核心业务。公司正深化与联邦银行等企业的合作,并与澳大利亚国立大学等研究机构推进 AI for Science 项目。同时,Anthropic 近期与 Canva、Xero 建立了深度平台合作。悉尼办公室是其在亚太地区的最新布局,旨在贴近当地客户与市场。

Anthropic行业动态
12:33
Runway:News(网页)
精选58
无闲置GPU:Runway的研究计算管理

Runway通过采用Kueue作为Kubernetes准入控制器,将GPU利用率提升超过20%,同时保障团队容量。其核心机制是为关键工作预留配额,并设立共享队列借用闲置容量,当配额所有者需要时通过抢占回收资源。该系统运行于昂贵的多租户GPU集群,支持多节点训练的拓扑感知调度和弹性工作负载。具体实现中,团队拥有专用预留队列,而默认队列作为共享机会池,可借用闲置配额运行可中断工作负载。当预留队列需资源时,Kueue基于优先级和运行时间抢占默认队列中的任务,实现资源高效管理。

教程/实践部署/工程

推荐理由:Runway 把 Kueue + Kubernetes 的 GPU 调度实战写成了保姆级工程笔记,利用率翻倍的方案和踩坑细节都有,做大规模训练集群调度的团队可以直接抄作业。
12:33
OpenAI:官网动态(RSS · 排除企业/客户案例)
30
Choco 利用 AI 智能体实现食品分销自动化

Choco 通过集成 OpenAI API 构建了 AI 智能体系统,以自动化餐饮行业的食品采购与分销流程。该系统能自动处理订单、协调物流并优化库存,将人工操作时间减少了 70%,订单处理效率提升 50%。这一变革显著降低了供应链中的食物浪费,并帮助公司实现了业务规模化增长,展示了 AI 在传统产业中的实际应用价值。

智能体行业动态
12:33
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选70
一个用于编排的开源规范:Symphony

Symphony 是一个用于 Codex 编排的开源规范,能够将问题跟踪器转化为持续运行的智能体系统。该系统通过自动化任务协调与执行,显著提升工程团队的产出效率,同时减少开发者在不同任务间频繁切换带来的认知负担。其核心在于以标准化、可扩展的方式,将日常开发流程转化为由智能体持续驱动的工作流。

智能体OpenAI产品更新开源/仓库
关联讨论 3X:阿易 AI Notes (@AYi_AInotes)X:邵猛 (@shao__meng)X:Vista (@vista8)
推荐理由:OpenAI 把 Codex 的编排层抽成开源规范,等于告诉所有做 coding agent 的团队,底层调度逻辑不用自己造轮子了。做 AI 编程工具的值得花半小时看架构思路。
11:50
蚂蚁 inclusionAI:HuggingFace 新模型
51
inclusionAI/Ling-2.6-flash-fp8

inclusionAI 团队发布了 Ling-2.6-flash-fp8 模型,致力于通过开源与开放科学推动人工智能的发展与普及。该版本采用 FP8 精度优化,显著提升了推理效率并降低了计算资源消耗,是其在推进技术民主化进程中的最新实践。

开源/仓库模型发布端侧
11:27
蚂蚁 inclusionAI:HuggingFace 新模型
精选55
inclusionAI/Ling-2.6-flash

inclusionAI发布了Ling-2.6-flash模型。该模型是其开源语言模型系列的最新成员,旨在通过开源与开放科学推动人工智能的进步与民主化。此次发布延续了团队降低AI技术使用门槛、促进更广泛社区参与开发的使命。

开源/仓库模型发布端侧

推荐理由:蚂蚁 inclusionAI 的 Ling-2.6-flash 上线 HuggingFace,名字带 flash 大概率是轻量推理模型,但官方描述几乎空白,没有 benchmark 也没有用例,建议等社区实测再决定是否投入精力。
08:31
Claude Code:GitHub Releases(RSS)
精选60
Claude Code v2.1.121 更新:新增功能、体验优化与内存泄漏修复

本次更新为 Claude Code 带来多项增强与修复。新增功能包括 MCP 服务器的 `alwaysLoad` 配置、`claude plugin prune` 命令以及 `/skills` 界面搜索框。用户体验方面,优化了全屏模式滚动、对话框键盘滚动和长 URL 点击体验。重点修复了处理多张图片或使用 `/usage` 命令时可能出现的数 GB 内存泄漏问题,并解决了 Bash 工具在工作目录被删除后失效等稳定性缺陷。此外,还改进了 MCP 服务器的错误重试机制和终端会话标题的本地化显示。

智能体Anthropic产品更新编码

推荐理由:Claude Code 这版修了一堆让人抓狂的内存泄漏和崩溃问题,加上 alwaysLoad 和 plugin prune 两个实用功能,重度用户值得立刻升级,但对非用户来说只是例行迭代。
08:28
Hugging Face:Blog(RSS)
精选60
Adaptive Ultrasound Imaging with Physics-Informed NV-Raw2Insights-US AI

NVIDIA 在 Hugging Face 上发布了一款名为 NV-Raw2Insights-US 的物理信息人工智能模型,专门用于自适应超声成像。该模型能够直接处理原始超声射频数据,实时生成高质量的诊断图像。它通过结合物理定律与深度学习,显著提升了图像分辨率和对比度,同时将传统处理流程中的多个步骤整合为单一前向传播,大幅提高了计算效率。这一进展有望推动超声设备向更便携、智能和精准的方向发展。

具身智能论文/研究部署/工程

推荐理由:NVIDIA 把物理先验塞进超声成像管线,从原始射频数据直接出诊断结果,跳过传统重建步骤。做医疗 AI 的值得拆一下这个端到端思路,但离通用场景太远。
08:00
Apple Machine Learning Research(RSS)
精选64
LaDiR:潜在扩散模型增强 LLM 的文本推理能力

研究团队提出LaDiR推理框架,将连续潜在表征的表达能力与潜在扩散模型的迭代优化能力相结合,以增强现有大语言模型的推理性能。该框架首先构建一个结构化的潜在推理空间,通过扩散过程对潜在状态进行迭代细化,使模型能够全局性地重新审视和修正推理路径中的早期内容。这种方法突破了传统自回归解码在整体优化和多样化解决方案探索方面的限制,提升了链式思维生成的质量与效率。

推理数据/训练论文/研究

推荐理由:Apple 把扩散模型塞进 LLM 推理链,思路很野,用连续潜空间替代自回归 token 生成来解决「写到一半没法回头改」的老毛病。做推理优化或 diffusion 架构的值得细看,但离工程落地还远。
08:00
Apple Machine Learning Research(RSS)
50
StereoFoley: 从视频生成具有对象感知能力的立体声音频

StereoFoley是一个视频到音频的生成框架,能生成48kHz、语义对齐、时间同步且空间准确的立体声。现有视频生成音频模型大多局限于单声道或无法实现对象感知的立体声成像,主要受限于缺乏专业混音、空间准确的视频-音频数据集。该研究首先开发了一个从视频生成立体声的基础模型,在语义准确性上达到了与当前最先进V2A模型相当的性能。

多模态论文/研究
08:00
Apple Machine Learning Research(RSS)
54
条件扩散模型中组合泛化的局部机制

条件扩散模型展现出组合泛化能力,能生成超出训练分布的条件组合样本,但其机制尚不明确。研究聚焦于长度泛化,即生成比训练所见更多数量物体的图像。在受控的CLEVR场景中发现,模型仅在某些情况下能实现长度泛化,表明其并非总能掌握底层组合结构。通过分析扩散过程的局部动态,研究揭示了泛化成功与失败案例中条件交互模式的系统性差异,为理解生成式模型的组合推理边界提供了新视角。

图像生成论文/研究
03:02
Midjourney:Updates(RSS)
50
High-res rating

Midjourney团队正为v8.1/8.2版本筹备重大美学更新,并公开征集用户协助进行图像排序以改进模型。此次工作的核心在于,团队将首次在完整的2K分辨率下进行图像排序活动,旨在为模型获取最优的高清像素数据,以提升图像生成质量。

产品更新图像生成
00:46
CMU:Machine Learning Blog
精选60
介绍ARFBench:基于真实事件的时间序列问答基准

每年系统故障导致损失超万亿美元,工程师需通过分析时间序列数据快速定位问题。时间序列问答(TSQA)是关键运维任务,对AI模型构成挑战。为此,研究团队推出ARFBench基准,基于Datadog真实内部事件及遥测数据构建。测试显示,当前领先的大型语言模型、视觉语言模型和时间序列基础模型在ARFBench上表现均有较大改进空间。团队提出混合TSFM-VLM模型,其整体性能接近前沿水平,为TSQA任务提供了新评估框架和改进方向。

论文/研究评测/基准部署/工程

推荐理由:CMU 和 Datadog 联手搞了个基于真实事故的时序问答基准,结论很诚实,现有模型全拉胯。做 SRE Agent 的团队该看看,这比合成数据的 benchmark 有说服力得多。
00:16
Gary Marcus:The Road to AI We Can Trust(RSS)
41
达里奥·阿莫代伊、炒作、AI安全与氛围编码AI灾难的爆发

AI领域的鼓吹者往往回避讨论关键风险。随着GPT、Claude、LLaMA等大型语言模型的快速迭代,行业在竞相追求参数规模与商业落地的同时,AI安全问题正以“氛围编码”的形式被系统性低估——即通过模糊的修辞淡化潜在危害。 Anthropic联合创始人达里奥·阿莫代伊等研究者多次警示,缺乏严格安全框架的AI发展可能引发连锁性灾难,包括恶意使用、社会分化与失控性风险。当前行业亟需将安全指标从抽象讨论转化为可量化的技术约束。

大佬观点安全/对齐现象/趋势
4月27日
23:58
GitHub Blog
精选79
GitHub Copilot 将转向基于使用量的计费模式

自6月1日起,GitHub Copilot 的使用将开始消耗 GitHub AI Credits,计费模式正式从固定订阅制转变为基于实际使用量的计费。这一变化意味着用户的费用将与 AI 助手的具体调用量直接挂钩,而非统一的月费或年费。

编码行业动态部署/工程
关联讨论 3X:宝玉 (@dotey)Simon Willison 博客Hacker News 热门(buzzing.cc 中文翻译)
推荐理由:GitHub Copilot 从订阅制转向按量计费,这是 AI 编程工具定价范式的标志性拐点,所有重度用户和竞品都得重新算账。
22:28
Hugging Face:Blog(RSS)
53
如何利用OpenAI的Privacy Filter构建可扩展的Web应用

OpenAI正致力于通过开源与开放科学推动人工智能的进步与民主化。这一举措旨在降低AI技术的使用门槛,促进更广泛的创新与合作。其Privacy Filter工具为开发者提供了构建可扩展Web应用的关键支持,帮助在保障用户数据隐私的同时,高效集成AI能力。这一方向强调了技术开放性与负责任开发并重的理念。

OpenAI教程/实践部署/工程
22:22
Dwarkesh Patel:Podcast & Blog(RSS)
42
周末随想--更多开放性问题、智能与权力、科学验证难题、达尔文主义的并行发现

作者围绕多个开放性问题展开探讨,包括人工智能领域中智能与权力的本质区别及其对社会结构的潜在影响。科学验证机制面临的可靠性危机被提及,尤其是在复杂系统研究中。同时,文章指出达尔文进化论的核心概念曾出现多地域独立发现的现象,这引发了对知识创造与传播模式的思考。这些议题共同指向技术发展背后更深层的认知与伦理挑战。

大佬观点现象/趋势
22:00
OpenAI:官网动态(RSS · 排除企业/客户案例)
51
OpenAI获得FedRAMP Moderate授权

OpenAI的ChatGPT Enterprise与API已获得FedRAMP Moderate安全授权,允许美国联邦机构在符合数据安全与隐私合规要求的前提下,安全采用其人工智能服务。

OpenAI政策/监管行业动态
21:22
Google Blog:AI(RSS)
50
加入 Google 与 Kaggle 的全新 AI Agents Vibe Coding 课程

Google 与 Kaggle 再度推出为期 5 天的 AI Agents 强化课程,现已开放注册。该课程旨在教授开发者如何构建和部署 AI 智能体,内容涵盖从基础概念到实际应用。课程形式为短期集中学习,参与者将通过 Kaggle 平台进行实践。

智能体Google教程/实践
21:13
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选81
Microsoft 与 OpenAI 合作进入新阶段

OpenAI 与 Microsoft 宣布修订合作协议,旨在简化合作结构并明确长期合作框架。新协议将为持续的大规模人工智能创新提供支持,标志着双方战略伙伴关系进入更清晰、更稳定的新阶段。此次调整侧重于强化合作效率与长期目标的一致性,共同推进 AI 技术的前沿发展。

MicrosoftOpenAI行业动态
关联讨论 8X:Kim (@kimmonismus)X:Sam Altman (@sama)The Decoder:AI News(RSS)X:Testing Catalog (@testingcatalog)Simon Willison 博客Hacker News 热门(buzzing.cc 中文翻译)X:Rohan Paul (@rohanpaul_ai)X:宝玉 (@dotey)
推荐理由:OpenAI 和微软重新谈定了合作框架,这事牵动的不只是两家公司,Azure 上跑 OpenAI API 的每一个产品都在这个棋盘上。不过目前公告措辞极模糊,具体条款还得等后续披露。
15:21
Google DeepMind:Blog(RSS)
精选56
宣布我们与大韩民国的合作伙伴关系

Google DeepMind 与韩国政府建立合作伙伴关系,旨在利用前沿AI模型加速科学突破。此次合作将聚焦于将如Gemini、Claude、GPT-4等大型语言模型以及AlphaFold等科学AI工具,应用于关键研究领域,特别是生物技术和材料科学。目标是提升韩国的AI研发能力,计划在未来五年内培养超过1000名AI专家,并支持10个以上由AI驱动的大型科研项目。

DeepMindGoogle行业动态

推荐理由:韩国政府和 DeepMind 的合作意向,信号意义大于实质内容,目前没有具体项目披露,做 AI 地缘分析的可以留意,其他人可以先跳过。
14:37
DeepSeek:GitHub 新仓库
精选56
deepseek-ai/awesome-deepseek-agent

该项目是一个精选指南列表,旨在帮助用户将 DeepSeek 模型集成到多种流行的 AI 智能体和代码助手工具中。目前覆盖了 Claude Code、GitHub Copilot、OpenCode、Hermes 等十余种工具,每份指南都详细说明了从安装、配置到首次运行的具体步骤,让用户能在几分钟内于自己喜爱的工具中启用 DeepSeek-V4-Pro 或 DeepSeek-V4-Flash 模型。列表内容将持续更新,并鼓励社区通过提交 Issue 或 Pull Request 来贡献新工具的集成指南。

智能体DeepSeek产品更新开源/仓库

推荐理由:DeepSeek 官方出了一份 Agent 工具集成指南合集,覆盖 Claude Code、Copilot 等十几款工具,想把 DeepSeek-V4 接进现有工作流的人可以省掉大量踩坑时间,但内容本身是配置教程而非新能力。
08:00
OpenRouter:Announcements(RSS)
精选57
Opus 4.7新分词器对成本的实际影响

Anthropic在Claude Opus 4.7版本中更新了分词器。通过对比4.6到4.7版本的实际使用数据,分析发现这一技术调整改变了文本转换为令牌的方式,直接影响API计价。相同的文本输入可能产生不同数量的令牌,从而导致用户的实际使用成本发生可量化的变化。这一调整虽不改变模型能力,但关乎运营开销,是开发者和企业用户需评估的关键因素。

Anthropic评测/基准部署/工程

推荐理由:Opus 4.7 换了 tokenizer,大多数人只知道模型变强了,不知道计费逻辑也变了。OpenRouter 用真实流量数据算了一笔账,做成本预算的产品人值得扫一眼。
07:15
OpenAI:官网动态(RSS · 排除企业/客户案例)
46
Our Principles

OpenAI 联合创始人 Sam Altman 阐述了指导公司工作的五项核心原则。这些原则围绕确保 AGI(通用人工智能)惠及全人类的使命展开,具体包括:致力于开发安全有益的 AGI;持续推动前沿技术研究;广泛共享研究成果与收益;积极与全球政策制定者合作应对风险;以及确保 AGI 的发展不被过度商业化垄断,最终服务于人类的整体福祉。

OpenAI大佬观点
02:39
4月24日
22:17
蚂蚁 inclusionAI:HuggingFace 新模型
49
inclusionAI/DR-Venus-4B-SFT-GGUF

该项目致力于通过开源与开放科学推动人工智能的发展与普及。团队正持续推进技术民主化进程,旨在让更广泛的群体能够接触并利用先进AI工具。其核心路径是依托开放协作模式,降低技术门槛,促进创新生态的构建。

开源/仓库模型发布端侧
20:00
OpenRouter:Announcements(RSS)
精选55
Agent SDK:在 OpenRouter 上构建多轮智能体工作流

OpenRouter 发布 Agent SDK,其核心是 callModel 函数。该函数可将一次聊天完成转化为具备工具调用、停止条件与成本追踪功能的多步骤智能体工作流。这一工具兼容平台上的 300 多个模型,使开发者能够便捷地构建复杂的多轮交互智能体应用。

智能体MCP/工具产品更新

推荐理由:OpenRouter 把多轮 agent 编排封装成一个 callModel 函数,300+ 模型统一调用,做 agent 产品的人可以少写不少胶水代码,但本质上是工程封装而非技术突破。
20:00
OpenRouter:Announcements(RSS)
53
使用 Agent SDK 构建你自己的 Harness

Anthropic 发布了 Agent SDK,开发者可利用 `create-agent-tui` 和 `create-headless-agent` 技能,在几分钟内搭建个性化的编码智能体。该 SDK 支持两种模式:一是提供终端用户界面的交互式代理,二是无界面的“headless”代理,便于集成到自动化脚本和流水线中。这显著降低了为特定编码任务定制 AI 助手的门槛。

智能体产品更新编码
12:19
Anthropic:Newsroom(网页)
精选59
Anthropic与NEC合作,共建日本最大AI工程团队

Anthropic与NEC达成战略合作,旨在打造日本规模最大的AI原生工程团队。NEC将成为Anthropic在日本的首个全球合作伙伴,为集团全球约3万名员工部署Claude AI工具。双方将针对金融、制造和地方政府等领域,联合开发安全的行业专用AI解决方案,并将Claude集成到NEC的安全运营中心及下一代网络安全服务中。NEC内部将设立卓越中心,通过技术培训构建AI工程团队,并广泛应用Claude Code等工具。目前,全球员工的工具部署与行业解决方案的联合开发已同步启动。

智能体Anthropic行业动态

推荐理由:NEC 三万人上 Claude,是 Anthropic 在日本市场拿下的最大企业单子,信号意义大于产品本身。做 To B 的可以观察日本企业 AI 采购节奏,但对普通开发者没什么可抄的。
08:13
Claude Code:GitHub Releases(RSS)
精选56
Claude 代码工具 v2.1.119 版本更新

Claude 代码工具发布 v2.1.119 版本,带来多项功能优化与问题修复。主要更新包括:用户配置现持久化至本地文件;新增 `prUrlTemplate` 设置以自定义 PR 徽章链接;`--from-pr` 命令扩展支持 GitLab、Bitbucket 等多个平台。工具权限与交互行为在多处实现统一,例如 `--print` 模式现在遵从代理的前置元数据定义。界面体验获得改进,如斜杠命令建议会高亮匹配字符,长描述自动换行。此外,本次更新修复了大量已知问题,涉及粘贴格式错乱、工具意外隐藏、MCP 服务器连接失败、权限模式行为异常及界面显示错误等。

Anthropic产品更新编码

推荐理由:Claude Code 这次更新全是打磨细节,没有大功能但修了一堆让人骂娘的 bug,重度用户值得升级,其他人等下一个大版本也行。
08:00
Apple Machine Learning Research(RSS)
精选57
Learning Long-Term Motion Embeddings for Efficient Kinematics Generation

研究提出了一种通过长时运动嵌入来高效生成运动学的方法,直接对从追踪器模型获取的大规模轨迹中学习到的嵌入进行操作,将场景动态建模效率提升了数个数量级。该方法能够根据文本提示或空间戳指定的目标,高效生成长而真实的运动序列,避免了传统全视频合成在探索多种可能未来时效率低下的问题。

具身智能多模态论文/研究

推荐理由:Apple 把运动预测从逐帧生成拉到嵌入空间操作,效率提升几个数量级,做机器人或虚拟角色动画的团队值得留意这个思路,但离产品落地还有距离。
08:00
Hugging Face:Blog(RSS)
精选78
DeepSeek-V4:智能体可实际使用的百万token上下文

DeepSeek发布新一代模型DeepSeek-V4,其核心突破在于实现了长达百万token的上下文窗口,并确保智能体能够有效利用这一扩展的上下文能力。该模型延续了通过开源与开放科学推动人工智能发展与普及的使命,标志着大模型在长上下文理解和实际应用方面迈出重要一步。

智能体DeepSeek开源生态模型发布
关联讨论 5Simon Willison 博客IT之家(RSS)Hacker News 热门(buzzing.cc 中文翻译)X:AK (@_akhaliq)X:Rohan Paul (@rohanpaul_ai)
推荐理由:DeepSeek 把上下文窗口推到百万 token 不稀奇,关键是「agent 能实际用」这六个字。如果实测成立,RAG 的很多工程妥协可以扔掉了,做长文档和复杂 agent 的人该第一时间跑一遍。
06:15
OpenAI:Alignment 研究博客(RSS)
精选58
开源可监控性评估

研究团队开源了论文《Monitoring Monitorability》中的数据集与代码,并分享了一种针对噪声主导干预评估实例的新过滤策略。这一举措旨在提升AI系统监控能力的评估透明度与可复现性,为社区提供了可直接使用的工具和方法。新提出的过滤策略能有效识别并处理评估过程中噪声干扰严重的实例,有望提高评估结果的准确性与可靠性。

OpenAI安全/对齐论文/研究

推荐理由:OpenAI 把自家对齐监控的评测数据集和代码全开源了,做 AI 安全评估的团队可以直接拿来用,但对普通开发者来说门槛还是偏高。
4月23日
08:00
Google Developers Blog(RSS)
精选59
使用 LiteRT 与 NPU 构建现实世界中的设备端人工智能

LiteRT 是一个生产就绪的框架,旨在帮助移动开发者充分发挥神经处理单元(NPU)的效能,以突破传统 CPU 或 GPU 在性能与电池续航上的瓶颈。该框架通过提供统一的 API 来屏蔽底层硬件复杂性,已成功助力 Google Meet、Epic Games 等行业领先者高效部署复杂的 AI 模型,实现实时视频处理、动画生成与语音识别等高级功能。此外,平台还提供基准测试工具并具备跨平台兼容性,能够支持 AI 应用无缝部署于移动设备、AI PC 及工业物联网硬件等多种终端。

Google产品更新端侧部署/工程

推荐理由:Google 把 LiteRT 从实验品推到生产级,统一 NPU 调用 API,做端侧 AI 的开发者终于不用逐家适配芯片了。虽然不是新概念,但 Google Meet 和 Epic Games 已经在用,说明不是 PPT。
08:00
Hugging Face:Blog(RSS)
精选57
如何在 Chrome 扩展中使用 Transformers.js

本文介绍在 Chrome 扩展中集成 Transformers.js 库的具体方法,涵盖从环境配置、模型加载到前后端通信的关键步骤。通过示例代码演示了如何利用该库在扩展中实现本地机器学习推理,同时处理扩展权限限制与安全策略。文中还对比了 Web Worker 与 Service Worker 两种部署方案,并提供了性能优化建议,帮助开发者在浏览器扩展环境中高效运行 Transformer 模型。

开源生态教程/实践端侧

推荐理由:Hugging Face 官方出的 Transformers.js 浏览器插件教程,想在 Chrome 里跑端侧推理的前端开发者可以直接抄,省掉自己踩坑的时间。
08:00
蚂蚁百灵:Developer Blog(网页)
精选67
Ling-2.6-flash 发布:更快响应、更强执行、更高 Token Efficiency

针对智能体任务中Token消耗快速增长的问题,Ling-2.6-flash模型正式发布。该模型采用混合线性架构等技术进行系统性优化,旨在实现更高推理效率和更低使用成本。其推理速度在4卡H20条件下最快可达340 tokens/s,在Artificial Analysis评测中仅消耗约对比模型1/10的Tokens。模型在多个Agent相关基准测试中达到同尺寸SOTA水平,保持了强大的任务执行与工具调用能力。

智能体模型发布部署/工程
关联讨论 2X:阿易 AI Notes (@AYi_AInotes)X:Artificial Analysis (@ArtificialAnlys)
推荐理由:蚂蚁百灵这次打的是「省 token」这张牌,104B 总参但只激活 7.4B,Agent 场景评测对齐同尺寸 SOTA,输出 token 消耗只有竞品的 1/10。做 Agent 产品、被推理成本卡脖子的团队值得认真看看这个路线。
08:00
Tomer Tunguz 博客(VC 分析)
49
商业智能的未来:从仪表盘到AI驱动的深度分析

Omni公司CEO指出,商业智能正从静态仪表盘重新扩展为AI驱动的深度分析。AI能融合结构化和非结构化数据,例如分析75页支持对话以识别代表错误并提供具体改进建议。其平台具备自动处理问题报告的能力,客户案例显示BambooHR在四个月内向三万人推出分析服务,Cribl则在三个月内整合遗留系统并快速迁移上百个仪表盘。底层统一的语义模型存储定义、逻辑与权限,支持多种分析界面。Omni近期以150亿美元估值完成1.2亿美元融资,由ICONIQ领投。

智能体现象/趋势行业动态
01:10
蚂蚁 inclusionAI:HuggingFace 新模型
51
inclusionAI/LLaDA2.0-Uni

inclusionAI团队发布了LLaDA2.0-Uni模型。该版本在统一的多模态理解与生成能力上取得显著进展,支持图像、文本、音频等多种输入与输出模态。模型参数量达到约70B,在多项基准测试中,其综合性能较前代提升超过15%。此次发布延续了通过开源与开放科学来推动人工智能民主化的核心使命。

开源/仓库模型发布端侧
00:16
Gary Marcus:The Road to AI We Can Trust(RSS)
ChatGPT 连胡须与肘部都分不清

(注:提供的正文内容仅有一句话,缺乏必要的具体信息,如研究数据、性能指标、模型版本或测试结果等,无法撰写符合 100-200 字要求且包含关键数字/指标的摘要。请提供完整正文以便提取关键信息点。)

OpenAI多模态大佬观点
4月22日
23:16
Gary Marcus:The Road to AI We Can Trust(RSS)
ChatGPT 的"强大新图像引擎"

正文内容仅包含"Regurgitating ≠ understanding"(反刍不等于理解),缺乏撰写摘要所需的完整信息,如具体发布细节、功能变化或性能指标。请提供完整文章内容以便提取关键信息并撰写符合要求的摘要。

OpenAI图像生成大佬观点