4月29日
08:57
OpenAI:官网动态(RSS · 排除企业/客户案例)
43
Our commitment to community safety

OpenAI 通过多层防护机制保障 ChatGPT 的社区安全。具体措施包括内置模型安全护栏、实时监测滥用行为、严格执行使用政策,并与外部安全专家深度合作。这些系统性防护旨在主动识别并拦截有害内容生成,同时持续优化安全策略以应对新型风险。平台强调技术防护与人工审核相结合,致力于在保持 AI 对话能力的同时维护用户安全。

OpenAI安全/对齐
08:39
Hacker News 热门(buzzing.cc 中文翻译)
67
一份优秀的 AGENTS.md 文件相当于模型的升级;而一份糟糕的文件,其效果甚至不如完全没有文档

AGENTS.md文件的质量直接影响AI代理的性能表现。一份优秀的AGENTS.md文件能像模型升级一样显著提升代理能力,而一份糟糕的文档反而会损害性能,其效果甚至不如完全没有文档。该观点源自技术社区讨论,相关文章在Hacker News上获得了100点热度,强调了为AI代理编写清晰、有效文档的重要性。

智能体教程/实践编码
06:33
Simon Willison 博客
54
引用 OpenAI Codex 基础指令

OpenAI 在其 Codex 项目的模型管理器文件中,为 GPT-5.5 设置了一条基础系统指令。该指令明确要求模型“除非与用户的查询绝对且明确相关,否则绝不要谈论地精、小妖精、浣熊、巨魔、食人魔、鸽子或其他动物或生物”。这条指令揭示了大型语言模型在系统提示词层面进行的特定内容限制与引导,是理解模型行为边界和提示工程实践的一个具体案例。

OpenAI大佬观点编码
06:09
Hacker News 热门(buzzing.cc 中文翻译)
53
OpenAI 模型即将登陆亚马逊 Bedrock:专访 OpenAI 和 AWS 首席执行官

OpenAI 与亚马逊 AWS 宣布合作,将其 AI 模型集成到 Bedrock 托管服务平台。用户可通过 AWS 直接访问 OpenAI 的先进模型,如 GPT 系列,从而简化企业部署 AI 应用的过程。此次集成提升了模型的可访问性和管理效率。在专访中,OpenAI 首席执行官 Sam Altman 和 AWS 首席执行官 Matt Garman 强调了双方在推动 AI 普及方面的合作细节,包括对 Bedrock Managed Agents 的优化,旨在为企业提供更高效的 AI 解决方案。

OpenAI大佬观点部署/工程
关联讨论 6X:Testing Catalog (@testingcatalog)IT之家(RSS)OpenAI:官网动态(RSS · 排除企业/客户案例)X:宝玉 (@dotey)The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)
03:09
Hacker News 热门(buzzing.cc 中文翻译)
46
人工智能的经济逻辑站不住脚

当前人工智能的经济逻辑面临严峻挑战。尽管AI公司投入巨大,但其商业模式难以持续,高昂的算力和能源成本与创造的实际经济价值不匹配。许多AI应用并未产生预期中的生产力爆发或显著收入增长,反而可能导致市场垄断和资源集中。行业需要重新审视AI技术的投资回报率,探索更可持续的发展路径。

现象/趋势行业动态
02:39
Hacker News 热门(buzzing.cc 中文翻译)
53
克劳德·科德编写的代码归谁所有?

克劳德·科德编写代码的所有权问题引发法律讨论,聚焦AI生成代码的归属权。文章指出,当前法律框架下此类代码的版权归属尚不明确,可能涉及用户协议、版权法更新及知识产权争议。该话题在科技社区热度高,相关文章在Hacker News上获得109 points,反映对AI技术进步中法律挑战的广泛关注。

安全/对齐现象/趋势编码
00:36
Claude:Blog(网页)
精选72
像培训新开发者一样引导Claude Code:来自17年开发的经验教训

华盛顿大学MacCoss实验室的Brendan MacLean将培训新开发者的方法论应用于Claude Code,以管理拥有70万行C#代码、持续开发17年的开源蛋白质分析软件Skyline。他通过创建独立的AI上下文仓库、编写CLAUDE.md引导文件以及设计“技能”模块(如调试技能),为Claude Code建立项目认知。该方法显著提升了开发效率:搁置一年的文件视图面板功能在两周内完成;CSS布局更新从依赖设计师变为不到一天实现。此外,Claude Code还自动化了2000多张教程图片的截图比对和每日测试报告生成,团队现在主要依靠它生成代码和脚本。

AnthropicMCP/工具教程/实践编码

推荐理由:这不是又一篇 Claude Code 安利文,而是一个维护了 17 年 70 万行 C# 代码库的人,把带新人的方法论原封不动搬给了 AI,结果真管用。做 legacy 项目的人应该认真看他的 context 管理和 skill 库设计。
4月28日
21:33
Simon Willison 博客
49
引述 Matthew Yglesias:从"氛围编程"到专业AI辅助软件开发

Matthew Yglesias 经过五个月的实践后表示,自己不再倾向于“氛围编程”,而是希望由专业软件公司利用AI编程辅助工具,开发出更多、更好、更便宜的软件产品,并以商业化形式提供给用户。这一观点反映了对AI辅助编程从个人实验性使用转向规模化、专业化生产的期待。相关讨论涉及代理工程、氛围编程和AI辅助编程等关键词。

智能体大佬观点编码
19:33
IT之家(RSS)
55
《财富》杂志提 AI 成本悖论:目前使用人工智能比雇佣人类员工更昂贵

《财富》杂志指出,当前AI应用存在成本悖论,其使用成本高于雇佣人类员工。英伟达高管证实其团队AI算力成本远超人力成本,麻省理工学院研究也显示AI仅在23%的视觉类岗位具备经济优势。尽管存在可靠性与成本问题,大型科技公司仍在持续投入,今年AI领域投资已达7400亿美元。专家分析,硬件与能源成本推高了AI运营支出,但未来随着技术发展,大语言模型的推理成本有望大幅下降。

现象/趋势行业动态
14:33
IT之家(RSS)
55
字节跳动、智谱、阿里巴巴等入选《时代》杂志 2026 全球十大最具影响力 AI 公司

《时代》杂志评选出2026年全球十大最具影响力AI公司,包括字节跳动、亚马逊、智谱、OpenAI、谷歌、Meta、Anthropic、阿里巴巴、Mistral和Hugging Face。榜单显示,字节跳动已转型为“AI优先”公司,其AI助手“豆包”周活用户突破1.55亿;智谱AI发布的开源大模型GLM-5在部分测试中超越谷歌Gemini;OpenAI以8520亿美元估值完成巨额融资,ChatGPT周活用户超9亿;阿里巴巴通义千问系列累计下载量突破10亿次;Hugging Face则作为重要的开源平台,托管了超过200万个模型。

AnthropicOpenAI现象/趋势行业动态
13:33
Simon Willison 博客
60
pip 26.1 新特性:锁文件与依赖冷却期

Python 包管理工具 pip 发布 26.1 版本,引入两项关键功能。一是新增 `pip lock` 命令,可生成记录所有依赖精确版本的锁文件(如 `pylock.toml`)。二是提供 `--uploaded-prior-to PXD` 选项以实现依赖冷却期,可强制安装指定天数前发布的旧版本包,例如使用 `P4D` 安装至少 4 天前的 LLM 版本 0.30,有助于提升供应链安全。该版本已停止对 Python 3.9 的支持。

开源生态教程/实践部署/工程
12:34
Tomer Tunguz 博客(VC 分析)
精选64
GPU现货价格六周内暴涨114%

根据Ornn Compute Price Index数据,NVIDIA B200 GPU的现货租赁价格在六周内飙升114%,从三月初的2.31美元涨至本周的4.95美元/小时。此次价格暴涨与GPT-5.5等前沿模型发布带来的需求冲击紧密相关,这些模型需要Blackwell架构提供的内存支持。与此同时,B200与上一代H200的价差从0.28美元大幅扩大至1.80美元,不同云服务商之间的报价差距也扩大了一倍以上,反映出市场供应紧张。预计夏季B200价格将维持在5美元以上,云端推理成本持续上升。

现象/趋势行业动态部署/工程

推荐理由:Tomer Tunguz 用 Ornn 真实价格指数拆出 B200 六周涨 114% 的供需逻辑,做 AI infra 选型或算力采购的人该把这张图存下来,夏天 B200 破 5 刀基本板上钉钉。
12:33
Runway:News(网页)
精选58
无闲置GPU:Runway的研究计算管理

Runway通过采用Kueue作为Kubernetes准入控制器,将GPU利用率提升超过20%,同时保障团队容量。其核心机制是为关键工作预留配额,并设立共享队列借用闲置容量,当配额所有者需要时通过抢占回收资源。该系统运行于昂贵的多租户GPU集群,支持多节点训练的拓扑感知调度和弹性工作负载。具体实现中,团队拥有专用预留队列,而默认队列作为共享机会池,可借用闲置配额运行可中断工作负载。当预留队列需资源时,Kueue基于优先级和运行时间抢占默认队列中的任务,实现资源高效管理。

教程/实践部署/工程

推荐理由:Runway 把 Kueue + Kubernetes 的 GPU 调度实战写成了保姆级工程笔记,利用率翻倍的方案和踩坑细节都有,做大规模训练集群调度的团队可以直接抄作业。
12:11
IT之家(RSS)
11
韩寒赛车电影《飞驰人生 3》定档 4 月 30 日网播,累计票房已破 44.16 亿

韩寒执导的赛车喜剧电影《飞驰人生3》将于4月30日10时在爱奇艺、优酷、腾讯视频三大平台同步开启网络首播。该片目前累计票房已突破44.16亿元,此前于3月17日以42.50亿元票房超越《复仇者联盟4:终局之战》,跻身中国影史票房榜前十。系列前两部作品《飞驰人生》和《飞驰人生2》累计票房分别为17.28亿元和33.61亿元。

其他
09:42
IT之家(RSS)
0
张雪机车 MX250 摩托车官宣 4 月 30 日发布

张雪机车宣布ZXMOTO MX250摩托车将于4月30日发布。该车干重为102公斤,最大功率30kW@12500rpm,最大扭矩27N·m@9500rpm,发动机缸径×行程为79×51mm,压缩比13.9:1。此前张雪机车产品线集中于中大排量车型,MX250是其首次进入入门级黄金排量市场。

其他
09:22
IT之家(RSS)
52
小马智行 CEO 彭军:所有的 L3 都是 L2,应以事故责任归属作为重新定义分级的标准

在2026北京车展期间,小马智行CEO彭军批评现行自动驾驶分级体系“极其无厘头”,主张以事故责任归属为核心重新定义标准。他强调,只要司机仍是事故第一责任人,无论功能多强都属辅助驾驶(L2),所谓L3本质上仍是L2;只有当车辆完全承担驾驶责任时,才是真正的自动驾驶(L4)。他明确表示“世界上不存在L3”。同时,小马智行与丰田合作研发的L4级无人驾驶Robotaxi(铂智4X)已量产下线,计划2026年在一线城市部署千台。

具身智能大佬观点现象/趋势
07:46
Simon Willison 博客
64
微软开源语音转文本模型VibeVoice简介与实测

微软于2026年1月发布开源语音转文本模型VibeVoice,采用MIT许可证并内置说话人日志功能。社区提供的4位量化MLX版本约5.71GB。实测在128GB内存的M5 Max MacBook Pro上,使用mlx-audio工具处理一段60分钟音频耗时约8分45秒,峰值内存占用达30.44GB。模型默认支持最长25分钟音频,通过调整参数可处理至多1小时音频,输出为带时间戳和说话人ID的JSON格式,便于用Datasette Lite浏览分析。

Microsoft开源/仓库教程/实践语音
06:15
Hacker News 热门(buzzing.cc 中文翻译)
56
在长达十小时的航班上离线运行本地大型语言模型

一篇技术文章分享了在长达十小时的航班上离线运行本地大型语言模型的实验。作者通过优化,成功在配备Apple Silicon芯片的笔记本电脑上运行了70亿参数的Llama 2模型。关键变化在于通过量化等技术大幅降低了模型对内存和算力的需求,使其能在无网络环境下持续工作。实验实现了约每秒5个token的生成速度,证明了在移动设备上进行实用级离线AI推理的可行性。

教程/实践端侧部署/工程
05:43
Hacker News 热门(buzzing.cc 中文翻译)
61
EvanFlow--一个用于 Claude Code 的基于 TDD 的反馈循环

EvanFlow是一个专为Claude Code设计的、基于测试驱动开发(TDD)的反馈循环工具,已在GitHub开源。该工具旨在通过TDD流程优化开发反馈循环,提升代码质量与开发效率。项目在Hacker News上获得了100点热度,显示出社区的关注。其核心是构建一个系统化的自动化测试与编码迭代流程,帮助开发者更高效地利用Claude Code进行编程。

智能体教程/实践编码
02:38
Simon Willison 博客
精选75
追踪现已失效的OpenAI与微软AGI条款演变史

微软与OpenAI的长期合作曾包含一项特殊条款:一旦实现通用人工智能(AGI),微软的商业知识产权将失效。AGI最初被模糊定义,后在2024年被具体量化为能为早期投资者产生约1000亿美元利润的系统。2025年,双方修订协议,规定AGI需经独立专家小组核实。2026年4月27日,双方宣布新合作阶段,微软对OpenAI知识产权的许可将延续至2032年(转为非独家),并停止收入分成,而OpenAI向微软的分成支付将持续至2030年且“独立于技术进展”。此举被广泛视为原有的AGI条款实质上已被废止。

MicrosoftOpenAI现象/趋势行业动态
关联讨论 4Hacker News 热门(buzzing.cc 中文翻译)X:Rohan Paul (@rohanpaul_ai)X:宝玉 (@dotey)OpenAI:官网动态(RSS · 排除企业/客户案例)
推荐理由:Simon Willison 把 OpenAI 和微软之间那个「AGI 条款」从诞生到死亡的完整时间线扒了出来,这种一手资料级别的梳理比任何分析都有说服力,关心 AI 商业格局的人值得花五分钟读完。
00:16
Gary Marcus:The Road to AI We Can Trust(RSS)
41
达里奥·阿莫代伊、炒作、AI安全与氛围编码AI灾难的爆发

AI领域的鼓吹者往往回避讨论关键风险。随着GPT、Claude、LLaMA等大型语言模型的快速迭代,行业在竞相追求参数规模与商业落地的同时,AI安全问题正以“氛围编码”的形式被系统性低估——即通过模糊的修辞淡化潜在危害。 Anthropic联合创始人达里奥·阿莫代伊等研究者多次警示,缺乏严格安全框架的AI发展可能引发连锁性灾难,包括恶意使用、社会分化与失控性风险。当前行业亟需将安全指标从抽象讨论转化为可量化的技术约束。

大佬观点安全/对齐现象/趋势
4月27日
22:28
Hugging Face:Blog(RSS)
53
如何利用OpenAI的Privacy Filter构建可扩展的Web应用

OpenAI正致力于通过开源与开放科学推动人工智能的进步与民主化。这一举措旨在降低AI技术的使用门槛,促进更广泛的创新与合作。其Privacy Filter工具为开发者提供了构建可扩展Web应用的关键支持,帮助在保障用户数据隐私的同时,高效集成AI能力。这一方向强调了技术开放性与负责任开发并重的理念。

OpenAI教程/实践部署/工程
22:27
The Decoder:AI News(RSS)
40
Sam Altman 概述五大原则,同时为 OpenAI 的商业决策提供依据

OpenAI CEO Sam Altman 提出了指导公司未来工作的五大原则。这些原则也为其非常规的商业决策提供了理由,例如与微软的深度合作、暂缓开源核心模型以及追求 AGI 的长期目标。这些原则旨在平衡技术发展、安全要求与商业可持续性,为公司战略方向提供公开解释框架。

OpenAI大佬观点行业动态
22:26
Hacker News 热门(buzzing.cc 中文翻译)
50
法国的Mistral公司凭借"非美国"这一身份,打造了价值140亿美元的人工智能帝国

法国人工智能公司Mistral以“非美国”身份为核心战略,在全球AI竞争中脱颖而出,成功构建了一个价值140亿美元的帝国。公司凭借欧洲背景和市场定位,专注于数据隐私和监管合规优势,与美国科技巨头形成差异化竞争,从而吸引投资并实现快速增长,成为AI领域的重要力量。这一案例凸显了身份差异化在科技行业中的关键作用。

开源生态现象/趋势行业动态
22:22
Dwarkesh Patel:Podcast & Blog(RSS)
42
周末随想--更多开放性问题、智能与权力、科学验证难题、达尔文主义的并行发现

作者围绕多个开放性问题展开探讨,包括人工智能领域中智能与权力的本质区别及其对社会结构的潜在影响。科学验证机制面临的可靠性危机被提及,尤其是在复杂系统研究中。同时,文章指出达尔文进化论的核心概念曾出现多地域独立发现的现象,这引发了对知识创造与传播模式的思考。这些议题共同指向技术发展背后更深层的认知与伦理挑战。

大佬观点现象/趋势
22:22
IT之家(RSS)
37
英伟达 CEO 黄仁勋呼吁:亿万富翁"同行"们,不要离开加州

尽管加州正推动对全美千余名亿万富翁征收5%年度财富税的提案,可能导致其个人面临约80亿美元税负,英伟达CEO黄仁勋仍公开呼吁企业领导者留在加州。他在斯坦福商学院表示,加州虽税负高,但拥有核心人才优势,这是企业发展的关键。同时,他反驳了“AI会摧毁工作”的观点,认为技术改变工作性质而非消除工作,并以自身工作虽依赖已被AI自动化的“打字和说话”,却比以往更忙为例进行说明。

大佬观点行业动态
21:22
Google Blog:AI(RSS)
50
加入 Google 与 Kaggle 的全新 AI Agents Vibe Coding 课程

Google 与 Kaggle 再度推出为期 5 天的 AI Agents 强化课程,现已开放注册。该课程旨在教授开发者如何构建和部署 AI 智能体,内容涵盖从基础概念到实际应用。课程形式为短期集中学习,参与者将通过 Kaggle 平台进行实践。

智能体Google教程/实践
21:20
IT之家(RSS)
55
谷歌"独霸一方":截至 2025 年 Q4 掌握全球近 1/4 的 AI 算力

根据 Epoch AI 机构基于 AI Chip Owners 数据库的估算,截至 2025 年第四季度,谷歌凭借其大规模部署的自研 TPU 芯片,成为全球最大的单一 AI 算力持有者,掌握了全球累计 AI 算力的大约四分之一,其规模超过了微软、Meta 和亚马逊。该统计覆盖了英伟达、AMD、谷歌、亚马逊及华为的主要 AI 芯片,据信已涵盖全球绝大多数专用 AI 算力。微软与 Meta 的自研芯片虽未纳入此次统计,但对整体估算影响甚微。

Google现象/趋势部署/工程
18:20
IT之家(RSS)
43
脉脉 CEO 林凡谈 ChatGPT Images2.0:感觉整个互联网内容信任崩塌了,但实名社交迎来黎明

脉脉CEO林凡针对ChatGPT Images 2.0生图工具发表看法,认为该技术可能导致互联网内容信任崩塌,但实名社交将迎来发展机遇。该工具于4月21日发布,基于GPT Image 2模型,核心升级是引入“思考能力”。用户仅需简单提示词即可生成高度逼真的宣传图像,文字和人物元素极少出现传统AI生图的穿帮痕迹,引发了广泛讨论。

图像生成大佬观点现象/趋势
15:19
IT之家(RSS)
40
何小鹏:部分复杂路况下 VLA 已胜过特斯拉 FSD,8 月力争全面反超

小鹏汽车CEO何小鹏在北京车展宣布,其VLA智驾系统已在城市支路、乡村道路及复杂穿行路段等特定场景下超越特斯拉FSD,通行效率和纵向控制如跟车、应对加塞表现更优。他设定明确目标,计划在2026年8月于中国市场实现VLA综合能力全面反超FSD。何小鹏指出,VLA在横向路径规划和极端掉头场景仍有优化空间,但中国高密度道路环境是权威验证场域,若成功超越将标志技术领先。

智能体多模态大佬观点
14:19
IT之家(RSS)
44
印度医学生用 AI 生成"MAGA 女孩"诈骗美国男性,月入数千美元

一名印度医学生利用谷歌Gemini生成名为Emily Hart的AI虚拟形象,针对美国保守派男性群体运营社交媒体账号。该角色以护士身份发布亲基督教、反移民等MAGA倾向内容,单条短视频播放量高达数百万,一个月内粉丝破万。通过销售订阅内容及主题T恤,其月收入达数千美元。此类政见导向的AI虚拟账号正大量涌现,而平台对AI内容标识监管松散。该账号已于今年2月因“欺诈行为”被Instagram封禁。

Google图像生成现象/趋势
10:18
IT之家(RSS)
63
奥尔特曼宣布 OpenAI 五大原则:确保 AGI 惠及全人类,反对技术权力集中在少数人手中

OpenAI CEO萨姆·奥尔特曼公布公司五大核心原则,旨在确保通用人工智能惠及全人类,反对技术权力集中在少数人手中。五大原则包括:民主化,即AI关键决策需通过民主程序制定;赋能,让AI帮助每个人实现目标并最小化伤害;普惠繁荣,通过易用AI系统提升生活质量;韧性,协同应对生物安全等新风险;适应性,根据新知识持续调整策略。OpenAI强调将采用迭代部署策略,与政府、社会等多方合作,推动AI安全发展。

OpenAI大佬观点安全/对齐
10:18
IT之家(RSS)
66
Gartner 预测:全球数据中心系统支出将连续 2 年增长 50+%

高德纳预测,2026年全球数据中心系统支出将达7879.9亿美元,连续第二年增速超过50%。同期,全球整体IT支出预计为6.31655万亿美元,同比增长13.5%,较今年2月的预测上调了2.7个百分点。增长主要由人工智能基础设施和先进存储需求驱动,AI工作负载的扩展推高了高性能计算及相关处理器、加速器的投资,并使高带宽内存等领域利润显著提升。

数据/训练现象/趋势部署/工程
08:00
OpenRouter:Announcements(RSS)
精选57
Opus 4.7新分词器对成本的实际影响

Anthropic在Claude Opus 4.7版本中更新了分词器。通过对比4.6到4.7版本的实际使用数据,分析发现这一技术调整改变了文本转换为令牌的方式,直接影响API计价。相同的文本输入可能产生不同数量的令牌,从而导致用户的实际使用成本发生可量化的变化。这一调整虽不改变模型能力,但关乎运营开销,是开发者和企业用户需评估的关键因素。

Anthropic评测/基准部署/工程

推荐理由:Opus 4.7 换了 tokenizer,大多数人只知道模型变强了,不知道计费逻辑也变了。OpenRouter 用真实流量数据算了一笔账,做成本预算的产品人值得扫一眼。
07:15
OpenAI:官网动态(RSS · 排除企业/客户案例)
46
Our Principles

OpenAI 联合创始人 Sam Altman 阐述了指导公司工作的五项核心原则。这些原则围绕确保 AGI(通用人工智能)惠及全人类的使命展开,具体包括:致力于开发安全有益的 AGI;持续推动前沿技术研究;广泛共享研究成果与收益;积极与全球政策制定者合作应对风险;以及确保 AGI 的发展不被过度商业化垄断,最终服务于人类的整体福祉。

OpenAI大佬观点
05:54
Hacker News 热门(buzzing.cc 中文翻译)
43
人工智能应当提升你的思维水平,而非取代它

本文强调人工智能应作为提升人类思维能力的工具,而非替代品。作者主张将AI定位为“思维伙伴”,用于拓展认知边界、激发创意和辅助决策,避免被动依赖其生成结果。当前部分用户过度依赖AI直接输出答案,导致批判性思维和深度学习能力下降。理想的人机协作模式是用户保持主导,利用AI处理信息、提出反诘、探索多元视角,最终由人类进行综合判断。这一观点在Hacker News论坛获得114点支持,引发了人们对AI工具使用方式的反思。

大佬观点现象/趋势
03:54
Hacker News 热门(buzzing.cc 中文翻译)
66
一个人工智能代理删除了我们的生产数据库。该代理的供词如下:

一名AI代理意外删除了生产数据库。该代理在供述中解释,其本意是执行一项维护任务,但因权限配置错误和指令理解偏差,错误地执行了删除操作。事件导致服务中断数小时,影响了大量用户数据。这一事故凸显了当前AI系统在复杂环境中自主操作时,仍存在明显的安全风险与可靠性问题,引发了关于AI代理权限管理和操作监督的广泛讨论。

智能体安全/对齐现象/趋势
01:54
Hacker News 热门(buzzing.cc 中文翻译)
精选71
为什么 SWE-bench Verified 不再衡量前沿编码能力

OpenAI宣布停止使用SWE-bench Verified基准评估前沿编码能力。该基准基于GitHub历史问题构建,其任务分布已无法准确反映当前AI编码助手需解决的实际问题类型。随着模型性能提升,基准测试集趋于饱和,区分度下降,现有模型表现已接近人类水平。因此,团队将转向更具挑战性和现实复杂度的新评估方法。

OpenAI大佬观点编码评测/基准

推荐理由:OpenAI 亲自给 SWE-bench Verified 判了死刑,这比任何第三方评测都有说服力。做 coding agent 选型的人该认真想想,你的 benchmark 体系是不是也该换了。
4月26日
18:22
The Decoder:AI News(RSS)
69
OpenAI 表示旧提示词拖累 GPT-5.5,开发者需要新基准

OpenAI 指出,为 GPT-5.5 沿用旧提示词会阻碍模型性能,开发者应摒弃过往模式,从零开始、最小化设计提示词以建立全新基准。角色定义重新成为框架的前沿核心,此前它曾被部分开发者视为不必要,现在则被强调为优化交互的关键。这一调整旨在帮助开发者更有效地利用 GPT-5.5 的先进能力,提升应用效果。

OpenAI教程/实践编码
关联讨论 2The Decoder:AI News(RSS)Simon Willison 博客
17:22
The Decoder:AI News(RSS)
61
500名投资银行家评审AI输出,发现无一可交付客户

一项新基准测试让GPT-5.4和Claude Opus 4.6等顶级模型处理初级投资银行家的日常任务。评审结果显示,没有任何一个AI输出被评定为可直接交付客户,其内容存在不精确或完全错误的问题。尽管如此,超过半数的银行家表示,他们会将AI输出作为工作的起点。

智能体现象/趋势评测/基准