5月8日
11:22
歸藏(guizang.ai)@op7418
精选73
Codex 越来越猛了,昨天更新增加了内置的谷歌浏览器插件,可以直接控制你的谷歌浏览器执行任务。

Codex最新更新引入了内置谷歌浏览器插件,能直接控制基于Chromium的浏览器(如Chrome或Dia)执行任务。该插件支持后台跨浏览器页面并行工作,不干扰正常浏览;用户可启动多个SubAgent同时操作多个网页,实现高效并发。根据OpenAI官方信息,Codex现直接在macOS和Windows的Chrome中运行,能更好地与应用和网站交互,并在后台跨标签页并行处理任务,不接管浏览器。安装方法简单:在Codex插件库找到Chrome插件,点击添加并安装即可。安装后,用户可无缝下达指令,享受流畅的多任务操作体验。

智能体OpenAI产品更新编码
关联讨论 9X:OpenAI (@OpenAI)X:OpenAI Developers (@OpenAIDevs)X:Testing Catalog (@testingcatalog)X:宝玉 (@dotey)X:Berry Xia (@berryxia)X:Greg Brockman (@gdb)X:Tibo (@thsottiaux)IT之家(RSS)X:Vista (@vista8)
推荐理由:Codex 这次更新的精髓是并行控制浏览器 Tab,不抢鼠标不弹窗,后台就能帮你填表、搜信息,自动化体验又拉高了一截。
11:05
Eric@ericmitchellai
精选85
OpenAI在API中正式推出GPT-Realtime-2,这是其迄今为止最智能的语音模型,为语音智能体引入了GPT-5级别的推理能力。该模型使语音智能体能够成为实时协作者,在对话展开过程中聆听、推理并解决复杂问题。同时发布的还有流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper,共同构成了一套面向下一代语音界面的全新音频能力组合。
OpenAI推理模型发布语音
关联讨论 12OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI Developers (@OpenAIDevs)X:宝玉 (@dotey)X:OpenAI (@OpenAI)X:Testing Catalog (@testingcatalog)X:Kim (@kimmonismus)X:Greg Brockman (@gdb)X:Sam Altman (@sama)The Decoder:AI News(RSS)X:Artificial Analysis (@ArtificialAnlys)X:Berry Xia (@berryxia)IT之家(RSS)
推荐理由:OpenAI首次把GPT-5级推理塞进实时语音模型,音频原生智能不再是demo玩具,做语音agent的团队今天就可以在API里调用。
10:09
meng shao@shao__meng
精选71
Codex现可直接在Chrome中运行 Codex Chrome插件 + Chrome Codex扩展程序 https://developers.openai.com/codex/app/chrome-extension
智能体OpenAI产品更新
关联讨论 9X:OpenAI (@OpenAI)X:OpenAI Developers (@OpenAIDevs)X:Testing Catalog (@testingcatalog)X:宝玉 (@dotey)X:Berry Xia (@berryxia)X:Greg Brockman (@gdb)X:Tibo (@thsottiaux)IT之家(RSS)X:Vista (@vista8)
推荐理由:Codex 终于能在 Chrome 后台悄悄干活了,不用再占着整个浏览器,对用 Codex 的开发者是实用更新,刚好可以试试。
09:44
小互@xiaohu
精选73
OpenAI发布Codex for Chrome扩展,可操作已登录网站

OpenAI推出Chrome浏览器扩展“Codex for Chrome”,该工具能利用用户当前的浏览器登录状态,直接操作需账号访问的后台、CRM等受保护页面执行任务,无需额外提供密码。扩展在独立标签组中运行,不影响用户当前浏览,并在执行提交、下载等敏感操作前请求用户确认。典型应用包括跨网站查询信息、预填表单、读取仪表板并生成摘要等。

智能体MCP/工具OpenAI产品更新
关联讨论 9X:OpenAI (@OpenAI)X:OpenAI Developers (@OpenAIDevs)X:Testing Catalog (@testingcatalog)X:宝玉 (@dotey)X:Berry Xia (@berryxia)X:Greg Brockman (@gdb)X:Tibo (@thsottiaux)IT之家(RSS)X:Vista (@vista8)
推荐理由:Codex这个扩展把AI从‘给你代码’推进到‘替你操作网页’,关键是用你已登录的Chrome,内部系统、后台都能直接干,Agent落地的最后一公里被踩平了一大截。
09:43
Tibo@thsottiaux
精选83
我们正在众目睽睽之下构建通用人工智能 【引用 @OpenAI】:在API中推出GPT-Realtime-2:这是我们迄今为止最智能的语音模型,为语音代理带来GPT-5级别的推理能力。 语音代理现已成为实时协作者,能够在对话展开时倾听、推理并解决复杂问题。 现已与流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper一同在API中提供--为新一代语音界面带来全新的音频能力。
智能体OpenAI推理模型发布
关联讨论 12OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI Developers (@OpenAIDevs)X:宝玉 (@dotey)X:OpenAI (@OpenAI)X:Testing Catalog (@testingcatalog)X:Kim (@kimmonismus)X:Greg Brockman (@gdb)X:Sam Altman (@sama)The Decoder:AI News(RSS)X:Artificial Analysis (@ArtificialAnlys)X:Berry Xia (@berryxia)IT之家(RSS)
推荐理由:GPT-5 级推理放到实时语音里,语音代理从听懂话到真正协作的分水岭,做语音产品的都该立刻试一下。
09:39
meng shao@shao__meng
64
Claude Code 开发者谈AI时代技术写作的核心:深耕经验,善用工具

Claude Code开发者Thariq认为,高质量技术文章的基础在于深入具体的工作经验,而非写作技巧。他提出“先深耕,后叙事”的两步法:长期研究积累独特细节,再将经验转化为对读者有用的故事。有效方法包括注重长期积累、分享经验而非单纯描述项目、披露失败尝试的价值、使用简洁语言及提供真正有价值的实施细节。对于AI写作,他肯定其在研究、图表生成等方面的辅助作用,但强调人的叙事判断不可替代——AI能整理信息,却难以决定“读者此刻最需要理解什么”,这使得在AI辅助下人的判断反而更加关键。

Anthropic大佬观点教程/实践编码
09:22
09:21
Berryxia.AI@berryxia
50
推荐XCrawl与AI工具组合提升工作效率

用户推荐结合XCrawl和AI工具处理日常任务,每天仅用5分钟查看邮件,XCrawl在24小时内快速抓取网站信息执行任务。该组合显著提升效率,尤其适用于制作调研报告,能节省类似GPT服务的Credit消耗,免费额度可用较久,并对服务商盈利模式表示好奇。

MCP/工具教程/实践
08:21
08:21
Berryxia.AI@berryxia
59
重构代码成AI终极考验,Scale AI发布SWE Atlas最终榜单

Scale AI发布SWE Atlas最终榜单“Refactoring”,专门测试AI agent大规模重构代码而不破坏系统的能力。任务难度顶尖,代码改动量远超以往基准。Claude Opus 4.7配合Claude Code夺得第一。结果显示,即使前沿模型也常在重构时留下死代码、残留垃圾或漏掉调用点。国产模型中GLM-5排名最高(第8位),其次是Kimi和Minmax。榜单揭示核心挑战:写新功能容易,但干净优雅地重构老代码难十倍,真正顶级的agent需具备强大的“修代码”能力。

Anthropic编码评测/基准
08:21
Berryxia.AI@berryxia
63
OpenAI音频模型超越Google,AI竞争格局瞬息万变

在ScaleAILabs的音频多挑战榜单中,OpenAI新发布的GPT-Realtime-2超越Google的gemini-3.1-flash-live,位居榜首。其指令保持能力较前代大幅提升,从36.7%增至70.8% APR,并在实时语音编辑方面表现突出,这对语音代理应用至关重要。尽管Google此前在图像模型和Gemini 3.1等产品上有过亮眼表现,但评论认为其在当前激烈的AI竞争中尚未展现出决定性的“杀手锏”。市场格局变化迅速,没有永远的赢家,期待Google能尽快推出突破性产品。

GoogleOpenAI现象/趋势语音
08:21
Berryxia.AI@berryxia
60
Anthropic公开漏洞赏金计划,邀请全球黑客助力安全

Anthropic将其安全漏洞赏金计划从私下运行转为在HackerOne平台完全公开。此前该计划仅限于安全研究社区,其发现已有效提升了产品安全性。现在,任何人都可以提交漏洞报告并获得奖励。这一举措为安全研究员提供了一个重要的新目标,同时也意味着Anthropic产品的安全性将通过全球社区的参与得到进一步加强。

Anthropic安全/对齐行业动态
08:09
meng shao@shao__meng
精选79
OpenAI 为官方 REST API 发布 CLI 工具

OpenAI 发布了官方 REST API 的命令行界面工具(CLI),将平台端点映射为 `openai <资源> <命令>` 的子命令,便于在 Shell 脚本、CI/CD 及运维场景中直接调用。该工具旨在替代 `curl` 与 `jq` 的组合,简化对 Admin API(如用量、项目管理)的操作,并支持通过 `--format explore` 快速探索新端点。开发者可通过 CLI 调用所有云端工具(包括图像生成、转录等),获得 Unix 风格的结构化输出,同时管理项目和配置 API 密钥。该项目目前处于早期阶段,更多文档即将发布。

OpenAI产品更新部署/工程
关联讨论 1X:宝玉 (@dotey)
推荐理由:OpenAI 官方出了 CLI,把所有 REST 端点映射成子命令,以后 shell 脚本里调 API 不用再写 curl+jq 胶水了,做 CI/CD 和运维的可以直接用。
08:09
meng shao@shao__meng
60
Lee Robinson 为 Cursor 招募开发者关系工程师,引领未来软件工程教育

Lee Robinson 为其领导的 Cursor 开发者关系团队招募一名直接汇报的工程师。该职位核心在于教育开发者使用 Cursor 的 API、SDK 等工具,并探索 AI 与编程智能体的边界。工作横跨市场、产品和工程团队,base 旧金山或纽约优先,优秀候选人可远程并配合出差。理想人选需是技术扎实的工程师,对开发者营销有深刻见解,深度使用 Cursor 等编程智能体,理解开发者文化与网络潮流,同时具备优秀的写作能力、创造力和对文档质量的高要求。团队寻找热爱探索 AI 与编程智能体极限,并乐于学习、构建与分享的伙伴。

智能体编码行业动态
08:06
Rohan Paul@rohanpaul_ai
精选78
atomic.chat为LLaMA.cpp引入多令牌预测技术,显著加速本地模型推理

atomic.chat通过为LLaMA.cpp引入多令牌预测技术,大幅提升了本地大型语言模型的推理效率。该技术利用小型辅助模型预先生成后续令牌草案,由主模型进行验证。在MacBook Pro M5 Max上测试时,使Gemma 4 26B模型的令牌生成速度加快约40%,整体运行速度提升1.5倍。这项优化进一步巩固了LLaMA.cpp和GGUF格式在本地AI生态中的核心地位,为桌面应用、编程助手和私有设备助手等场景提供了更高效的部署方案。

开源/仓库推理教程/实践端侧

推荐理由:在笔记本上把 Gemma 26B 的生成速度拉高 40% 是个真实的体验提升,atomic.chat 把 MTP 带入 LLaMA.cpp 生态,本地 AI 玩家可以直接拿去用。
08:06
07:43
07:39
meng shao@shao__meng
精选80
OpenAI 发布三款实时语音新模型,推动语音交互向任务执行演进

OpenAI 在 Realtime API 中推出三款新模型,将实时语音交互升级为可执行任务的界面。核心模型 GPT-Realtime-2 具备 GPT-5 级别的推理能力,支持边听边思考、并行调用工具并完成任务,关键升级包括前置语、128K上下文窗口和可控推理强度。搭配的 GPT-Realtime-Translate 支持70多种语言实时互译,GPT-Realtime-Whisper 提供低延迟流式转录。这些模型共同支持语音驱动行动、系统主动播报和跨语言对话三种应用范式,旨在构建下一代语音协作智能体。

智能体OpenAI多模态推理
关联讨论 12OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI Developers (@OpenAIDevs)X:宝玉 (@dotey)X:OpenAI (@OpenAI)X:Testing Catalog (@testingcatalog)X:Kim (@kimmonismus)X:Greg Brockman (@gdb)X:Sam Altman (@sama)The Decoder:AI News(RSS)X:Artificial Analysis (@ArtificialAnlys)X:Berry Xia (@berryxia)IT之家(RSS)
推荐理由:GPT-5级推理首次进入实时语音API,语音agent从此能边听边推理边调工具,不再只是问答。Zillow呼叫成功率从69%拉到95%,做语音产品的该认真看看了。
07:36
OpenAI Developers@OpenAIDevs
精选76
正在用GPT-Realtime-2构建语音应用? 我们的新提示指南涵盖如何调整推理强度、使用前导说明、设计工具行为、处理不清晰音频、准确捕获实体,以及在长会话中保持状态。 https://developers.openai.com/api/docs/guides/realtime-models-prompting?realtime-model=gpt-realtime-2
OpenAI推理教程/实践语音

推荐理由:官方出了 Realtime-2 的提示工程指南,从调参到工具调用都给了清晰路径,做语音产品的同学值得认真翻一遍,能省几周摸索时间。
07:35
Orange AI@oran_ge
53
跳出系统:更广阔的视角带来解决方案

本文通过多个案例阐述跳出原有系统或思维框架的重要性。从Claude转向GPT和Codex获得更好体验,用Gemini解决多模态难题,到重新思考买房目的而非细节,均显示换用更广视角能轻松化解原有困局。产品领域,Agent可能简化复杂SaaS;追觅割草机通过“做加法”定价成功。团队管理应聚焦成功本质,企业AI转型需审视未来存在性。引用《无穷的开始》和GEB指出,好的解释需更广理论覆盖原问题,系统自指导致不完备性,必须跳出才能突破。最终,视野开阔后,解决方案自然显现。

智能体AnthropicOpenAI多模态
07:21
Berryxia.AI@berryxia
65
SuperSplat将3D高斯泼溅变为大众创作平台

SuperSplat项目将3D Gaussian Splatting技术转化为大众可用的创作与分发平台。其核心功能是允许创作者一键开启文件下载,观众可直接获取Gaussian splat文件。平台支持附加多种CC 4.0许可证并自动生成署名,个人页面可集成社交链接,成为3D作品集。下载的文件能直接导入PlayCanvas引擎快速创建交互体验。该项目免费开源,旨在降低技术门槛,推动3DGS从实验室走向普通创作者的实际应用。

产品更新多模态开源/仓库
07:21
Berryxia.AI@berryxia
69
Cursor 3 推出全新一站式 PR 审阅体验

Cursor 3 推出了全新的 PR 审阅体验,旨在提供从创建到合并的一站式解决方案。用户可以在一个界面中查看评论、代码差异、提交记录和审阅状态,从而全面了解变更内容和后续步骤。新功能还引入了文件树和变更选择器,帮助开发者更高效地浏览和审查大型 PR,提升代码审查效率。

产品更新编码
07:21
Berryxia.AI@berryxia
63
顶级程序员已不亲手写代码?AI时代开发者角色转变

Anthropic Claude Code负责人透露,近半年他未亲手写代码,仅通过自然语言指令指挥AI完成开发全流程。其职责从编码转变为指挥AI团队,重点在于制定方向、质量把关和关键决策。未来工程师的核心竞争力将体现在高效管理和协同多个AI工具的能力上。

智能体Anthropic大佬观点编码