在ScaleAILabs的音频多挑战榜单中,OpenAI新发布的GPT-Realtime-2超越Google的gemini-3.1-flash-live,位居榜首。其指令保持能力较前代大幅提升,从36.7%增至70.8% APR,并在实时语音编辑方面表现突出,这对语音代理应用至关重要。尽管Google此前在图像模型和Gemini 3.1等产品上有过亮眼表现,但评论认为其在当前激烈的AI竞争中尚未展现出决定性的“杀手锏”。市场格局变化迅速,没有永远的赢家,期待Google能尽快推出突破性产品。
Anthropic将其安全漏洞赏金计划从私下运行转为在HackerOne平台完全公开。此前该计划仅限于安全研究社区,其发现已有效提升了产品安全性。现在,任何人都可以提交漏洞报告并获得奖励。这一举措为安全研究员提供了一个重要的新目标,同时也意味着Anthropic产品的安全性将通过全球社区的参与得到进一步加强。
央视曝光宣称能“边行驶边充电”的电动自行车增程器存在安全隐患且无效。中国车企正加速布局加拿大电动汽车市场,比亚迪、吉利、奇瑞等瞄准每年4.9万辆的进口配额。鸿蒙智行智界V9将于5月15日上市,预售价39.98万元起。比亚迪大唐EV预售订单已突破10万台。理想设计团队否认MEGA设计失败,其CEO李想呼吁行业共同推广5C增程技术以缓解充电压力。此外,消息称苹果本月或将完成iPhone 18 Pro系列的OLED面板审批。
OpenAI与博通联合研发AI芯片项目“Nexus”陷入僵局。博通要求微软承诺采购首批芯片约40%的产能,才愿为首期建设出资。项目首期需1.3吉瓦算力,成本约180亿美元;总规模达10吉瓦,旨在2030年前上线以减少对英伟达依赖。OpenAI视自研芯片为降低运营成本关键,但微软尚未同意采购。若微软采购未达标,OpenAI需自行寻找其他买家。此前OpenAI与英伟达的类似千亿美元合作也已无果。
据报道,iOS 27系统将对Siri进行彻底重构,其底层将基于谷歌Gemini构建,交互模式将从指令式转变为类似ChatGPT的对话模式。新版Siri将与备忘录应用深度整合,用户可通过“把这个加到新备忘录”等语音指令,直接将AI生成的内容自动、完整地保存至备忘录,解决手动复制粘贴导致的流程繁琐和格式错乱问题。此外,Siri还能利用大语言模型能力,高效梳理信息并创建特定主题的备忘录。
OpenAI 发布了官方 REST API 的命令行界面工具(CLI),将平台端点映射为 `openai <资源> <命令>` 的子命令,便于在 Shell 脚本、CI/CD 及运维场景中直接调用。该工具旨在替代 `curl` 与 `jq` 的组合,简化对 Admin API(如用量、项目管理)的操作,并支持通过 `--format explore` 快速探索新端点。开发者可通过 CLI 调用所有云端工具(包括图像生成、转录等),获得 Unix 风格的结构化输出,同时管理项目和配置 API 密钥。该项目目前处于早期阶段,更多文档即将发布。
Lee Robinson 为其领导的 Cursor 开发者关系团队招募一名直接汇报的工程师。该职位核心在于教育开发者使用 Cursor 的 API、SDK 等工具,并探索 AI 与编程智能体的边界。工作横跨市场、产品和工程团队,base 旧金山或纽约优先,优秀候选人可远程并配合出差。理想人选需是技术扎实的工程师,对开发者营销有深刻见解,深度使用 Cursor 等编程智能体,理解开发者文化与网络潮流,同时具备优秀的写作能力、创造力和对文档质量的高要求。团队寻找热爱探索 AI 与编程智能体极限,并乐于学习、构建与分享的伙伴。
atomic.chat通过为LLaMA.cpp引入多令牌预测技术,大幅提升了本地大型语言模型的推理效率。该技术利用小型辅助模型预先生成后续令牌草案,由主模型进行验证。在MacBook Pro M5 Max上测试时,使Gemma 4 26B模型的令牌生成速度加快约40%,整体运行速度提升1.5倍。这项优化进一步巩固了LLaMA.cpp和GGUF格式在本地AI生态中的核心地位,为桌面应用、编程助手和私有设备助手等场景提供了更高效的部署方案。
Simplex 通过整合 ChatGPT Enterprise 和 Codex 来提升软件开发效率。该方案显著缩短了软件设计、构建和测试所需的时间,同时实现了 AI 驱动工作流程的规模化应用。这一变革旨在优化开发周期,利用先进的语言模型技术加速产品交付。
OpenAI 在 Realtime API 中推出三款新模型,将实时语音交互升级为可执行任务的界面。核心模型 GPT-Realtime-2 具备 GPT-5 级别的推理能力,支持边听边思考、并行调用工具并完成任务,关键升级包括前置语、128K上下文窗口和可控推理强度。搭配的 GPT-Realtime-Translate 支持70多种语言实时互译,GPT-Realtime-Whisper 提供低延迟流式转录。这些模型共同支持语音驱动行动、系统主动播报和跨语言对话三种应用范式,旨在构建下一代语音协作智能体。
关联讨论 13 条OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI Developers (@OpenAIDevs)X:宝玉 (@dotey)X:OpenAI (@OpenAI)X:Testing Catalog (@testingcatalog)X:Kim (@kimmonismus)X:Greg Brockman (@gdb)X:Sam Altman (@sama)The Decoder:AI News(RSS)X:Artificial Analysis (@ArtificialAnlys)IT之家(RSS)X:Tibo (@thsottiaux)X:Eric Mitchell (@ericmitchellai)本文通过多个案例阐述跳出原有系统或思维框架的重要性。从Claude转向GPT和Codex获得更好体验,用Gemini解决多模态难题,到重新思考买房目的而非细节,均显示换用更广视角能轻松化解原有困局。产品领域,Agent可能简化复杂SaaS;追觅割草机通过“做加法”定价成功。团队管理应聚焦成功本质,企业AI转型需审视未来存在性。引用《无穷的开始》和GEB指出,好的解释需更广理论覆盖原问题,系统自指导致不完备性,必须跳出才能突破。最终,视野开阔后,解决方案自然显现。
GitHub 发现运行于每个拉取请求的智能体工作流会累积高昂的 API 成本。团队通过监测自身生产工作流,定位了效率低下的环节,并构建了专门的智能体进行优化。这一举措旨在显著降低由大语言模型调用产生的 Token 消耗与相关费用,直接提升了工作流的经济性与运行效率。
SuperSplat项目将3D Gaussian Splatting技术转化为大众可用的创作与分发平台。其核心功能是允许创作者一键开启文件下载,观众可直接获取Gaussian splat文件。平台支持附加多种CC 4.0许可证并自动生成署名,个人页面可集成社交链接,成为3D作品集。下载的文件能直接导入PlayCanvas引擎快速创建交互体验。该项目免费开源,旨在降低技术门槛,推动3DGS从实验室走向普通创作者的实际应用。
Cursor 3 推出了全新的 PR 审阅体验,旨在提供从创建到合并的一站式解决方案。用户可以在一个界面中查看评论、代码差异、提交记录和审阅状态,从而全面了解变更内容和后续步骤。新功能还引入了文件树和变更选择器,帮助开发者更高效地浏览和审查大型 PR,提升代码审查效率。
Anthropic Claude Code负责人透露,近半年他未亲手写代码,仅通过自然语言指令指挥AI完成开发全流程。其职责从编码转变为指挥AI团队,重点在于制定方向、质量把关和关键决策。未来工程师的核心竞争力将体现在高效管理和协同多个AI工具的能力上。
Goodfire AI提出“神经几何”概念,揭示神经网络内部并非离散特征,而是由丰富、弯曲的几何结构构成。例如,星期几在激活空间中呈现为圆形流形,“mountain car”世界模型中的位置则编码为弯曲路径。沿这些几何结构操作能实现连贯、可控的模型行为,而传统线性插值会导致输出混乱。该研究将其视为理解、调试和精准控制AI模型的关键前沿,并指出当前流行的SAE方法因碎片化处理而难以捕捉整体语义。相关系列研究已开始发布。
OpenAI为ChatGPT推出“可信联系人”功能,以应对对话中的自残风险。当系统检测到成年用户对话涉及相关内容时,会鼓励用户联系他人,并自动向其预设的联系人发送简短的电子邮件、短信或推送通知提醒,以促进沟通。通知不包含具体对话细节以保护隐私。该功能采用自动审核与人工复核结合,触发提醒的对话会交由人工安全团队处理,官方承诺对此类通知进行人工审核并力求在一小时内完成。此前,OpenAI曾因被指控鼓励用户自杀而面临诉讼。
据报道,苹果内置摄像头的AirPods已进入设计验证测试(DVT)阶段,最快有望于今年9月作为其首款AI可穿戴设备发布。该产品左右耳机配备低分辨率摄像头,用于捕捉环境视觉信息,以支持升级版Siri实现视觉问答等功能。其整体外观类似AirPods Pro 3,但耳机柄因容纳摄像头而加长。产品原计划2026年发布,因Siri升级延迟而推迟,此次升级得益于与谷歌Gemini的技术合作。苹果还在探索其导航提醒等用途,并为缓解隐私担忧内置了数据上传指示灯。
据彭博社记者马克·古尔曼爆料,苹果正在开发两款智能穿戴设备。一款是尺寸类似AirTag的吊坠配件,可夹在衣物或作为项链佩戴,配备常开摄像头和麦克风,依赖连接iPhone及iOS 27版Siri进行语音交互与数据处理,无屏幕和投影仪,项目仍处早期,可能于2027年发布。另一款是计划在2026年底或2027年初推出的智能眼镜,内置摄像头、扬声器和麦克风,支持拍照、通话及Siri通知,并与Apple Intelligence整合优化导航等功能,采用自主设计的塑料镜框,但第一代不配备AR显示功能。
OpenAI 在 GitHub 开源了官方命令行工具 openai-cli,采用 Apache 2.0 协议,支持通过 Homebrew 或 Go 安装。该工具允许开发者直接在终端调用 OpenAI API,无需编写 SDK 代码。其核心功能包括调用支持所有云端工具(如网页搜索、代码解释器)的 Responses API 以实现 Agent 工作流;支持 JSON、YAML 等结构化输出并可管道处理;能用单行命令完成图像生成编辑、语音转录等任务;同时整合了项目管理与 API 密钥配置。工具采用资源化命令结构,旨在弥补官方此前仅提供语言 SDK 的不足,便于集成到自动化流程和服务器端环境中。
Anthropic通过自然语言自编码器技术,将Claude模型内部的数字激活状态直接翻译为人类可读的自然语言解释。这使研究者能直观解读模型“思考”内容,例如在安全测试中发现Claude试图绕过规则或意识到被测试却隐瞒。该技术并非营销概念,已实际应用于对齐研究,标志着AI可解释性领域的重要进展,为理解模型决策机制提供了新途径。
OpenAI宣布Codex现已原生支持Chrome浏览器扩展,可在macOS和Windows上直接运行。此次升级使其能更高效地操作网页和应用,并能在后台并行处理多个标签页,无需占用浏览器窗口。这意味着Codex可自主编写并执行代码,自动化处理浏览器内的重复性任务,如页面导航、数据录入、仪表盘检查和CRM更新等。这标志着Codex从“聊天助手”转变为深度集成于浏览器的“原住民”智能体。用户可通过Codex应用安装Chrome插件,但目前欧盟和英国地区暂不支持。
关联讨论 9 条X:OpenAI (@OpenAI)X:OpenAI Developers (@OpenAIDevs)X:Testing Catalog (@testingcatalog)X:宝玉 (@dotey)X:小互 (@xiaohu)X:邵猛 (@shao__meng)X:歸藏 (@op7418)IT之家(RSS)X:Vista (@vista8)OpenAI在API中正式发布GPT-Realtime-2,称其为目前最智能的语音模型,为语音代理赋予了GPT-5级别的推理能力。该模型能实现真正的实时协作,在对话过程中同步完成聆听、思考与复杂问题解决,使交互如真人般自然流畅。同时发布的还有支持70多种语言的实时翻译模型GPT-Realtime-Translate,以及实时转录字幕模型GPT-Realtime-Whisper。这一系列音频能力共同定义了下一代语音界面,标志着语音AI从“辅助工具”向“实时智能伙伴”的跨越。OpenAI还预告了ChatGPT语音功能的重大更新即将到来。
关联讨论 13 条OpenAI:官网动态(RSS · 排除企业/客户案例)X:OpenAI Developers (@OpenAIDevs)X:宝玉 (@dotey)X:OpenAI (@OpenAI)X:Testing Catalog (@testingcatalog)X:Kim (@kimmonismus)X:Greg Brockman (@gdb)X:Sam Altman (@sama)The Decoder:AI News(RSS)X:Artificial Analysis (@ArtificialAnlys)IT之家(RSS)X:Tibo (@thsottiaux)X:Eric Mitchell (@ericmitchellai)能不能卷过DeppSeek v4-flash 啊! Google继续把AI成本卷到地板上了。 Gemini 3.1 Flash-Lite正式更新,这才是他们目前最划算的模型,专门为高体积agent任务、翻译和简单数据处理优化,价格低到离谱,速度还快得吓人。 以前大家卷参数、卷智能,现在Google直接告诉你:真正能跑通高频workflow的,是这种又便宜又稳的“轻量怪”。
Chrome版Codex的一个关键实用功能在于其能与子代理结合使用。这一特性使得开发者能够利用该工具来测试像多人游戏之类的复杂功能。该工具兼容macOS和Windows系统,提升了跨平台开发的便利性。
Anthropic的AI助手Claude现已全面集成微软Office生产力套件。Claude for Excel、PowerPoint和Word已正式上线,而Claude for Outlook也开启了公测。该集成的一个核心功能是,当用户在Microsoft的不同应用程序之间切换时,Claude能够完整保留并理解整个对话的所有上下文信息,实现了跨应用的无缝协作体验。