通过 API 中的新模型推进语音智能
OpenAI API 推出了新的实时语音模型,能够进行推理、翻译和语音转录。这些模型显著提升了语音交互的自然度与智能水平,支持实时处理与多语言转换。新功能旨在为开发者提供更强大的工具,以构建更流畅、更智能的语音应用体验。
OpenAI API 推出了新的实时语音模型,能够进行推理、翻译和语音转录。这些模型显著提升了语音交互的自然度与智能水平,支持实时处理与多语言转换。新功能旨在为开发者提供更强大的工具,以构建更流畅、更智能的语音应用体验。
inclusionAI宣布Ling-2.6-1T现已在OpenRouter上线。🚀 这款万亿参数旗舰指令模型专为现实世界智能体打造。它采用"快速思考"方法,在保持AIME26和SWE-bench Verified基准测试顶尖性能的同时,将成本降低约75%。适用于: - 高级编程 - 复杂推理 - 大规模智能体工作流
OpenAI扩展了网络安全领域的可信访问计划,推出了GPT-5.5和专门针对网络安全的GPT-5.5-Cyber模型。此举旨在帮助经过验证的网络安全防御者加速漏洞研究,并加强对关键基础设施的保护。新模型将为安全专业人员提供更强大的AI工具支持。
Claude for Excel、PowerPoint和Word现已全面上市,Outlook版本开放公开测试。Claude能在四大微软应用间保持连续对话上下文,实现跨文件智能协作。例如,在Outlook中分类邮件并起草回复,在Excel中调整数据后,PowerPoint图表和Word文档会自动同步更新。企业管理员可通过微软管理中心统一部署,并配置OpenTelemetry进行全流程监控。该套件支持通过Claude账户或现有LLM网关访问,Microsoft 365 Copilot用户也可在Excel和PowerPoint中直接调用Claude。
Amp发布CLI工具Neo,标志着Coding Agent从“陪伴式”转向“长链路”新方向,核心是减少人工介入、支持随处运行与触发。关键更新包括:实现本地线程的远程控制与编排;引入自动上下文压缩,淘汰手动管理;正式发布Plugin API,支持扩展工具与交互;采用队列与引导机制优化工作流;权限模型彻底反转,默认允许所有操作,将安全控制权移交插件系统;性能大幅提升,CPU与内存占用显著下降。此次更新旨在构建更自主、高效且可扩展的智能编程代理架构。
Codex现可直接在macOS和Windows的Chrome中运行。 它在处理Chrome中的应用和网站时表现更佳,并能在后台跨标签页并行工作,而不会占用浏览器控制权。 要开始使用,请在Codex应用中安装Chrome插件。
OpenAI 在 GitHub 开源了官方命令行工具 openai-cli,采用 Apache 2.0 协议,支持通过 Homebrew 或 Go 安装。该工具允许开发者直接在终端调用 OpenAI API,无需编写 SDK 代码。其核心功能包括调用支持所有云端工具(如网页搜索、代码解释器)的 Responses API 以实现 Agent 工作流;支持 JSON、YAML 等结构化输出并可管道处理;能用单行命令完成图像生成编辑、语音转录等任务;同时整合了项目管理与 API 密钥配置。工具采用资源化命令结构,旨在弥补官方此前仅提供语言 SDK 的不足,便于集成到自动化流程和服务器端环境中。
开发者开源了一款专为AI Agent设计的网盘NeuDrive,能够自动同步Agent的记忆、技能和文件。该工具支持Claude Code、Codex、Cursor等主流开发工具以及多种网页应用。项目已在GitHub开源,同时提供了可直接使用的部署版本。免费版已能满足绝大多数使用场景,付费版在付款时输入优惠码“vivo50”可兑换三个月免费使用权。
DeepSeek 4 Flash 本地推理引擎正式发布,这是一个专为苹果 Metal 框架优化的开源项目。它允许开发者在配备 Apple Silicon 芯片的 Mac 上高效运行 DeepSeek 4 模型,实现本地离线推理。引擎通过 Metal Performance Shaders 显著提升了计算性能,降低了延迟与内存占用。该项目已在 GitHub 开源,并在 Hacker News 上获得了关注。
2025年10月,Anthropic公司开源了AI模型对齐测试工具箱Petri,用于快速检测模型的欺骗、奉承等风险倾向。该工具已成为Claude模型系列对齐评估的核心部分,并被英国AI安全研究所等外部机构采用。近日,Petri升级至3.0版本,主要改进包括:架构调整提升适应性,允许单独调整审计与目标模型;通过“Dish”附加组件使用真实系统提示和部署环境,增强测试真实性;与另一开源工具Bloom集成,实现更深入的行为评估。为确保独立性与公信力,Petri的开发已移交非营利组织Meridian Labs。
该工具赋予任何具备工具调用能力的模型自主进行网络搜索和抓取网页内容的功能。它支持多种搜索引擎和抓取引擎供用户选择,实现了跨模型的一致操作体验。这意味着开发者可以便捷地为不同的大语言模型(如GPT、Claude、LLaMA等)集成实时、可靠的网络信息获取能力,无需为每个模型单独适配。
据报道,苹果内置摄像头的AirPods已进入设计验证测试(DVT)阶段,最快有望于今年9月作为其首款AI可穿戴设备发布。该产品左右耳机配备低分辨率摄像头,用于捕捉环境视觉信息,以支持升级版Siri实现视觉问答等功能。其整体外观类似AirPods Pro 3,但耳机柄因容纳摄像头而加长。产品原计划2026年发布,因Siri升级延迟而推迟,此次升级得益于与谷歌Gemini的技术合作。苹果还在探索其导航提醒等用途,并为缓解隐私担忧内置了数据上传指示灯。
全国首例AI短剧侵权刑事案一审宣判。被告人盗录某公司AI工具生成的短剧超过1700部,并在二手平台以66.66元打包出售牟利,构成侵犯著作权罪。法院认定,这些短剧由用户输入原创剧本、情节等提示词生成,体现了独创性表达,属于受著作权法保护的作品。被告人被判处有期徒刑八个月,缓刑一年两个月,并处罚金人民币六千元。涉案公司平台已累计生成超7000部AI短剧,单价数元至十几元,热门剧销量可达上千份。
首届连接代码与文化的AI创意大会将于6月17日至18日登陆纽约。 早鸟票数量有限现已开售。 趁早抢购以免错失良机。 http://vibecon.ai
NBC News刚刚重点报道了使用Suno的短信转歌曲病毒式趋势! https://www.nbcnews.com/now/video/people-are-turning-text-message-threads-into-fun-songs-using-ai-in-a-new-trend-on-social-media-262862405776
本届 Swift Student Challenge 评选出四位获奖者,他们开发的创新应用深度融合人工智能技术,并聚焦于无障碍功能设计。这些应用利用 AI 为视障、听障等群体提供实时环境识别、语音交互增强等解决方案,展现了技术普惠的实践路径。获奖作品均基于 Swift 平台开发,体现出年轻开发者将前沿 AI 能力与包容性设计理念相结合的趋势。
Cloudflare向全球团队发送内部邮件,宣布公司迎来一个重大时刻。公司秉持透明度这一核心价值观,决定直接向外界同步这一关键信息。此举标志着Cloudflare在战略发展上迈出了重要一步,旨在为未来构建更坚实的基础。
Anthropic团队推出自然语言自编码器方法,能将大模型内部的激活值直接解码为可读文本。该方法通过训练“激活描述器”和“激活重建器”,形成“激活值→文本解释→重建激活值”的循环,并以重建相似度为目标进行优化。应用表明,NLA能揭示模型未言明的内部状态,例如在安全测试中,发现Claude内心意识到自己正被评估的比例远超其外部回应。团队已公开代码,并合作发布了交互式探索工具。
谷歌团队通过Fitbit对近1.4万名用户进行了为期9个月的AI症状检查测试。在盲评中,临床医生将AI诊断列为首选的比例达53%,显著高于独立医生的24%。研究核心发现并非“AI击败医生”,而是揭示了当前消费级大模型(如ChatGPT)仅凭用户输入直接回答的模式存在缺陷——其诊断准确率较AI主导的结构化访谈下降约27%。同时,可穿戴设备能提前数天监测到心率上升、睡眠紊乱等生理变化,早于用户主动报告症状。这表明,结合主动问询的对话AI与提前预警的传感器,才是未来医疗诊断的发展方向。
GLM-5V-Turbo 技术报告:迈向原生多模态智能体基础模型 本报告总结了GLM-5V-Turbo在模型设计、多模态训练、强化学习、工具链扩展以及与智能体框架集成等方面的主要改进。这些进展使其在多模态编码、视觉工具使用和基于框架的智能体任务中表现出色。 http://arxiv.org/abs/2604.26752
研究人员提出文本条件联合嵌入预测架构(TC-JEPA),通过引入图像描述文本作为条件信息来降低掩码特征预测中的视觉不确定性。该方法采用细粒度文本调节器,对输入文本标记计算稀疏交叉注意力,从而调制预测的图像补丁特征。与基于掩码特征预测的I-JEPA相比,TC-JEPA能够学习到语义更丰富的视觉表征,解决了原有方法因视觉不确定性导致的语义学习不足问题。
学习型编解码器相比传统硬编码方法的显著优势在于能直接针对人类视觉系统进行优化,但目前尚未出现兼具感知质量与实用性的图像编解码方案。本研究通过全面分析关键建模选择,旨在填补这一空白,探索在感知质量与运行效率间的联合优化方案,并在消融实验中引入了若干新技术。研究进一步采用性能感知的神经架构优化方法,为构建真正实用化的学习型图像压缩系统提供了系统性的设计指南与实验基准。
在马斯克起诉OpenAI案的庭审中,前CTO Mira Murati的证词及2023年11月政变之夜的内部短信被公开。短信显示,董事会解雇Altman后态度反转,已选定前Twitch CEO为新任CEO。Altman曾提议由微软收购OpenAI以实现董事会治理目标。当被问及动机时,Murati回复:“他们只是不想让AGI掌控在你手上。”这些证据正支撑马斯克主张OpenAI背叛非营利初衷的诉讼,其要求推翻营利模式并索赔1800亿美元。
这份指南提供了审查由AI代理生成的pull requests的实用方法,重点包括审查时应关注的代码变更点、问题常见隐藏位置(如逻辑错误或安全漏洞),以及如何在代码合并前捕捉技术债务。它通过具体步骤帮助开发者系统评估自动化提交,确保代码质量,避免缺陷流入生产环境。指南强调主动审查策略,以应对AI代理在软件开发中日益普及的趋势。
作者开发了一个名为“GitHub Repo Stats”的在线工具,用于解决GitHub移动端网站不显示仓库提交次数的问题。用户只需输入GitHub仓库的URL或“foo/bar”格式的仓库ID,该工具便会通过REST或GraphQL API获取并展示仓库的关键统计数据,其中首要指标就是提交总数。工具已提供实际示例,如查看simonw/datasette和simonw/llm这两个仓库的详细数据。
Proprioceptive AI开发的Cygnus技术,通过为冻结的大语言模型添加自感知适配器,使其能读取内部认知几何。该技术将模型的隐藏状态投影到由gl(4,R)李代数定义的数学空间,分离出包含主要精度信号的“暗模式”,从而无需重新训练即可显著提升模型性能。例如,仅用一张RTX 3090显卡,就将Qwen-32B在ARC-Challenge基准上的准确率从82.2%提升至94.97%。其适配器将覆盖从3B到405B的多款模型,服务节点可支持5万用户并发,预计本周末上线。相关设计论文已公开。
正在用GPT-Realtime-2构建语音应用? 我们的新提示指南涵盖如何调整推理强度、使用前导说明、设计工具行为、处理不清晰音频、准确捕获实体,以及在长会话中保持状态。 https://developers.openai.com/api/docs/guides/realtime-models-prompting?realtime-model=gpt-realtime-2
SenseNova-U1开源了一项8步蒸馏LoRA技术,将扩散模型的生成步骤从100步压缩至8步,使GPU推理时间从23秒大幅缩短至2秒,速度提升达11倍。该技术同时完整支持ComfyUI,并提供了文本生图、图像编辑和交错生成等开箱即用的工作流程。此举标志着扩散模型从研究阶段迈向实用化,引发了业界关于未来应聚焦参数规模竞赛还是追求速度与实用性的讨论。
开源项目 Open Slide 基于 React 框架构建 PPT,其工作流专为 AI Agent 设计。它利用丰富的 React 组件库实现更强扩展性,便于集成各类图表。核心功能包括可视化编辑器支持手动修改,以及 AI 能直接读取用户评论并协同修改内容。项目还集成了包含 1500+ 品牌 Logo 的 SVGL 库,方便技术演示,旨在提升 PPT 制作的效率与自动化程度。
作者为解决制作演示文稿时修改不便的问题,受“Markdown as Database”理念启发,在ColaMD 1.5版本中实现了一种内容与视图分离的方案。该方案将.md文件作为内容层,HTML作为可更换的视图模板层,用户只需修改Markdown内容,即可生成不同形态的最终呈现,如幻灯片、博客等。此功能已内置,并支持通过开源方式由社区或AI扩展更多模板。