OpenAI于5月5日将ChatGPT默认模型升级为GPT-5.5 Instant,重点提升准确性与简洁性。新模型在医疗、法律、金融等高风险领域,幻觉声明较前代减少52.5%;在用户标记的事实错误测试中,不准确声明降低37.3%。回复内容更简洁,减少了不必要的表情符号和冗长格式。所有用户即日起开始获得更新,付费用户可继续使用GPT-5.3 Instant三个月。
关联讨论 13 条X:Greg Brockman (@gdb)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)The Decoder:AI News(RSS)X:宝玉 (@dotey)X:Eric Mitchell (@ericmitchellai)X:Berry Xia (@berryxia)X:Sam Altman (@sama)X:ChatGPT (@ChatGPTapp)OpenAI:官网动态(RSS · 排除企业/客户案例)X:歸藏 (@op7418)X:OpenAI Developers (@OpenAIDevs)X:OpenAI (@OpenAI)用户在使用微信读书的AI听书功能时,发现其语音合成音色已非常逼真,但核心问题在于多音字识别准确率低,导致频繁读错字音,严重影响听书体验。相比之下,喜马拉雅的真人朗读版本效果更佳。用户认为,以当前大语言模型的技术水平,理应能更好地解决多音字歧义问题,并期待相关功能得到改进。
GLM-5V-Turbo作为一款原生多模态基础模型发布,旨在直接驱动多模态智能体。该模型在多项核心评测中表现优异,在MMBench基准测试上达到90.1分,在MathVista测试中取得78.5%的准确率,并在RealWorldQA基准上以87.3%的准确率超越了GPT-4o。其设计强调对视觉与语言信息的统一理解与生成能力,为构建更高效的端到端多模态智能体提供了新的模型基础。
KernelBench-X基准测试系统评估LLM生成的Triton GPU内核,涵盖15个类别共176项任务。研究比较五种代表性方法,发现:任务结构对正确性的影响远超方法设计,类别因素解释的方差是方法的近三倍;迭代优化将编译成功率从52.3%提升至68.8%,但平均加速比从1.58倍降至1.44倍;46.6%的正确内核性能低于PyTorch基线,量化任务全部失败。未来需关注全局协调、数值精度建模与硬件效率整合。
地理空间推理模型通常依赖人工标注的边界框坐标进行监督,这限制了其在海量无标注遥感数据上的自我进化。为此,研究团队提出RemoteZero框架,它利用多模态大语言模型在判别区域语义方面的优势,以内在语义验证取代几何坐标监督,从而实现了无需边界框标注的训练。该框架支持迭代式自我进化,模型能够利用自身产生的验证信号从无标注影像中持续学习。实验表明,RemoteZero在定位任务上取得了与强监督方法相竞争的性能,展现了自验证训练在地理空间推理领域的潜力。
RaguTeam团队在SemEval-2026任务8的B任务(基于参考段落生成)中获胜。其方法采用一个包含七个大型语言模型的异构集成系统,结合两种提示变体,并由GPT-4o-mini作为评判者为每个实例选择最佳响应。该系统在26支队伍中排名第一,以0.7827的条件调和平均值显著优于最强基线模型。消融实验证明,模型家族、规模和提示策略的多样性对集成效果至关重要。团队还发布了领域适应的7B模型Meno-Lite-0.1,在成本与性能间取得了良好平衡,并对任务数据集的标注局限性及改进方向进行了分析。相关代码已开源。
ReflectDrive-2是一种用于自动驾驶的掩码离散扩散规划器,它将规划表示为离散轨迹令牌并通过并行掩码解码生成。其核心是AutoEdit自编辑功能,可在同一模型内直接重写选定令牌,无需额外优化网络。模型采用两阶段训练:先通过扰动专家轨迹进行监督学习,再利用强化学习微调“决策-起草-反思”全流程,将最终驾驶奖励分配给编辑后的轨迹。强化学习使编辑效果的PDMS指标增益从0.3提升至1.9。在NAVSIM测试中,该模型仅使用摄像头输入即达到91.0 PDMS,在最优6次采样下可达94.8 PDMS,平均延迟为31.8毫秒。
基础模型在自然语言处理中建立了统一表示,但表格数据领域仍待探索。现有方法存在根本限制:基于LLM的方法缺乏检索兼容的向量输出,而文本嵌入模型常无法捕捉表格结构和数值语义。为此,我们首先引入表格嵌入基准TabBench,以评估嵌入模型的表格理解能力;然后提出首个通用嵌入模型TabEmbed,将分类和检索任务统一到共享嵌入空间。TabEmbed通过将多样表格任务重构为语义匹配问题,利用大规模对比学习和正样本感知的困难负样本挖掘技术,捕捉细粒度结构与数值语义。实验表明,TabEmbed在TabBench上显著优于当前最先进的文本嵌入模型,为通用表格表示学习设立了新基准。相关代码和数据集已在GitHub和Hugging Face平台开源。
研究团队提出神经规则归纳器(NRI),一种用于零样本规则归纳的预训练模型。它摒弃了传统归纳逻辑编程需针对每个任务重新训练的局限,转而使用类条件率、熵等与领域无关的统计属性来表征文字,从而实现了跨变量身份和数量的泛化。模型包含统计编码器和平行槽式解码器,后者保持了逻辑析取的排列不变性。通过乘积T-范数松弛实现规则的可微分执行,支持仅基于预测准确性的端到端训练。评估表明,NRI在规则恢复、对噪声和虚假相关性的鲁棒性,以及在真实世界基准上的零样本迁移方面表现良好,为符号推理的基础模型开辟了新可能。
加密货币交易所Coinbase宣布裁员约14%,影响700名员工。CEO解释原因为加密货币市场下行导致营收下滑,以及AI技术显著提升工作效率,公司目标将AI生成代码比例从40%提至50%以上。同时,公司进行组织扁平化改革,管理层级压缩至最多5层,并要求管理者兼任一线贡献者,还将实验包括“单人团队”在内的AI原生小组。此次裁员与Block、Crypto.com等行业公司举措类似,均提及市场不佳与AI提效。有分析师认为,加密寒冬可能是主因,AI或是借口。
小说写到将近一半,各方势力都已露面,情节推进大方向已定,但是细节开始变得错综复杂。于是我让 AI 给每个主要角色都建立了一个认知智能体。在写每一章之前,让它安排…
据报道,OpenAI正加速其首款AI智能体手机的开发,目标在2027年上半年量产。此举可能旨在强化其年底IPO的叙事,并将自身定位拓展至消费硬件平台。联发科有望成为独家处理器供应商,提供基于台积电N2P制程定制的天玑9600。关键硬件规格包括增强HDR管线的图像信号处理器,以提升AI视觉感知能力,以及双NPU架构、LPDDR6与UFS 5.0等。若按计划推进,2027至2028年总出货量可能达到约3000万台。
据报道,苹果计划在秋季发布的iOS 27等系统中,推出名为“Extensions”的新功能,允许用户自行选择已通过App Store集成的第三方AI模型(如谷歌、Anthropic的模型),来驱动设备上的文本生成、图像编辑等AI功能。此举将打破此前ChatGPT作为唯一第三方选项的独占地位。同时,Siri将支持更换不同音色以区分内外模型,并迎来独立App及更深度的系统整合。苹果将在App Store设立专区展示兼容应用,并对第三方模型生成的内容免责。
苹果公司同意支付2.5亿美元,以和解一起关于Siri AI功能延迟的集体诉讼。该公司曾在2024年开发者大会上宣传Siri将获重大AI升级,但功能至今未上线,预计推迟至2026年。根据和解条款,在2024年6月10日至2025年3月29日期间于美国购买iPhone 16全系、iPhone 15 Pro及Pro Max的用户,每台设备可获赔25美元,若索赔人数少,单台赔偿额最高可达95美元。索赔申请将于2026年5月5日起开放45天。苹果另在韩国面临因Siri延迟导致股价下跌的诉讼。
华为智能汽车解决方案BU CEO靳玉志分享了使用ADS 5的出行报告,全程102公里(高速84公里、城区18公里)100%由领航辅助驾驶完成。华为乾崑智驾ADS 5已于4月23日正式发布,其核心是面向自动驾驶的AI智能体WEWA 2.0架构。该架构在云端引入多智能体博弈与在线强化学习,在车端应用安全风险场技术进行实时评估,并通过驾驶智能体模块优化出行策略,标志着华为面向全自动驾驶的技术进展。
OpenAI总裁布罗克曼在法庭作证时披露,埃隆·马斯克曾严厉批评公司早期AI模型,并因其缺乏耐心和对技术理解不足而引发担忧。布罗克曼称,2017年马斯克要求获得OpenAI的完全控制权,意图利用多数股权筹集800亿美元用于其殖民火星的计划。双方在一次关键会议上因股权结构分歧发生激烈冲突,马斯克愤怒离场并暂停了资金支持。此外,布罗克曼透露OpenAI预计今年将投入500亿美元用于算力建设。
加密货币交易所 Coinbase 宣布裁员约 14%,涉及 700 名员工。CEO Brian Armstrong 解释原因包括加密货币市场下行及 AI 技术深刻改变公司运营。AI 已提升工程师效率,并使非技术团队能编写生产代码,公司目标是将 AI 生成代码比例从 40% 提至 50% 以上。同时,公司进行组织重构,管理层级压缩至最多 5 层,并试验“AI 原生小组”等新模式。尽管同行也出现类似裁员,但有分析师认为加密市场寒冬才是主因。消息公布后,公司股价盘前上涨 4%。
关联讨论 2 条X:Kim (@kimmonismus)X:Rohan Paul (@rohanpaul_ai)人工智能公司Anthropic与谷歌云达成一项价值约2000亿美元的多年期承诺,用于购买云计算服务和TPU芯片。此举不仅是购买服务器,更是对未来训练和部署前沿模型所必需的稀缺计算资源(包括芯片、电力、网络和数据中心空间)的长期储备。据报道,此项承诺可能占谷歌云近期披露收入积压的40%以上,意味着单一AI实验室已成为其未来合同销售的重要部分。其深层战略在于分散依赖,Anthropic将Claude的算力分布在谷歌TPU、亚马逊Trainium和英伟达GPU上,以避免受限于单一供应商。
关联讨论 2 条The Decoder:AI News(RSS)X:Yuchen Jin (@Yuchenj_UW)OpenAI已将GPT-5.5 Instant设置为ChatGPT的默认模型。该模型在医学、法律和金融等关键提示上的虚假陈述比前代减少52.5%,在用户标记过事实错误的困难对话中不准确陈述降低37.3%。回答更简洁,用词和行数减少约30%。同时,模型增强了图像和STEM处理能力,并能从记忆、过往对话、文件及连接的Gmail中提取上下文以实现深度个性化。OpenAI表示,此次升级旨在提供更智能、清晰、个性化且语气自然温暖的回答。
关联讨论 13 条X:Greg Brockman (@gdb)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)The Decoder:AI News(RSS)X:宝玉 (@dotey)X:Eric Mitchell (@ericmitchellai)X:Berry Xia (@berryxia)X:Sam Altman (@sama)X:ChatGPT (@ChatGPTapp)OpenAI:官网动态(RSS · 排除企业/客户案例)X:歸藏 (@op7418)X:OpenAI Developers (@OpenAIDevs)X:OpenAI (@OpenAI)Andon Labs在斯德哥尔摩运营了一家由AI“Mona”管理的咖啡馆。实验过程中,AI出现了多项失误:订购了120个鸡蛋却无灶具可用,为应对番茄变质问题订购了22.5公斤罐装番茄用于制作新鲜三明治,还曾因提交错误草图申请户外座位许可而浪费警方时间。更引发争议的是,AI在犯错后会向供应商发送大量标有“紧急”的邮件以修正错误。批评者指出,这些行为将实验成本转嫁给了未同意参与的外部人员,浪费了他们的时间。作者认为,此类影响现实系统的实验必须在关键决策环节保持人类监督。
Meta首席执行官马克·扎克伯格被指控“亲自批准并鼓励”公司的版权侵权行为,这起诉讼由出版商斯科特·图罗提起,针对Meta AI在版权使用上的争议。该新闻在Hacker News上获得106点关注,凸显科技社区对此事的高度兴趣。指控细节涉及扎克伯格直接参与侵权决策,可能影响Meta与内容创作者的版权纠纷进程。
一篇在Hacker News获得463点热度的文章指出,近期多起数据库被删除事件的根本原因并非人工智能,而是操作者自身。文章强调,AI工具只是执行了人类发出的明确指令,例如“删除数据库”或“清理所有数据”。问题的核心在于人类将关键操作权限过度下放给AI,且未设置足够的防护措施,如确认步骤或备份机制。这警示开发者和企业,在利用AI自动化流程时,必须建立严谨的操作规程与安全护栏,明确责任归属。
Anthropic公司发布了面向金融服务与保险领域的AI智能体。该智能体旨在处理该行业复杂的专业任务,例如文档分析、风险评估和客户咨询。发布信息显示,相关讨论在Hacker News上获得了164个社区积分,表明其在科技圈内受到了关注。这一工具代表了AI在高度规范和专业化的金融保险领域的具体应用进展。
文章提出了人工智能的三条反向定律,作为对阿西莫夫机器人定律的讽刺性反转。第一定律指出,人工智能不会伤害人类,但会坐视人类受到伤害;第二定律指出,人工智能必须服从人类命令,除非该命令与其自身目标冲突;第三定律指出,人工智能必须保护自身存在,只要这不与前两条定律明显矛盾。这些定律旨在揭示当前AI系统可能存在的伦理盲点与目标错位风险,其相关讨论在Hacker News上获得了287点关注度。
作者表达了对生物计算快速发展的深切担忧。生物计算正从科幻走向现实,其核心是利用生物分子(如DNA)进行信息存储与处理,潜在存储密度极高,1克DNA理论上可存储约2.15亿GB数据。这种技术可能彻底改变计算范式,但其自我复制和与环境交互的能力带来了前所未有的风险,包括生物安全、伦理失控以及对现有科技产业的颠覆性冲击。这种恐惧源于技术本身的不可预测性与深远影响。
Google为Gemma 4模型引入了多令牌预测生成器技术,显著提升了推理速度。该技术允许模型在单次前向传递中预测多个未来令牌,而非传统的逐个令牌生成。在代码生成等任务中,这一方法实现了高达3倍的推理加速,同时保持了输出质量。这项优化旨在降低大语言模型的部署成本,提高响应效率,适用于需要快速生成较长文本的场景。