Sam Altman在ChatGPT两周年之际回顾OpenAI九年历程:从坚信AGI可能实现,到2022年意外推出ChatGPT并引爆前所未有的增长曲线。他坦承过去两年从零构建公司的混乱压力,以及被董事会突然解雇的危机教训。如今周活用户已达3亿,在迈向AGI的道路上,他既感激这段经历,也承认未来仍充满未知。
关联讨论 1 条X:Greg Brockman (@gdb)升级版 Claude 3.5 Sonnet 在软件工程评估基准 SWE-bench Verified 上取得 49% 的解决率,超越此前最佳模型的 45%。该基准通过真实 GitHub 问题测试 AI 模型完成软件工程任务的能力,要求模型在给定环境中理解、修改并测试代码,最终通过原始单元测试验证。Claude 团队构建的智能体设计简洁,仅包含提示词、Bash 工具和编辑工具,赋予模型充分的自主判断空间,以灵活步骤解决问题。目前尚无模型在该基准上突破 50% 的解决率。
2025年初,Auto Router迎来重要升级,同时宣布与NotDiamond建立合作伙伴关系。本次升级聚焦于提升路由效率与响应速度,具体性能指标未公开。合作方NotDiamond将为其提供技术支持,共同优化多模型调用策略,旨在增强复杂任务的处理能力。此次更新标志着Auto Router在智能化调度领域迈出新的实践步伐。
OpenRouter Chatroom 现已免费提供网络搜索功能。此次更新是假日季发布的一部分,主要包含两项内容:一是开放了网络搜索能力,二是进行了价格下调。用户现在可以在聊天室中直接进行联网查询,而无需额外付费。
xAI 宣布完成 60 亿美元 C 轮融资,资金将用于加速 Grok 等 AI 模型研发及扩建算力基础设施。此次融资进一步推高公司估值,加剧与 OpenAI、Anthropic 等竞争对手在生成式 AI 领域的军备竞赛。
OpenRouter推出新功能,允许用户绑定自己的提供商API密钥或云服务积分。此举将用户的现有额度与OpenRouter平台相结合,统一管理不同模型(如GPT、Claude、LLaMA)的使用。用户可以在一个界面下集中监控和分析所有API调用情况,优化资源分配与成本控制。
该API首次实现了为任意大语言模型(如GPT、Claude、LLaMA)编写链上支付脚本的功能。它使LLM能够直接发起和处理加密货币支付,标志着AI与区块链交易整合的关键进展。这一工具将自动化支付流程引入LLM应用生态,为开发者提供了标准化的加密支付集成方案。
Anthropic基于实践经验指出,成功的LLM智能体往往采用简单、可组合的模式,而非复杂框架。文章区分了工作流(预定义路径编排)与智能体(LLM动态自主决策),建议开发者优先采用最简单方案,仅在必要时增加复杂性。许多核心模式直接调用LLM API仅需几行代码即可实现。文中介绍了增强型LLM、提示链等基础构建模块,强调应为特定用例定制检索、工具等增强功能,并推荐通过Model Context Protocol集成第三方工具生态。
Gen-3 Alpha Turbo 新增中间关键帧功能,允许在视频生成序列中插入多个关键帧节点,突破传统首尾双帧限制,实现更精细的时序控制与复杂镜头运动。
Runway 上线 Talent Network,供创意人士展示作品并对接品牌、工作室的工作机会。平台解决 AI 工作流人才需求,首批入驻包括导演 Harmony Korine 的 EDGLRD 等制作公司。
NYU Tisch艺术学院虚拟制作硕士项目引入Runway AI视频工具,2025年春季在Martin Scorsese虚拟制作中心开设"虚拟制作专题"课程。学生可运用生成式AI完成从概念设计、预可视化到毕业作品的全流程创作,由Runway创意合作伙伴Leilanni Todd执教。该课程旨在培养掌握前沿技术的电影人才,应对行业技术变革。项目现正接受2025年秋季入学申请。
针对 TopK SAE 的可复现性研究表明,即使采用相同训练数据和批次顺序,仅改变随机初始化就会导致两个模型仅共享约 53% 的特征,且存在大量无法互相对应的可解释潜变量。进一步分析发现,较窄的 SAE 在不同随机种子间表现出更高的特征重叠度,而随着模型规模扩大,特征一致性反而显著降低。
OpenAI 的 GPT-4o 模型和 Fireworks 模型现已支持结构化输出功能,开发者可以更可靠地获取格式化的 JSON 数据。与此同时,谷歌宣布其 Gemini Flash 2.0 模型转为免费提供,这为开发者和研究者提供了一个新的、无需付费的高性能大语言模型选项。这两项进展旨在降低应用开发门槛,并提升模型响应的可控性与实用性。
Grok 正式向所有用户免费开放,取消此前仅限 X Premium 订阅者使用的限制。用户无需付费订阅即可直接使用 xAI 的 AI 助手,大幅降低使用门槛。
Runway 启动学生大使计划,面向艺术、电影、计算机科学等领域学生提供 10 万免费积分、Pro 计划订阅及行业社交资源,降低 AI 视频工具使用门槛。已与 NYU、罗德岛设计学院等全球多所高校建立合作。
Grok 推出图像生成功能,支持通过自然语言指令直接创建图片。该功能已向 X 平台用户开放,标志着这款 AI 助手从文本交互向多模态能力扩展,用户可在对话中直接生成并编辑视觉内容。
Meta 最新发布了 Llama 3.3 70B 模型,并同步推出了六个不同规格的版本及服务提供商。此次发布伴随着显著的价格下调,旨在提升模型的可及性与市场竞争力。关键变化在于以更低的成本提供强大的 700亿参数模型,具体降价幅度因提供商和版本而异,但整体趋势是大幅降低使用门槛。这一举措预计将推动大语言模型在更广泛场景中的应用与部署。
亚马逊发布了全新的Nova模型家族。此次发布标志着亚马逊在大型语言模型领域推出了新的产品线,旨在增强其AI服务能力。新模型家族预计将在理解能力、生成效率等方面进行关键升级,以应对当前市场上GPT、Claude、LLaMA等模型的竞争。具体性能指标和细节尚未完全披露,但此举明确显示了亚马逊加速布局生成式AI市场的决心。
SGLang v0.4版本正式发布,通过零开销批处理调度器将CPU调度与GPU计算重叠,吞吐量提升1.1倍,较其他基线快1.3倍。新版本引入缓存感知负载均衡器,预测KV缓存命中率,使吞吐量最高提升1.9倍,缓存命中率从20%提升至75%。针对DeepSeek模型的数据并行注意力机制带来1.9倍解码吞吐量提升,XGrammar结构化输出速度提升达10倍。
Runway Act-One 新增角色参考视频功能,支持上传参考视频确保生成角色外观一致性,解决多镜头角色连贯性问题,提升 AI 视频生成可控性。
Runway 为 Gen-3 Alpha Turbo 推出视频扩展功能,支持对现有视频进行画面外拓或时长延展,提升 AI 视频创作的灵活性和可控性。
Characters API 正式上线,支持构建实时对话 AI 虚拟形象。同步开放 Gen-4.5 模型接入示例(Node.js/Python),企业客户可申请更高用量限额,享受 Slack 优先支持、新功能抢先体验等权益。
研究团队提出Anthology方法,利用包含丰富个人价值观与经历细节的自然主义背景故事(backstories)作为条件上下文,引导语言模型生成具有代表性、一致性和多样性的虚拟人格。该方法突破了以往仅依赖人口统计标签(如年龄、性别)导致的刻板印象局限,使LLM能够从"人口混合声音"转向精确模拟个体人类样本,显著提升了模拟保真度,为计算社会科学研究提供了可计算协方差与统计显著性的个体级数据支持。
通过解读稀疏自编码器(SAE)潜变量并模拟激活值,研究者实现了用自然语言部分重写大语言模型。该方法利用 SAE 提取的可解释特征,将自然语言描述转化为具体的神经元激活模式,无需修改模型权重即可调整其行为。这项技术为模型编辑和机制可解释性提供了新工具,使通过人类可读的语言直接操控模型内部表征成为可能。
Act-One 现已支持竖屏视频格式,可直接生成 9:16 比例的竖版内容,完美适配 TikTok、Instagram Reels 等移动端平台。无需后期裁剪即可获得满屏显示的短视频,提升社交媒体创作效率。
xAI 启动 Grok API 公测,发布新模型 grok-beta,支持 128k 上下文、函数调用及系统提示,视觉版本下周上线。开发者每月可获 $25 免费额度至年底,已购预付额度可叠加。API 兼容 OpenAI 与 Anthropic 格式,修改 base_url 即可迁移。
Gen-3 Alpha Turbo 新增静态相机控制选项,支持固定机位拍摄,可生成无镜头运动的稳定视频画面,适用于需要静止视角的创作场景。
该工作概述了 minetester 框架及其在识别 LLMs 训练数据风险方面的初步应用。作为第三方评估工具,minetester 旨在通过系统性审计发现训练数据中的潜在安全隐患,提升模型透明度。概述内容涵盖该工具的核心架构、评估方法论以及早期实验结果,展示了外部审计机制在大语言模型安全治理中的可行性。
本文介绍了一种新型的稀疏交叉编码器,它能够同时读取和写入神经网络多个层的激活值,从而提取跨层的共享特征。其主要应用包括:解决跨层叠加问题,追踪残差流中的持久特征;通过消除“重复特征”和跨越无意义的连接来简化电路分析;以及为不同训练阶段或不同架构的模型生成共享特征集,以实现模型差异比较。初步实验验证了其在处理跨层叠加和模型比较方面的潜力。
关联讨论 1 条Anthropic:Transformer Circuits(可解释性研究)Act-One 现已在 Gen-3 Alpha 中上线。用户仅需通过消费级相机拍摄的视频和语音表演,无需传统动捕设备或面部绑定即可生成高保真角色动画。该模型可将演员表情准确迁移至比例差异较大的虚拟角色,支持多角度拍摄及多轮对话场景创作。Runway 同步部署了公众人物检测、语音版权验证及持续监控等安全措施,防止技术滥用。
这是一份关于机制性异常检测持续工作的中期进展报告。作为该研究系列的第二篇更新,文档记录了当前项目的阶段性成果与最新动向,聚焦于通过机制性方法识别和检测异常行为的技术路径与研究进展。报告以 interim report 形式发布,反映了该领域研究工作的当前状态。
Runway 视频生成模型 Gen-3 Alpha Turbo 上线关键帧(Keyframes)功能,支持在视频起始、结束或中间位置设置关键帧,实现更精准的镜头运动控制与场景过渡效果。
Runway 启动 The Hundred Film Fund,面向处于前期或后期制作阶段的 AI 辅助电影项目开放申请。基金规模 500 万美元(有望增至 1000 万),单项资助 5000 至 100 万美元以上,另提供 200 万美元 Runway 积分。Tribeca 电影节联合创始人 Jane Rosenthal、NVIDIA 高管等业界人士组成顾问委员会参与项目指导。
加州大学伯克利分校研究发现,ChatGPT对非标准英语变体存在系统性偏见。研究团队测试了GPT-3.5 Turbo和GPT-4对10种英语变体(包括标准美式、英式英语及非洲裔美国人、印度、尼日利亚等变体)的回应,发现模型保留标准美式英语特征的比例比其他方言高60%以上。面对非标准变体时,ChatGPT表现出更多刻板印象和贬低性内容,理解能力下降且态度居高临下。研究表明,训练数据构成直接影响对方言的偏见程度。
Chatbot Arena 正式启用独立网站 lmarena.ai 及博客,从 LMSys 研究集体中独立运营以确保长期发展。该平台过去一年已发展为成熟的生态系统,未来将与 LMSys 保持紧密合作,并扩展评估范围至编程、复杂任务和红队测试等前沿模型领域。LMSys 将继续作为 Vicuna、SGLang 等项目的孵化器,专注于开放研究与开发。
AI驱动的信用分析解决方案,通过整合替代数据与深度学习模型,实现更精准的违约风险预测。支持实时决策与动态监控,帮助金融机构降低坏账率并扩展普惠金融覆盖范围。
该指南系统阐述了 muTransfer 在 Maximal Update Parameterization 框架下的具体实现机制,详解了如何通过参数化技巧实现不同宽度神经网络间的超参数零样本迁移。内容涵盖基础初始化缩放规则、学习率动态调整策略及宽度扩展中的数值稳定性保持方法,为大规模语言模型训练提供了可复现的工程实践方案与代码级实现细节。