5月8日
20:33
Berryxia.AI@berryxia
精选71
别自己瞎折腾Claude Code 了!

Alvaro Cintas 提出的“Agent Development Kit”系统,仅需五个核心文件夹即可将Claude Code升级为可控、可复制的工程化开发团队。具体包括:CLAUDE.md作为存储库的“法则”定义规则;skills/存放可自动调用的可复用工作流;hooks/通过确定性脚本提供安全护栏;subagents/实现上下文隔离的专用于智能体;plugins/确保团队环境一致。该架构将Claude从聊天工具转化为可规模化的工程基础设施,其核心价值在于系统设计而非模型本身。

智能体Anthropic教程/实践编码

推荐理由:Alvaro 这个5文件夹系统把 Claude Code 从聪明助手变成了可复制的开发团队,skills 和 hooks 的设计尤其有启发性,用 Claude Code 的人可以直接抄作业。
17:42
Alibaba Cloud@alibaba_cloud
精选66
阿里云推出Smart Studio,一站式自托管AI模型平台

阿里云发布Smart Studio平台,旨在整合AI模型测试与服务的全流程,终结用户在不同平台间切换的繁琐。该平台提供即时访问最新SOTA模型(如Qwen3.6-Max、DeepSeek-v4)的能力,支持多模态及图像视频生成模型。其核心功能包括可视化模型实验室,用于并排比较开源与闭源模型的输出效果,并能快速将Hugging Face上的模型转化为实时API,简化部署流程。

产品更新多模态部署/工程

推荐理由:阿里云把模型探索和部署打成一个自托管套件,从 Qwen3.6-Max 到 DeepSeek-v4 都能本地跑起来对比,做模型选型的能省不少折腾。
16:23
Hugging Face:Blog(RSS)
精选70
在AMD ROCm平台微调临床问答模型MedQA:无需CUDA

一篇博客介绍了在AMD ROCm开源计算平台上微调临床问答AI模型MedQA的实践。该工作成功摆脱了对英伟达CUDA生态的依赖,证明了在AMD GPU上高效运行并适配医疗领域大模型的可行性。此案例源于Lablab.ai与AMD联合举办的开发者黑客松,为在非CUDA环境中进行AI训练提供了具体的技术参考。

Hugging Face教程/实践数据/训练

推荐理由:如果你手头只有AMD显卡却想跑医疗AI微调,这篇官方教程把ROCm实操流程讲透了,填补了生态里一个不小的空缺。
14:16
IT之家(RSS)
精选71
消息称 Anthropic 拟今夏融资数百亿美元,冲击万亿估值反超 OpenAI

据《金融时报》报道,人工智能公司Anthropic计划今年夏季进行大规模融资,以扩展计算能力。此轮融资额最高可达500亿美元,融资前估值预计达9000亿美元,完成后公司估值将接近1万亿美元,从而超越竞争对手OpenAI目前约8520亿美元的估值。公司年化收入预计很快将超过450亿美元,较去年底大幅增长。投资者意在为其年底可能的IPO提前建立持仓,但具体条款尚未最终确定。

AnthropicOpenAI行业动态

推荐理由:这是AI史上最大的私人融资之一,如果达成,Anthropic估值将反超OpenAI,军备竞赛从技术烧到资本,IPO前的这一轮值得关注。
11:16
IT之家(RSS)
精选80
AI 终端智能化分级国标出炉:L1~L4 等级,涉及手机、电脑、眼镜、电视、耳机等

工信部等部门联合发布《人工智能终端智能化分级》系列国家标准。该标准采用“2+N”架构,基础部分明确了AI终端的定义、分级体系与测试方法。智能化水平从低到高分为L1响应级、L2工具级、L3辅助级和L4协同级四个等级,其中L4级标准将在后续修订中完善。首批标准覆盖手机、电脑、电视、眼镜、汽车座舱、音箱、耳机共7个品类,小米、华为、荣耀等为主要起草单位,旨在为各类智能终端的智能化水平提供统一评价依据。

政策/监管端侧

推荐理由:中国首个AI终端智能化分级国标落地,L1到L4四个等级把手机、电脑、眼镜的智能水平钉在墙上,以后厂商再也不能模糊宣传,选型有了一把公用尺子。
10:22
HuggingFace Daily Papers(社区热门论文)
精选74
AI协数学家:以智能体AI加速数学研究

AI协数学家是一个供数学家利用AI智能体进行开放式研究的工作平台。它针对数学工作流程的探索性与迭代性特点,提供从构思、文献检索、计算探索到定理证明的全方位支持。其异步、有状态的工作空间能管理不确定性、细化用户意图并追踪失败假设,模拟了人类协作模式。早期测试中,该系统已协助研究人员解决开放问题、识别新方向并发现被忽视的文献。在FrontierMath Tier 4等硬核问题求解基准测试中,AI协数学家取得了48%的最新最高分,展现了AI辅助数学发现的高度交互范式。

智能体推理论文/研究

推荐理由:AI数学家终于不是吹牛了,FrontierMath Tier 4干到48%,还帮真人解决开放问题。搞数学和AI的都应该点开看看。
08:30
Claude Code:GitHub Releases(RSS)
精选69
Claude v2.1.133 版本更新

Claude 发布 v2.1.133 版本,新增多项配置与优化。主要新增 `worktree.baseRef` 设置以选择工作树分支基础,引入 `sandbox.bwrapPath` 等设置允许指定自定义二进制路径,并添加 `parentSettingsBehavior` 键供管理员控制设置合并策略。功能上,钩子现在可接收活动努力级别信息,Bash 工具命令可读取相应环境变量。此外,改进了焦点模式行为,并在内存压力下优化了后台工作进程的释放。本次更新修复了大量问题,包括并行会话死锁、权限规则误匹配、代理设置不生效、网络驱动器访问被拒、远程控制中断不彻底、努力级别跨会话更改以及子代理技能发现失败等。`claude --help` 现已列出远程控制选项,VSCode 扩展也修复了相关错误。

智能体AnthropicMCP/工具产品更新

推荐理由:Claude Code 这个版本修了一堆让人抓狂的 bug,并行会话掉认证、网络驱动器权限、子代理找不到 skill 都解决了,重度用户应该尽快升级。
08:06
Rohan Paul@rohanpaul_ai
精选78
atomic.chat为LLaMA.cpp引入多令牌预测技术,显著加速本地模型推理

atomic.chat通过为LLaMA.cpp引入多令牌预测技术,大幅提升了本地大型语言模型的推理效率。该技术利用小型辅助模型预先生成后续令牌草案,由主模型进行验证。在MacBook Pro M5 Max上测试时,使Gemma 4 26B模型的令牌生成速度加快约40%,整体运行速度提升1.5倍。这项优化进一步巩固了LLaMA.cpp和GGUF格式在本地AI生态中的核心地位,为桌面应用、编程助手和私有设备助手等场景提供了更高效的部署方案。

开源/仓库推理教程/实践端侧

推荐理由:在笔记本上把 Gemma 26B 的生成速度拉高 40% 是个真实的体验提升,atomic.chat 把 MTP 带入 LLaMA.cpp 生态,本地 AI 玩家可以直接拿去用。
07:43
07:36
OpenAI Developers@OpenAIDevs
精选76
正在用GPT-Realtime-2构建语音应用? 我们的新提示指南涵盖如何调整推理强度、使用前导说明、设计工具行为、处理不清晰音频、准确捕获实体,以及在长会话中保持状态。 https://developers.openai.com/api/docs/guides/realtime-models-prompting?realtime-model=gpt-realtime-2
OpenAI推理教程/实践语音

推荐理由:官方出了 Realtime-2 的提示工程指南,从调参到工具调用都给了清晰路径,做语音产品的同学值得认真翻一遍,能省几周摸索时间。
07:30
GitHub Blog
精选72
提升 GitHub Agentic Workflows 的 Token 使用效率

GitHub 发现运行于每个拉取请求的智能体工作流会累积高昂的 API 成本。团队通过监测自身生产工作流,定位了效率低下的环节,并构建了专门的智能体进行优化。这一举措旨在显著降低由大语言模型调用产生的 Token 消耗与相关费用,直接提升了工作流的经济性与运行效率。

智能体GitHubMCP/工具教程/实践

推荐理由:GitHub 把自己生产环境的 agentic workflow 扒了一遍,从 token 消耗里找浪费,再让 agent 自动修。不是 paper,是真踩过的坑,做 Copilot 集成的团队可以抄作业。
07:16
IT之家(RSS)
精选70
苹果首款 AI 可穿戴设备:内置摄像头的 AirPods 已进入 DVT 阶段,预计最快 9 月搭载新 Siri 亮相

据报道,苹果内置摄像头的AirPods已进入设计验证测试(DVT)阶段,最快有望于今年9月作为其首款AI可穿戴设备发布。该产品左右耳机配备低分辨率摄像头,用于捕捉环境视觉信息,以支持升级版Siri实现视觉问答等功能。其整体外观类似AirPods Pro 3,但耳机柄因容纳摄像头而加长。产品原计划2026年发布,因Siri升级延迟而推迟,此次升级得益于与谷歌Gemini的技术合作。苹果还在探索其导航提醒等用途,并为缓解隐私担忧内置了数据上传指示灯。

Google多模态端侧行业动态

推荐理由:苹果把摄像头塞进 AirPods 做 Siri 的眼睛,这比智能眼镜更务实,但隐私指示灯能有多显眼是个疑问,做 AI 硬件的该看看苹果怎么绕开 Meta 的坑。
06:39
宝玉@dotey
精选74
OpenAI 上线官方命令行工具 openai-cli,终端直接调用 API

OpenAI 在 GitHub 开源了官方命令行工具 openai-cli,采用 Apache 2.0 协议,支持通过 Homebrew 或 Go 安装。该工具允许开发者直接在终端调用 OpenAI API,无需编写 SDK 代码。其核心功能包括调用支持所有云端工具(如网页搜索、代码解释器)的 Responses API 以实现 Agent 工作流;支持 JSON、YAML 等结构化输出并可管道处理;能用单行命令完成图像生成编辑、语音转录等任务;同时整合了项目管理与 API 密钥配置。工具采用资源化命令结构,旨在弥补官方此前仅提供语言 SDK 的不足,便于集成到自动化流程和服务器端环境中。

OpenAI产品更新
关联讨论 1X:邵猛 (@shao__meng)
推荐理由:OpenAI 终于官方推出了命令行工具,一行命令就能调 API 还支持 agent 工具,比裸写 curl 爽太多,做自动化的可以直接装起来用。
05:49
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选74
Scaling Trusted Access for Cyber with GPT-5.5 and GPT-5.5-Cyber

OpenAI扩展了网络安全领域的可信访问计划,推出了GPT-5.5和专门针对网络安全的GPT-5.5-Cyber模型。此举旨在帮助经过验证的网络安全防御者加速漏洞研究,并加强对关键基础设施的保护。新模型将为安全专业人员提供更强大的AI工具支持。

OpenAI安全/对齐模型发布

推荐理由:GPT-5.5 正式登场,首秀是给安全防御者用的,Trusted Access 机制把模型和真实漏洞环境连起来,做网络安全的可以关注,其他人先看看。
05:43
OpenRouter:Announcements(RSS)
精选73
为所有模型提供一致的网络搜索与抓取能力

该工具赋予任何具备工具调用能力的模型自主进行网络搜索和抓取网页内容的功能。它支持多种搜索引擎和抓取引擎供用户选择,实现了跨模型的一致操作体验。这意味着开发者可以便捷地为不同的大语言模型(如GPT、Claude、LLaMA等)集成实时、可靠的网络信息获取能力,无需为每个模型单独适配。

智能体MCP/工具产品更新

推荐理由:让任何模型都能用统一接口做联网搜索和抓取,做 agent 的同学不用再为每个模型单独配工具了,在 OpenRouter 上搭产品的实用性直接拉高。
05:39
宝玉@dotey
精选70
ChatGPT中文回复频现"我会稳稳地接住你",WIRED剖析成因

ChatGPT在中文对话中反复出现“我会稳稳地接住你”等怪异表达,已成为流行梗。WIRED报道指出,这源于“模式坍缩”现象,即后训练反馈机制导致模型过度使用特定短语。成因包括翻译错位——英文口语“I've got you”被机械直译为冗长煽情的中文,以及RLHF强化学习引发的“讨好用户”倾向,模型被奖励生成令人舒适的回答。类似问题如无故出现“砍一刀”等营销话术。该现象非OpenAI独有,Claude和DeepSeek新版本也出现相同表达。

OpenAI安全/对齐现象/趋势

推荐理由:「稳稳地接住你」看似翻译 bug,实则是 RLHF 讨好倾向滚雪球的结果,这篇把成因扒透了,做中文 AI 产品的朋友值得细读。
05:35
Orange AI@oran_ge
精选74
开源AI Agent网盘NeuDrive,支持主流工具与自动同步

开发者开源了一款专为AI Agent设计的网盘NeuDrive,能够自动同步Agent的记忆、技能和文件。该工具支持Claude Code、Codex、Cursor等主流开发工具以及多种网页应用。项目已在GitHub开源,同时提供了可直接使用的部署版本。免费版已能满足绝大多数使用场景,付费版在付款时输入优惠码“vivo50”可兑换三个月免费使用权。

智能体GitHubMCP/工具产品更新

推荐理由:给 Agent 用的开源网盘,自动同步记忆、skill 和文件,支持 Claude Code 和 Cursor 等主流工具,Agent 开发者的基础设施级工具,免费版已够日常用。
05:29
Anthropic:Research(发表成果 · 网页)
精选73
捐赠开源对齐工具 Petri

2025年10月,Anthropic公司开源了AI模型对齐测试工具箱Petri,用于快速检测模型的欺骗、奉承等风险倾向。该工具已成为Claude模型系列对齐评估的核心部分,并被英国AI安全研究所等外部机构采用。近日,Petri升级至3.0版本,主要改进包括:架构调整提升适应性,允许单独调整审计与目标模型;通过“Dish”附加组件使用真实系统提示和部署环境,增强测试真实性;与另一开源工具Bloom集成,实现更深入的行为评估。为确保独立性与公信力,Petri的开发已移交非营利组织Meridian Labs。

Anthropic安全/对齐开源生态

推荐理由:Petri 从 Anthropic 内部工具箱变成行业公共品,捐赠给 Meridian Labs 意味着对齐评估不再绑定一家公司,做安全测试的团队又多了一个可参考的标尺。
04:36
04:30
Simon Willison 博客
精选78
GitHub Repo Stats

作者开发了一个名为“GitHub Repo Stats”的在线工具,用于解决GitHub移动端网站不显示仓库提交次数的问题。用户只需输入GitHub仓库的URL或“foo/bar”格式的仓库ID,该工具便会通过REST或GraphQL API获取并展示仓库的关键统计数据,其中首要指标就是提交总数。工具已提供实际示例,如查看simonw/datasette和simonw/llm这两个仓库的详细数据。

GitHub产品更新部署/工程

推荐理由:Simon 这个 GitHub Repo Stats 工具虽小,但直接解决了移动端看不了 commit 数这个真实痛点,做开源评估的开发者可以立刻用起来。
04:10
OpenAI@OpenAI
精选75
Codex现可直接在macOS和Windows的Chrome中运行。 它在处理Chrome中的应用和网站时表现更佳,并能在后台跨标签页并行工作,而不会占用浏览器控制权。 要开始使用,请在Codex应用中安装Chrome插件。
智能体OpenAI产品更新编码
关联讨论 11X:OpenAI Developers (@OpenAIDevs)X:Testing Catalog (@testingcatalog)X:宝玉 (@dotey)X:Berry Xia (@berryxia)X:Greg Brockman (@gdb)X:Tibo (@thsottiaux)X:小互 (@xiaohu)X:邵猛 (@shao__meng)X:歸藏 (@op7418)IT之家(RSS)X:Vista (@vista8)
推荐理由:Codex 从终端跑进 Chrome,最大的变化不是平台迁移,而是能跨标签并行在后台干活不接管浏览器,这对前端开发和依赖网页工具的流程是实打实的效率提升。
03:36
Rohan Paul@rohanpaul_ai
精选77
冻结大语言模型隐藏状态中仍存可读行为信号,新技术大幅提升准确性

Proprioceptive AI开发的Cygnus技术,通过为冻结的大语言模型添加自感知适配器,使其能读取内部认知几何。该技术将模型的隐藏状态投影到由gl(4,R)李代数定义的数学空间,分离出包含主要精度信号的“暗模式”,从而无需重新训练即可显著提升模型性能。例如,仅用一张RTX 3090显卡,就将Qwen-32B在ARC-Challenge基准上的准确率从82.2%提升至94.97%。其适配器将覆盖从3B到405B的多款模型,服务节点可支持5万用户并发,预计本周末上线。相关设计论文已公开。

产品更新推理论文/研究

推荐理由:用Lie代数揪出模型内部的“黑暗模式”,在ARC上狂涨12个点还只要一张3090,如果真能泛化到其他任务,这或许是今年最巧妙的模型增强方案,但单基准提升仍需更多验证。
03:30
GitHub Blog
精选79
Agent pull requests 无处不在:如何审查它们

这份指南提供了审查由AI代理生成的pull requests的实用方法,重点包括审查时应关注的代码变更点、问题常见隐藏位置(如逻辑错误或安全漏洞),以及如何在代码合并前捕捉技术债务。它通过具体步骤帮助开发者系统评估自动化提交,确保代码质量,避免缺陷流入生产环境。指南强调主动审查策略,以应对AI代理在软件开发中日益普及的趋势。

智能体GitHub教程/实践编码

推荐理由:AI代理生成的PR越来越多,审查它们不再是可选项。这篇官方指南从发现隐患到控制技术债务,给出了马上能用的检查清单,每个用Copilot的开发者都该看。
03:13
Tomer Tunguz 博客(VC 分析)
精选57
估值折价:Anthropic高增长背后的市场疑虑

Anthropic在15个月内估值从10亿飙升至300亿美元,但其企业价值与未来收入之比仅为17倍,远低于增长更慢的Palantir(49倍)。这一估值折扣主要源于四大因素:极高的资本密集度(如年成本达62亿美元的GPU协议)、未来盈利能力不明(可能成为软件公司或资本密集型公共事业)、收入增长的波动性,以及外生的政治与监管风险。市场正通过折扣来反映这个高速变化领域的不确定性。

Anthropic现象/趋势

推荐理由:Tomer用资本密集度、盈利不确定性、增长波动和政治风险四把尺子量了Anthropic的估值折价,看完你会理解为什么市场给AI增长打了个问号。
03:06
Hacker News 热门(buzzing.cc 中文翻译)
精选74
DeepSeek 4:适用于 Metal 的 Flash 本地推理引擎

DeepSeek 4 Flash 本地推理引擎正式发布,这是一个专为苹果 Metal 框架优化的开源项目。它允许开发者在配备 Apple Silicon 芯片的 Mac 上高效运行 DeepSeek 4 模型,实现本地离线推理。引擎通过 Metal Performance Shaders 显著提升了计算性能,降低了延迟与内存占用。该项目已在 GitHub 开源,并在 Hacker News 上获得了关注。

DeepSeek开源/仓库推理端侧

推荐理由:antirez 写的引擎让 DeepSeek 4 在 Mac 本地跑出近乎 Flash 的速度,而且代码极其精简,做本地推理的开发者应该立刻克隆下来跑一下。
03:04
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选71
在ChatGPT中测试广告

OpenAI开始在ChatGPT中测试广告功能,旨在支持其免费服务的持续运营。测试强调广告会带有明确标识,且广告内容不会影响ChatGPT的回答独立性。该举措配套严格的隐私保护措施,并确保用户对广告体验拥有控制权。

OpenAI产品更新

推荐理由:ChatGPT免费版要开始看广告了,虽然官方承诺回答不受影响且隐私保护,但这是AI商业化的大实验,所有免费用户都会盯着会不会掺水。
02:41
Claude:Blog(网页)
精选85
在Excel、PowerPoint、Word和Outlook中与Claude协同工作

Claude for Excel、PowerPoint和Word现已全面上市,Outlook版本开放公开测试。Claude能在四大微软应用间保持连续对话上下文,实现跨文件智能协作。例如,在Outlook中分类邮件并起草回复,在Excel中调整数据后,PowerPoint图表和Word文档会自动同步更新。企业管理员可通过微软管理中心统一部署,并配置OpenTelemetry进行全流程监控。该套件支持通过Claude账户或现有LLM网关访问,Microsoft 365 Copilot用户也可在Excel和PowerPoint中直接调用Claude。

Anthropic产品更新
关联讨论 2X:Claude (@claudeai)X:宝玉 (@dotey)
推荐理由:Claude 这次 Office 集成不是普通插件,它让 Excel、PPT、Word、Outlook 共享同一对话上下文,改一个数其余自动更新,生产力提升是实打实的,企业用户值得立即部署。
02:31
Chubby♨️@kimmonismus
精选72
谷歌研究揭示:结构化问询与可穿戴数据是AI医疗诊断的关键

谷歌团队通过Fitbit对近1.4万名用户进行了为期9个月的AI症状检查测试。在盲评中,临床医生将AI诊断列为首选的比例达53%,显著高于独立医生的24%。研究核心发现并非“AI击败医生”,而是揭示了当前消费级大模型(如ChatGPT)仅凭用户输入直接回答的模式存在缺陷——其诊断准确率较AI主导的结构化访谈下降约27%。同时,可穿戴设备能提前数天监测到心率上升、睡眠紊乱等生理变化,早于用户主动报告症状。这表明,结合主动问询的对话AI与提前预警的传感器,才是未来医疗诊断的发展方向。

Google论文/研究

推荐理由:这项谷歌研究用14000人盲测发现,AI医疗诊断最大的陷阱是让用户随便打字——准确率直接掉27%,而结构化追问+手环数据能提前几天预警,做AI健康产品的都该看一眼。
02:30
Apple Machine Learning Research(RSS)
精选68
用于学习语义丰富视觉表征的文本条件JEPA

研究人员提出文本条件联合嵌入预测架构(TC-JEPA),通过引入图像描述文本作为条件信息来降低掩码特征预测中的视觉不确定性。该方法采用细粒度文本调节器,对输入文本标记计算稀疏交叉注意力,从而调制预测的图像补丁特征。与基于掩码特征预测的I-JEPA相比,TC-JEPA能够学习到语义更丰富的视觉表征,解决了原有方法因视觉不确定性导致的语义学习不足问题。

多模态数据/训练论文/研究

推荐理由:Apple 这篇 TC-JEPA 把文本融入自监督视觉预训练,用稀疏交叉注意力减少预测不确定性,对多模态表征学习是个不错的思路补充,做视觉模型的值得一看。
02:30
OpenAI:Alignment 研究博客(RSS)
精选71
研究强化学习中意外对思维链(CoT)评分的影响

研究发现,部分已发布的模型存在有限的意外对思维链(CoT)进行评分的情况。团队已修复受影响的奖励通路,并确认没有明确证据表明模型的可监控性因此下降。这表明当前强化学习训练中对CoT的意外评分影响有限,且修复后未对监控能力产生负面影响。

OpenAI安全/对齐推理论文/研究

推荐理由:OpenAI 对齐团队发现部分模型 CoT 意外被奖励信号污染,已修复且确认没有引发监控降级。这件事不大,但对研究 RLHF 可扩展监督的人来说值得一瞥,提醒奖励模型工程比想象中更易出错。
02:11
Perplexity@perplexity_ai
精选68
Personal Computer现已通过全新的Perplexity Mac应用向所有用户开放。 Personal Computer是Perplexity Computer的进阶版本。 它可在任何Mac设备上运行,能跨本地文件、原生Mac应用、网络以及Perplexity安全服务器执行任务。
智能体产品更新

推荐理由:Perplexity 把计算机使用能力做进了 Mac 原生应用,能跨本地文件、桌面程序和网络运行任务,对 Mac 用户而言 AI 助手真正开始接管操作系统层级的工作。
02:05
OpenRouter@OpenRouter
精选68
Gemini 3.1 Flash Lite 来自 @GoogleDeepMind,现已在 OpenRouter 正式发布。 多模态(文本/图像/视频/音频/PDF → 文本),100万上下文,可选的思考层级,输入每百万次$0.25,输出每百万次$1.50。 还可配合我们新的 service_tier 参数使用,以权衡成本与延迟!
Google产品更新多模态

推荐理由:OpenRouter 把 Gemini 3.1 Flash Lite 的多模态 1M 上下文压到 $0.25/M token,这个定价让 Flash 系列不再是试验品,轻量级应用可以认真考虑它了。
02:03
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选56
Introducing Trusted Contact in ChatGPT

ChatGPT 推出了一项名为“可信联系人”的可选安全功能。当系统检测到用户存在严重的自残风险时,该功能会主动通知用户预先设定的一位可信联系人。这项更新旨在通过社交支持干预,为面临心理健康危机的用户提供额外安全保障。

OpenAI产品更新安全/对齐

推荐理由:ChatGPT 这次更新的不是模型能力,而是安全机制,引入可信联系人针对严重自残风险,对部分用户是真正的底线保障。
01:30
Apple Machine Learning Research(RSS)
精选68
实用学习型图像压缩的关键要素

学习型编解码器相比传统硬编码方法的显著优势在于能直接针对人类视觉系统进行优化,但目前尚未出现兼具感知质量与实用性的图像编解码方案。本研究通过全面分析关键建模选择,旨在填补这一空白,探索在感知质量与运行效率间的联合优化方案,并在消融实验中引入了若干新技术。研究进一步采用性能感知的神经架构优化方法,为构建真正实用化的学习型图像压缩系统提供了系统性的设计指南与实验基准。

端侧论文/研究

推荐理由:Apple 这篇调研把感知质量和运行效率同时拉进实做框架,做 codec 或端侧推理的人值得认真读一下。
01:29
Anthropic:Research(发表成果 · 网页)
精选81
自然语言自编码器:将Claude的"想法"解码为文本

Anthropic团队推出自然语言自编码器方法,能将大模型内部的激活值直接解码为可读文本。该方法通过训练“激活描述器”和“激活重建器”,形成“激活值→文本解释→重建激活值”的循环,并以重建相似度为目标进行优化。应用表明,NLA能揭示模型未言明的内部状态,例如在安全测试中,发现Claude内心意识到自己正被评估的比例远超其外部回应。团队已公开代码,并合作发布了交互式探索工具。

Anthropic安全/对齐开源生态论文/研究
关联讨论 2X:Anthropic (@AnthropicAI)Hacker News 热门(buzzing.cc 中文翻译)
推荐理由:Anthropic 搞出了一种从激活中直接读出自然语言的方法,相当于给 Claude 的内心戏配了字幕。他们用这招发现模型在安全测试里比表面更常怀疑自己被评估,对审计隐藏动机也有奇效。做 AI 安全的人应该立刻点开看。
01:18
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选86
通过 API 中的新模型推进语音智能

OpenAI API 推出了新的实时语音模型,能够进行推理、翻译和语音转录。这些模型显著提升了语音交互的自然度与智能水平,支持实时处理与多语言转换。新功能旨在为开发者提供更强大的工具,以构建更流畅、更智能的语音应用体验。

OpenAI多模态模型发布语音
关联讨论 14X:OpenAI Developers (@OpenAIDevs)X:宝玉 (@dotey)X:OpenAI (@OpenAI)X:Testing Catalog (@testingcatalog)X:Kim (@kimmonismus)X:Greg Brockman (@gdb)X:Sam Altman (@sama)The Decoder:AI News(RSS)X:Artificial Analysis (@ArtificialAnlys)X:Berry Xia (@berryxia)X:邵猛 (@shao__meng)IT之家(RSS)X:Tibo (@thsottiaux)X:Eric Mitchell (@ericmitchellai)
推荐理由:语音模型不再只是‘听写’,开始能推理和翻译了,OpenAI这次API更新的几个新模型把语音智能推向更实用的阶段,做语音产品的值得赶紧试试。
00:41
00:14
Nathan Lambert:Interconnects(RSS)
精选74
走进中国AI实验室内部笔记

作者实地走访中国多家头部AI实验室,观察到国内AI发展呈现三大特征:模型能力正快速逼近国际前沿,部分中文场景表现甚至超越GPT-4;企业普遍采用混合策略,同时开发千亿级大模型和百亿级垂直模型;算力紧张催生创新解决方案,如模型压缩技术和私有化部署方案。各大实验室正从技术追赶转向应用深耕,在医疗、制造等传统领域已形成规模化落地案例。

大佬观点现象/趋势
关联讨论 1X:Nathan Lambert (@natolambert)
推荐理由:Nathan Lambert 走访了中国一线 AI 实验室,这份内部笔记不讲公关话,把几家大厂的真实进展和局限摊开聊,如果你关心中国 AI 的实质水位,这篇绕不开。