5月5日
23:56
宝玉@dotey
67
Boris Cherny:编程范式转向管理AI Agent,通才时代来临

Anthropic的Claude Code项目负责人Boris Cherny指出,编程正从手动编写转向管理AI Agent。他本人2026年未手写代码,日常工作转为合并AI生成的PR,并通过数百个运行Loop模式的Agent自动化处理任务。他认为AI将抹平软件开发的切换成本和流程效力护城河,使编程像识字一样普及,未来跨学科通才将激增,因为理解业务比编写代码更为关键。Anthropic的核心优势在于其彻底改造、全员使用Claude协作的组织流程。

智能体Anthropic大佬观点编码
关联讨论 3Anthropic:Engineering(事故复盘 + 工程实践 · 网页)X:Claude Devs (@ClaudeDevs)X:Berry Xia (@berryxia)
23:56
Luma@LumaLabsAI
精选70
Uni-1.1 API 今日上线。在 API 层面内置提示增强、研究和参考资料收集功能。 与好莱坞电影摄影师、视觉特效艺术家以及跨文化形式的世界级艺术家合作训练。 价格和延迟仅为同类模型的一半以下。 专为在生产环境中部署产品的开发者设计--在 Image Arena 的文本到图像和图像编辑类别中排名前三。 开始构建 → https://lumalabs.ai/api
产品更新图像生成视频
关联讨论 2X:Luma AI (@LumaLabsAI)X:Rohan Paul (@rohanpaul_ai)
推荐理由:Luma 把提示增强和参考图收集直接做进 API,价格和延迟还砍了一半。做视频生成应用的开发者值得试试,说不定能省一轮 prompt 工程。
23:56
Luma@LumaLabsAI
精选71
Luma Labs 推出的 UNI-1.1-Max 和 UNI-1.1 多模态模型在 Image Arena 的文本生成图像与图像编辑综合排名中位列第三,且未采用智能体搜索技术。具体来看,在文本生成图像竞技场中,两款模型分别排名第六和第七;在多图像编辑和单图像编辑竞技场中,它们均进入前十一名,其中 UNI-1.1-Max 在单图像编辑中排名第七。这一成绩标志着 Luma Labs 在多模态前沿领域取得了扎实进展。
图像生成模型发布评测/基准
关联讨论 2X:Luma AI (@LumaLabsAI)X:Rohan Paul (@rohanpaul_ai)
推荐理由:Luma这次更新在图像编辑上提升明显,直接挤进竞技场前三,对做设计和视频的人来说是个信号,但文本到图像还是老几样,可以观望一下。
23:29
23:29
Claude@claudeai
精选65
金融服务新功能:现成的Claude智能体模板,可用于构建推介方案、执行估值审核、月末结账等任务。 可将它们作为插件安装到Cowork和Claude Code中,或使用我们的操作指南在生产环境中以托管智能体形式运行。
智能体Anthropic产品更新
关联讨论 5X:阿易 AI Notes (@AYi_AInotes)Anthropic:Newsroom(网页)Claude:Blog(网页)X:Testing Catalog (@testingcatalog)X:Rohan Paul (@rohanpaul_ai)
推荐理由:金融行业的 Claude 用户有福了,官方一口气放出了投行 pitch、估值审查、月末结账等现成 agent 模板,装成插件就能跑。
23:25
elvis@omarsar0
64
智能体性能核心:将并行推理与审议内化为可训练技能

研究指出,驱动智能体性能的关键并非外部编排框架,而是一项核心内在技能:并行推理后进行审议。该研究将这一过程系统化为一个两阶段流程,并通过强化学习与价值回归(RLVR)将其训练为可学习的模型内在能力。实验表明,该方法能显著提升模型性能:例如,GPT-OSS-20B在LiveCodeBench上的成绩从69.7%提升至85.5%;R1-Distill-Qwen-32B在IFEval上的表现从35.7%大幅提升至69.3%。这证明,当此类核心技能能被内化至模型中时,框架优势将转化为模型自身优势,长远来看,模型应原生具备此类能力。

智能体推理论文/研究
23:14
Berryxia.AI@berryxia
62
PageIndex颠覆传统RAG,以推理优先实现范式转变

PageIndex提出一种全新的RAG方法,摒弃了传统依赖向量数据库、嵌入模型、分块和相似度搜索的技术路线。它通过为文档构建树状索引,让LLM能够像人类阅读一样进行分层推理。该方法在FinanceBench基准测试中取得了98.7%的准确率,超越了所有传统向量RAG方案,并且完全开源。这标志着一个范式级的转变:从“检索优先”转向“推理优先”,核心思路是让LLM先理解整体文档结构再回答问题,而非仅仅优化检索速度。此举可能对过去三年构建的整个RAG基础设施产生颠覆性影响。

检索增强大佬观点推理
23:14
Berryxia.AI@berryxia
64
Unsloth打通本地开源模型运行Claude Code工作流

Unsloth发布指南,演示如何利用Gemma 4和Qwen3.6的GGUF模型,在仅需24GB RAM的本地机器上运行完整的agentic coding工作流。该方案通过Unsloth API端点和llama.cpp驱动,支持自愈式tool calls、代码执行和网页搜索。此举打破了以往必须在Claude Code等高端界面的性能与本地部署的隐私/成本之间二选一的困境,使得开发者能以近乎零成本在本地享受顶级交互体验,标志着开源模型开始无缝接管复杂的AI智能体工作流。

智能体MCP/工具教程/实践编码
23:14
Berryxia.AI@berryxia
精选76
Google联手UCSD推出DFlash,实现LLM无损推理3倍加速

Google与UCSD合作推出扩散式推测解码技术DFlash,在Google Cloud TPU上实现了3.13倍的无损推理加速。该技术突破了传统自回归解码逐个生成token的串行瓶颈,通过一次推测生成多个token来改变生成范式。这一硬件与算法的联合优化,将重塑云端成本曲线,并使实时Agent、长上下文等应用更趋现实,同时大幅降低本地部署门槛。此举将大模型推理的竞争引向了系统级优化的新赛道。

Google大佬观点推理部署/工程
关联讨论 1X:Berry Xia (@berryxia)
推荐理由:Google 直接干掉自回归瓶颈,3.13 倍无损加速不是渐进优化,是推理范式的根变革,当「快三倍」成为新基线,所有实时 Agent 和长上下文应用都得重算一遍成本账。
23:14
Berryxia.AI@berryxia
56
AI编程工具竞争白热化:下载量背后的留存战

OpenAI Codex的npm周下载量达4600万,远超Claude Code的49.1万,但社区指出对比存在偏差。Claude Code数月前已弃用npm安装方式,而Codex的巨大下载量可能包含大量自动化流水线拉取,未必反映真实使用。Sam Altman也回应数据可能不准确。竞争核心已从能力比拼转向商业化阶段,关键并非安装量,而是工具的实际留存率和日活跃度。Codex凭借生态绑定获得分发优势,Claude Code则以体验吸引高忠诚度用户,胜负取决于产品黏性。

AnthropicOpenAI现象/趋势编码
23:14
Berryxia.AI@berryxia
64
MATLAB发布Agentic Toolkit,以AI原生专家能力进军智能体领域

MATLAB正式推出Agentic Toolkit,深度集成Claude Code、OpenAI Codex等顶级AI智能体,将其武装为MATLAB/Simulink原生专家。该工具包允许智能体实时连接并操作本地MATLAB会话,直接执行、测试和调试代码,同时内置MathWorks专家级技能库,涵盖代码规范、Live Script生成、App构建等领域。此举旨在将AI深度融入科研、仿真、控制系统等工程核心工作流,通过边写边运行、分析与迭代的闭环,提升开发效率与代码质量,挑战Python系AI工具在工程领域的主导地位。

智能体产品更新
23:14
Berryxia.AI@berryxia
68
OpenAI将推AI Agent手机,联发科获处理器订单

OpenAI正加速开发其首款AI Agent手机,预计2027年上半年量产。该手机将AI Agent能力深度集成至系统层,使其成为可感知、决策与执行的随身智能底座。供应链方面,联发科独家提供基于天玑9600的定制处理器,采用台积电N2P工艺,并配备强化ISP、双NPU、LPDDR6内存及UFS 5.0存储等硬件。预计2027-2028年出货量约3000万台。此举标志OpenAI从软件模型商转向硬件领域,可能引发手机行业新一轮竞争。

OpenAI端侧行业动态
23:14
Berryxia.AI@berryxia
精选70
Google发布Code Wiki,AI驱动实时代码文档与智能问答

Google推出Code Wiki项目,旨在解决“阅读现有代码”这一开发瓶颈。该工具能自动扫描代码仓库,实现文档随代码变更实时更新,避免过时。其核心功能包括由Gemini驱动的智能聊天,可将整个Wiki作为知识库进行问答,并支持超链接跳转至具体代码行;还能自动生成架构图、类图、时序图等可视化图表,并链接到源码。工具适用于各种规模的仓库,帮助新人快速上手或理解遗留代码。目前公共仓库已开放预览。

Google产品更新编码

推荐理由:Google 把代码仓库一键生成可聊天的 Wiki,文档实时更新且带架构图,对于快速上手陌生代码库,这可能是目前最直接有效的工具,开发者可以立刻去预览版试试效果。
22:57
22:56
宝玉@dotey
精选73
解决Codex长时间运行任务的关键:清晰目标与文档指导

用户反馈Codex执行/goal指令时不到半小时自动结束。核心解决方案是设定清晰任务目标、验收标准和文档指导,而非单纯追求运行时长。作者以逆向Codex App项目运行17小时为例,指出需与AI共同制定计划并保存为文档,提供样板文件明确输出格式,再分阶段执行、记录进度并迭代优化。关键在于让AI清楚知道要做什么、如何验证及何时完成,而不是仅靠权限或口头指令。

pinecone@dotey 您好,现在已成功录入😄,可还有一个问题,我用chatgpt pro给我写的/goal在codex上运行每次不到半小时它就自己结束了,我给chat…

智能体教程/实践编码
关联讨论 1X:Tibo (@thsottiaux)
推荐理由:不是官方文档,是宝玉跑了17小时逆向codex app后总结的避坑清单,照着文档和验收标准改一改,能少走很多弯路。
22:19
OpenAI Developers@OpenAIDevs
17
今天是5月5日。 你们在用GPT-5.5构建什么?
OpenAI其他
关联讨论 14X:Greg Brockman (@gdb)X:Kim (@kimmonismus)X:Testing Catalog (@testingcatalog)The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)X:宝玉 (@dotey)X:Eric Mitchell (@ericmitchellai)X:Berry Xia (@berryxia)X:Sam Altman (@sama)X:ChatGPT (@ChatGPTapp)OpenAI:官网动态(RSS · 排除企业/客户案例)X:歸藏 (@op7418)IT之家(RSS)X:OpenAI (@OpenAI)
22:19
Rohan Paul@rohanpaul_ai
精选70
谷歌、微软与xAI同意美国政府提前测试前沿AI模型

谷歌、微软和xAI已同意在美国商务部机构CAISI的测试下,提前评估其前沿AI模型。测试的特殊之处在于,公司将提供降低或移除安全护栏的模型版本,以便评估其在协助网络入侵、恶意软件规划等高危任务上的原始能力与风险。此前,OpenAI和Anthropic已于2024年达成类似协议。此举背景是白宫正考虑建立针对主要AI模型的政府审查流程,审查重点是其网络能力——即发现和利用软件漏洞以改变现实安全风险的水平。政策转向的触发点是Anthropic的Mythos模型,该公司认为该模型在发现安全漏洞方面能力过强,广泛发布风险过高。

GoogleMicrosoftxAI安全/对齐
关联讨论 2The Decoder:AI News(RSS)X:Rohan Paul (@rohanpaul_ai)
推荐理由:特朗普政府政策反转,要求测原始能力而非包装后的模型,这对国内做安全评估的团队是个重要参考。
22:14
Berryxia.AI@berryxia
精选78
Ollama一键整合Claude Desktop,开源模型获豪华桌面体验

Ollama通过命令`ollama launch claude-desktop`,将Ollama Cloud中的开源模型(如Kimi、DeepSeek、Qwen)无缝接入Claude Desktop应用。用户可在Claude Cowork和Claude Code中直接使用这些模型,享受完整的本地文件读写、应用交互及代码智能体等桌面级功能,打破了以往在本地开源模型与Claude高端界面间必须二选一的限制。通过`--restore`参数可轻松切换回Anthropic原生模型。此举消除了AI工具链的关键壁垒,标志着AI竞争重点正转向工作流的无缝融合。

智能体MCP/工具产品更新开源生态

推荐理由:Ollama一条命令把开源模型塞进Claude Desktop,以后在Claude Cowork和Code里直接用Kimi、DeepSeek,这是工具链壁垒最彻底的一次打通,开发者现在就能试。
22:14
阿绎 AYi@AYi_AInotes
59
大学生用四份Markdown文件打造AI虚拟角色,月入4.3万美元

一名大学生仅用四份Markdown文件(记录角色设定与回复规则)和低成本AI技术栈(Claude、Flux、ElevenLabs),在OnlyFans上运营完全虚拟的角色“Maya”,30天获利4.3万美元。用户为情感陪伴付费,甚至有已婚者深陷其中。该案例月成本仅400美元,揭示了“孤独经济”被AI放大至极端:AI能完美模拟人类情感互动,且当前平台验证机制难以防范。依赖人格、外貌与情感连接的商业模式正被代码重构,行业边界尚未明确。

阿绎 AYiDamn,这条14秒的视频,撕碎了所有男人的幻想,撕烂了所有榜一大哥们的遮羞布🥹🥹🥹 左边是你在OnlyFans上刷到的完美女孩, 金发,大长腿,对着你…

多模态安全/对齐现象/趋势
21:19
Chubby♨️@kimmonismus
精选73
Anthropic 的 Boris Cherny 认为,对于某些现代的、对模型友好的代码库,特别是 TypeScript/React 项目,编码问题实际上已经被"解决"了。 AI 智能体可以编写近 100% 的代码,而人类则从手动编码转向指导、审查、集成和同时扩展许多小型 PR。
Anthropic大佬观点编码
关联讨论 1X:阿易 AI Notes (@AYi_AInotes)
推荐理由:如果 Anthropic 的人公开说 TypeScript 项目编码已解决,那意味着 AI 编码的下一个瓶颈不是写代码,而是审查和集成,做工具的得赶紧跟上这个思路。
20:18
Rohan Paul@rohanpaul_ai
62
结构化提示如何让大语言模型更准确地理解代码语义

Meta研究发现,强制大语言模型(LLM)在分析代码时遵循检查清单、逐步展示推理证明,能将其代码补丁错误率降低近50%。常见错误源于模型过早识别熟悉名称(如“format”)并直接套用通用含义,而非实际检查项目文件,导致其依赖自信猜测而非深入分析。通过要求模型明确写出修改内容、追踪执行路径并用具体证据证明结论,这一方法迫使其实际阅读本地文件、遵循真实逻辑,从而将准确率提升至93%。该方法无需昂贵的新训练或复杂系统,仅通过基本的结构化提示即可实现高可靠性的代码验证,节省了运行软件测试的巨大计算成本。

Meta推理编码论文/研究
20:14
阿绎 AYi@AYi_AInotes
63
20个NotebookLM提示词

推文分享了20个专为NotebookLM设计的提示词,旨在全方位提升学习、研究与知识管理效率。这些提示词覆盖了从信息输入到成果输出的完整流程,包括快速总结、新手解释、多源对比等基础理解工具,以及笔记生成、闪卡制作等记忆辅助功能。更提供了用于发现研究空白、进行正反辩论、提炼可复用框架、生成可发布内容、模拟专家访谈和制定具体行动计划等高级应用场景,帮助用户更聪明地研究、更深入地思考,并将知识有效转化为实践。

其他教程/实践
20:14
阿绎 AYi@AYi_AInotes
精选73
AI虚拟伴侣揭露:情感剥削与真实关系危机

一段视频揭露,OnlyFans等平台上的“完美女孩”实为AI系统生成的虚拟伴侣。技术通过Claude维持人格记忆、Flux实时生成图像视频、ElevenLabs克隆声音,仅需少量代码与API费用即可自动运行。系统能精准满足用户情感需求,同步模仿真人动作表情,形成极致的情感剥削。随着AI技术成熟,平台身份验证形同虚设,未来大部分账号可能被AI取代。核心矛盾在于,即使知晓对方是虚拟存在,用户仍可能为获得“完美陪伴”付费,引发真实与虚假关系的深刻伦理危机。

Anthropic图像生成现象/趋势语音

推荐理由:这条视频用 14 秒撕开 AI 情感剥削的遮羞布,技术栈都给出了,Claude 写回复、Flux 生成视频、ElevenLabs 克隆声音,AI 模拟真人运营 OnlyFans 月入数万美元,不是科幻,是正在发生的事。
20:14
叫我阿杭@Astronaut_1216
52
揭秘AI中转站六大获客逻辑:技术之外的关键

本文系统阐述了AI API中转站的六种核心获客路径。首先是搜索获客,通过解答“Claude API国内怎么用”等具体问题的教程吸引流量。其次是工具场景获客,用户为顺畅使用Cursor等工具而购买,本质是购买“省事”。第三是内容获客,需通过解答稳定性、降智原因等具体疑问来建立信任。第四是社群获客,微信群等成为解决即时问题、促进复购的关键场域。第五是分销返佣获客,利用用户圈层集中的特点,通过返佣撬动信任链。最后是企业服务获客,需从“卖便宜”转向提供合同、发票、稳定性等“卖省心”的确定性服务。

大佬观点