5月1日
09:15
宝玉@dotey
63
Demis Hassabis谈AGI瓶颈、智能体现状与科学突破

Demis Hassabis认为当前AI范式(预训练+RLHF+思维链)可能是AGI架构的一部分,但仍有50%概率需要一两个关键突破,未解决持续学习、长程推理和记忆等问题。他指出,百万token上下文窗口处理实时视频仅够20分钟,现有方法如同“用胶带糊住”。AlphaGo时代的技术正被重新引入基础模型以推动进步。智能体尚处实验阶段,投入产出比不匹配。完整虚拟细胞等科学突破还需约10年,关键瓶颈是活细胞成像技术。

智能体DeepMind大佬观点推理
09:10
ginobefun@hongming731
61
AI时代软件开发、商业逻辑与工程实践的根本性转变

Andrej Karpathy提出软件3.0时代,编程核心转向上下文工程,并区分了Vibe Coding与Agentic Engineering两种开发姿态。OpenAI总裁Greg Brockman指出,算力套利是商业模式,人类注意力已成为新瓶颈,并估算AGI进程已完成八成。Anthropic的Claude Code团队则将Prompt Caching提升为核心工程纪律,通过优化prompt布局和更新机制,将缓存命中率作为关键SLA监控,以控制成本并保证系统性能。

智能体OpenAI现象/趋势编码
09:10
ginobefun@hongming731
54
软件3.0与AI编程进展摘要

Karpathy提出软件3.0概念,编程核心从写代码转向提供上下文,并区分Vibe Coding与Agentic Engineering两种模式。OpenAI总裁Brockman将AGI瓶颈从算力移至人类注意力,估计已完成80%。Anthropic分享Claude Code实战,以Prompt Caching命中率为SLA监控,将“上下文即新代码”转化为工程纪律。

智能体AnthropicOpenAI大佬观点
09:10
Berryxia.AI@berryxia
63
Geometry成为AI建筑关键层,OpenGeometry打通文本到CAD全流程

推文指出,Geometry(几何)已成为AI在建筑领域缺失的关键层。@Bootsblac开发的OpenGeometry项目,实现了从文本或平面图到最终渲染的完整流程贯通,使得精确控制成为可能。其核心能力包括:直接从文本或平面图生成精确的BREP CAD模型;利用Three.js进行实时渲染,并由Google AI驱动,形成端到端的全流程。该项目已完整开源,可供使用。

多模态开源/仓库开源生态
08:45
Orange AI@oran_ge
49
结构,是我最近思考最多的词元

作者以“结构”为核心,系统阐释了其在产品、AI Agent、大模型、人际关系及公司组织中的决定性作用。做产品是设计引导用户的“河床”;开发Agent是构建管理上下文的框架;训练大模型实为提取语料中的“结构能”。人与公司的效率同样取决于结构能量。作者指出,当前一些大厂的AI转型仅“加石头”而不变革组织架构,尤其由中层主导改革存在根本矛盾。最终强调,改变命运需从改变底层结构开始。

智能体大佬观点
08:45
08:44
elvis@omarsar0
58
DeepSeek-V4-Pro 在智能体编码任务中表现惊艳

测试者使用 DeepSeek-V4-Pro 在 Pi 编码智能体上构建了一个 LLM 知识库,对其开箱即用的表现感到震撼。这是首个在推理能力上媲美 Claude 和 Codex 的开源权重模型,且成本效益高,支持 100 万上下文长度。该模型无需复杂配置即可在基础框架中直接运行,擅长智能体编码和知识密集型推理任务,能跨公司文档、论坛、论文和代码库进行多步骤研究、代码生成与上下文推理。其高效运行得益于 Fireworks 的市场最快推理速度及混合注意力设计,将 KV 缓存降至 10%,推理计算量减少近 4 倍,实现了快速且低成本的实践部署。

智能体DeepSeek开源生态推理
08:10
Berryxia.AI@berryxia
62
在这场访谈中,Karpathy 分享了他作为程序员在 AI 时代的亲身经历与深刻洞见

Karpathy指出,2025年12月AI生成代码从需修改变为直接可用,标志进入Vibe Coding状态。软件开发进入Software 3.0大语言模型时代,编程核心转为通过prompt等操纵LLM。LLM能力呈锯齿状智能,在可验证、RL优化领域强,但常识任务上易犯错。他区分Vibe Coding(提高开发下限)与Agentic Engineering(守住质量、安全上限),强调人类理解、品味和判断仍最宝贵。未来可能转向神经计算机,基础设施需Agent-first。

智能体大佬观点现象/趋势编码
08:10
Berryxia.AI@berryxia
68
利用AI工具链快速生成360度沉浸式游戏场景

推文介绍了一种利用AI工具链快速创建360度全景沉浸式小游戏体验的方法。核心流程是:首先,向图像生成AI(Agent)提供一个简单提示,例如让其研究AI公司吉祥物并生成一个360度全景动物园图像。然后,将生成的全景图输入Codex,即可获得相应的3D视图,从而构建出游戏场景。这种方法旨在简化沉浸式内容的创作门槛,标志着一种新的内容生成时代的到来。

图像生成多模态教程/实践
08:10
Berryxia.AI@berryxia
53
2026年你必须了解的6个大语言模型(LLM)知识库专业术语!

本文介绍了2026年构建高效团队LLM知识库必须掌握的六个核心术语。LLM知识库是让大语言模型处理原始资料并自主检索回答的系统,难点在于团队适配。持续数据摄取能自动从Slack、CRM等工作工具同步信息。来源可信度分级帮助区分官方决策与聊天观点等不同价值信息。时效性监控可主动发现信息矛盾并降低过时内容权重。自主维护实现文档随工作进展自动更新。这些技术共同对抗知识漂移,即文档与现实间缓慢产生的信息偏差,这是导致AI代理给出错误答案的主要根源。

检索增强教程/实践
08:10
Berryxia.AI@berryxia
53
智能体AI架构设计的心智模型与七层逻辑

基于Anthropic关于智能体AI的博客,作者提炼出一个用于理解和设计智能体AI架构的心智模型。该模型以明确任务目标为前提,核心架构包含七个层次:编排层负责全局调度;智能体层由多智能体分工协作;工具层提供搜索、API等能力支持;记忆层存储长短期信息;监控层实时追踪每一步执行;可靠性与故障管理层处理错误、重试与降级;治理与安全层确保合规、审计与数据安全。监控层被视为最关键环节,而故障管理支持自动处理与人工介入。

智能体Anthropic教程/实践
08:10
阿绎 AYi@AYi_AInotes
57
Naval论"氛围编程":AI时代带来真实奖励的创作游戏

Naval提出“氛围编程”(vibe coding)概念,将其比喻为带有真实世界奖励的视频游戏。用户通过自然语言描述想法,AI即可生成可运行的真实应用,创造出能分享、盈利甚至改变生活的产品。这消除了传统开发中对工程师的依赖,允许创作者完全按自身愿景迭代。其核心变革在于应用开发主体的扩大:从专业程序员转变为任何能用清晰语言描述想法的人。这标志着创作者经济进入从内容创作到直接构建产品的新阶段,并可能催生更多个人开发的爆款应用。该过程具有游戏的即时反馈与成瘾性,却在现实中积累真实资产。AI并非取代程序员,而是将编程转变为一种人人可用的超级能力。

大佬观点现象/趋势编码
07:10
Berryxia.AI@berryxia
55
David Sacks 回应 AI 安全机构公告,解读 GPT-5.5-cyber 的网络攻击模拟能力

AI 安全机构宣布 OpenAI 的 GPT-5.5-cyber 成功完成多步网络攻击模拟,成为继 Anthropic 的 Mythos 后第二个端到端完成攻击链的模型。David Sacks 回应指出,此类模型并非魔法或末日武器,仅是能自动化网络安全任务的工具,且所有前沿模型(包括中国模型)预计将在约6个月内达到同等水平。他强调模型不创造漏洞,而是发现并帮助修补已有漏洞,从而增强系统安全。从“前AI”到“后AI”网络安全将经历重大升级,最终达到AI驱动攻防的新平衡。关键在于确保防御方优先获得模型访问权,且需加速此进程。GPT-5.5-cyber 因无token限制,可能成为首个防御方可实际使用的模型。

AnthropicOpenAI大佬观点安全/对齐
06:15
04:12
Chubby♨️@kimmonismus
60
本地LLM游戏开发对决:Gemma 4 31B 在效率与逻辑上胜过 Qwen 3.6 27B

在@atomic_chat_hq平台的本地LLM游戏开发竞赛中,Gemma 4 31B与Qwen 3.6 27B于MacBook Pro M5 Max上对决。尽管Qwen生成速度更快(32 tokens/秒)且回答更具创意,但Gemma仅用3分51秒和6209个token,输出了更简短、清晰、逻辑性强的答案。在具体的吃豆人游戏逻辑实现上,Gemma在点击反应、与墙壁/幽灵的交互及粒子效果处理方面表现更优。作者强调此为单次测试,Qwen或可通过调整设置提升表现,并邀请社区验证。

开源生态推理评测/基准
03:14
karminski-牙医@karminski3
精选72
DeepSeek-V4 API推理内容字段缺失导致报错问题

用户在使用DeepSeek-V4 API或集成该模型的终端编码代理(如Claude Code、Kimi CLI)和AI IDE(如Cursor)时,频繁遇到HTTP 400报错。错误信息指出,在思考模式下必须将`reasoning_content`字段回传给API。核心问题在于,当任务步骤的`tool_call`过于简单直接时,DeepSeek-V4返回的`reasoning_content`可能为空字符串。许多开发工具默认会过滤掉空值字段,导致该字段未被回传,从而触发API报错,致使编码任务或代理中断。经测试,在特定场景下该字段返回空字符串的概率高达59%。解决方案是必须将空字符串值的字段原样回传,不能省略或改为空对象。目前需等待IDE官方修复或自行修改开源工具,使用DeepSeek-V4的代理项目也需注意此问题。

DeepSeek推理教程/实践

推荐理由:如果你在用 DeepSeek-V4 写代码,这个坑迟早会踩到,作者把问题和解法都讲清楚了,不用等 IDE 修,看完就能自己改。
03:14
Artificial Analysis@ArtificialAnlys
46
GPT-5.5 Pro以更低成本实现性能微升,在尖端科学评估中领先

在名为CritPt的尖端科学评估中,GPT-5.5 Pro (xhigh) 以比前代GPT-5.4 Pro (xhigh) 低60%的成本和令牌使用量,实现了0.5个百分点的性能提升,将得分推至30.5%。CritPt评估包含全球30多家机构的60多名研究人员贡献的研究生级别物理问题。自2025年11月发布以来,最高分从Gemini 3 Pro Preview的9%跃升至GPT-5.4 Pro的30%。OpenAI指出,GPT-5.5 Pro相比GPT-5.5“使用了更多计算资源进行深度思考,以提供更稳定的优质答案”。该模型每令牌定价相同,但通过使用更少的令牌完成了评估。

OpenAI推理评测/基准