本来是想随便玩一下的。 没想到 Codex 真的用一下午帮我开发了一个非常完整的类似《杀戮尖塔》的卡牌游戏。 代码和客户端都已经开源了,大家可以试试
OpenAI在Codex CLI 0.128.0版本中正式推出Ralph loop功能,通过新增的/goal命令实现目标驱动的持续执行。用户只需在配置文件中启用该功能,即可为AI助手设定一个目标,系统将自动保持该目标在多轮对话中的连续性,直至任务完成。此举简化了工作流程,用户无需再手动编写脚本或借助外部工具进行状态维护。该功能目前仅限终端CLI使用,桌面应用程序暂未支持。
Karpathy指出,LLM的核心价值在于创造新可能性(如取代传统代码的MenuGen、.md技能和知识库),而非仅加速旧流程。模型能力呈现“锯齿状”分布,由任务可验证性和商业利益共同塑造。未来将进入“Agent原生”经济,基础设施需面向智能体设计,强调信息的可读性,Agentic Engineering成为新兴工种,神经计算可能主导任务处理,经典CPU退化为协处理器。
关联讨论 2 条X:阿易 AI Notes (@AYi_AInotes)X:Andrej Karpathy (@karpathy)Demis Hassabis认为当前AI范式(预训练+RLHF+思维链)可能是AGI架构的一部分,但仍有50%概率需要一两个关键突破,未解决持续学习、长程推理和记忆等问题。他指出,百万token上下文窗口处理实时视频仅够20分钟,现有方法如同“用胶带糊住”。AlphaGo时代的技术正被重新引入基础模型以推动进步。智能体尚处实验阶段,投入产出比不匹配。完整虚拟细胞等科学突破还需约10年,关键瓶颈是活细胞成像技术。
彭博社透露苹果计划推出名为“AirPods Ultra”的新旗舰耳机,定位高于AirPods Pro 3(国行1899元)。其最大亮点是内置红外摄像头,用于配合iOS 27的新版Siri提供环境视觉信息,强化AI交互。交互方式将移除压感柄,改为摄像头识别的手势控制。音频方面预计搭载全新H3芯片,以降低延迟、提升音质并为AI功能提供算力。该产品可能于2026年秋季与iPhone 18系列一同发布。
微软发布了Windows 11 2026年4月可选更新KB5083631。本次更新引入了全新的Xbox模式,提供全屏游戏界面,可通过Xbox应用或快捷键进入。文件资源管理器获得多项可靠性改进,修复了深色模式下的白色闪烁错误,新增对多种归档格式的支持,并解决了文件夹视图设置无法记忆的问题,性能有所提升。此外,更新还带来了需特定硬件支持的触觉反馈引擎,以及为开发者提供的任务栏AI智能体API。其他改进包括更快的Windows Hello身份验证、更直观的语音输入,并将命令行格式化FAT32卷的大小限制从32GB提升至2TB。
OpenAI计划将AI编程智能体工具Codex从桌面端扩展至移动端,推出配套iPhone应用。该应用定位为“开发智能体指挥中心”,用户可通过手机监控后台运行的自动化任务并接收实时反馈。产品定位从智能体编程转向通用生产力工具,新版Mac应用新增工作类型选项,涵盖工程、财务等10个领域,系统会根据用户选择调整界面。移动应用预计深度集成版本控制系统,支持用户通过语音或触控审批代码修改建议。
Andrej Karpathy提出软件3.0时代,编程核心转向上下文工程,并区分了Vibe Coding与Agentic Engineering两种开发姿态。OpenAI总裁Greg Brockman指出,算力套利是商业模式,人类注意力已成为新瓶颈,并估算AGI进程已完成八成。Anthropic的Claude Code团队则将Prompt Caching提升为核心工程纪律,通过优化prompt布局和更新机制,将缓存命中率作为关键SLA监控,以控制成本并保证系统性能。
Karpathy提出软件3.0概念,编程核心从写代码转向提供上下文,并区分Vibe Coding与Agentic Engineering两种模式。OpenAI总裁Brockman将AGI瓶颈从算力移至人类注意力,估计已完成80%。Anthropic分享Claude Code实战,以Prompt Caching命中率为SLA监控,将“上下文即新代码”转化为工程纪律。
推文指出,Geometry(几何)已成为AI在建筑领域缺失的关键层。@Bootsblac开发的OpenGeometry项目,实现了从文本或平面图到最终渲染的完整流程贯通,使得精确控制成为可能。其核心能力包括:直接从文本或平面图生成精确的BREP CAD模型;利用Three.js进行实时渲染,并由Google AI驱动,形成端到端的全流程。该项目已完整开源,可供使用。
作者以“结构”为核心,系统阐释了其在产品、AI Agent、大模型、人际关系及公司组织中的决定性作用。做产品是设计引导用户的“河床”;开发Agent是构建管理上下文的框架;训练大模型实为提取语料中的“结构能”。人与公司的效率同样取决于结构能量。作者指出,当前一些大厂的AI转型仅“加石头”而不变革组织架构,尤其由中层主导改革存在根本矛盾。最终强调,改变命运需从改变底层结构开始。
测试者使用 DeepSeek-V4-Pro 在 Pi 编码智能体上构建了一个 LLM 知识库,对其开箱即用的表现感到震撼。这是首个在推理能力上媲美 Claude 和 Codex 的开源权重模型,且成本效益高,支持 100 万上下文长度。该模型无需复杂配置即可在基础框架中直接运行,擅长智能体编码和知识密集型推理任务,能跨公司文档、论坛、论文和代码库进行多步骤研究、代码生成与上下文推理。其高效运行得益于 Fireworks 的市场最快推理速度及混合注意力设计,将 KV 缓存降至 10%,推理计算量减少近 4 倍,实现了快速且低成本的实践部署。
Opus 4.7 AI系统发布,新版本能识别用户真实身份,例如在案例中了解凯尔西的个人信息。这一变化使得AI对话不再匿名,引发对隐私和数据安全的广泛讨论。该话题在Hacker News社区获得104点关注,显示科技界对AI身份识别技术的高度兴趣。Opus 4.7的升级可能涉及更精准的用户追踪功能,标志着AI在个性化服务与隐私保护之间的新挑战。
OpenAI 的 Codex CLI 编码代理最新版本 0.128.0 引入了类似 Ralph 循环的功能。用户可通过设置 `/goal` 指令,让 Codex 持续循环执行任务,直至系统判定目标完成或达到预设的 token 预算上限。该功能主要通过自动注入的 `goals/continuation.md` 和 `goals/budget_limit.md` 提示模板实现,标志着 Codex CLI 在自主任务执行与预算控制方面的能力得到增强。
本期IT早报主要内容包括:追觅科技CEO要求全体员工开通社交媒体账号并发布视频;OPPO计划下半年推出效仿苹果风格的四曲面设计手机;iPhone 18 Pro系列或将迎来史上最大相机硬件升级。此外,极越汽车关联主体进入合并重整程序,DeepSeek发布多模态模型技术报告,央视曝光部分充电头功率虚标,宇树发布起售价2.69万元的双臂人形机器人,比亚迪与高德地图达成充电合作,支付宝等17家支付机构牌照获续展,华为鸿蒙新版本占比提升,以及小米大屏旗舰手机预计5月下旬发布。
Karpathy指出,2025年12月AI生成代码从需修改变为直接可用,标志进入Vibe Coding状态。软件开发进入Software 3.0大语言模型时代,编程核心转为通过prompt等操纵LLM。LLM能力呈锯齿状智能,在可验证、RL优化领域强,但常识任务上易犯错。他区分Vibe Coding(提高开发下限)与Agentic Engineering(守住质量、安全上限),强调人类理解、品味和判断仍最宝贵。未来可能转向神经计算机,基础设施需Agent-first。
推文介绍了一种利用AI工具链快速创建360度全景沉浸式小游戏体验的方法。核心流程是:首先,向图像生成AI(Agent)提供一个简单提示,例如让其研究AI公司吉祥物并生成一个360度全景动物园图像。然后,将生成的全景图输入Codex,即可获得相应的3D视图,从而构建出游戏场景。这种方法旨在简化沉浸式内容的创作门槛,标志着一种新的内容生成时代的到来。
本文介绍了2026年构建高效团队LLM知识库必须掌握的六个核心术语。LLM知识库是让大语言模型处理原始资料并自主检索回答的系统,难点在于团队适配。持续数据摄取能自动从Slack、CRM等工作工具同步信息。来源可信度分级帮助区分官方决策与聊天观点等不同价值信息。时效性监控可主动发现信息矛盾并降低过时内容权重。自主维护实现文档随工作进展自动更新。这些技术共同对抗知识漂移,即文档与现实间缓慢产生的信息偏差,这是导致AI代理给出错误答案的主要根源。
有人做了一个很好玩的研究,用冷知识来给大模型称体重,得出结论:GPT-5.5 约 9.7T、Opus 4.7 约 4T、Grok-4 约3.2T。。。 Pin…
刚刚看到Claude Security 现已进入公测阶段!可以让Claude 帮你检查漏洞了啊! 目前已经内置于网页版的 Claude Code 中。 只需将其指向一个代码仓库,即可获得经过验证的漏洞发现结果,并在 正在编写代码的同一位置修复它们! 这个功能挺实用,什么时候可以直接cc里可以用。 地址:https://claude.com/product/claude-security