Mistral AI正式为企业客户在Mistral Studio平台推出“工作流”功能。该功能具备持久化执行能力,可追踪每一步状态,并提供完整的可观测性,记录所有分支、重试和状态变更。其核心特性包括支持“人在回路”,仅需一行代码即可暂停工作流等待人工审批,且与Studio原生集成,使用相同的智能体和连接器。该方案注重企业就绪性,通过工作区实现团队与项目隔离,同时服务于开发者和业务团队。在部署上,其控制平面运行于Mistral自有基础设施,提供了灵活性。
Even Realities推出的G2智能眼镜具备“终端模式”,可将完整的Claude AI终端直接投射到用户视野中。开发者能在移动场景(如散步、通勤)中通过语音与AI交互,实时获取代码、设计规范等内容,实现开发环境与物理世界的无缝融合。该技术彻底消除了上下文切换成本,将碎片时间转化为生产力,被视为“vibe coding”的终极形态。尽管引发工作与生活界限的担忧,但这代表了程序员工作流的革命性变革,被形容为“巅峰性能”和“新物种”的诞生。
企业AI编排平台Workflows发布公开预览版,旨在解决企业团队将AI模型可靠投入生产环境的难题。该平台专注于为AI赋能的业务流程提供生产环境所需的持久性、可观测性和容错能力,帮助其从原型阶段过渡到实际生产。包括ASML、ABANCA、CMA-CGM在内的多家领先机构已使用Workflows来自动化其关键流程。
ColaOS产品负责人决定在ColaOS中免费提供DeepSeek V4模型,而非仅提供官方2.5折优惠。面对内部对高昂模型成本的担忧,负责人给出了一个“无法拒绝的理由”,最终团队达成妥协,将免费使用期限设定为五一假期结束前。推文同时提供了下载地址(目前仅支持Mac)和一个用户邀请码。
当前图像生成产品主要分为追求单次生成效果极致与打通完整视觉工作流两大方向。Flowith属于后者,其推出的Image Agent不仅能够生成高质量图像,更核心的价值在于构建了稳定的视觉工作流体系。该平台底层集成多个模型(如Image2等),且上层工作流架构设计稳健,不受底层模型更换的影响。它能将单一文本提示转化为完整的营销活动工作流,提供可放大的细节、有效的文字渲染、具备搜索感知的创意智能,并能通过Seedance 2.0技术将图像转化为视频,从而成功融合了“单点极致”与“工作流闭环”两种路径,为用户提供了显著的综合价值。
OpenAI 开源了Codex编排规范Symphony,其核心是将Linear等任务追踪系统转变为AI agent的自动化控制平面。该规范让每个未解决的任务自动分配一个独立的agent工作区,持续执行直至完成,实现了工作流与具体会话和PR的解耦。这显著降低了代码变更与试错的成本,并允许产品经理等非技术人员直接通过看板发起工作。OpenAI强调,其目标是展示如何将团队隐式工作流程文档化,让agent遵循人类约定,并将失败案例转化为系统防护栏与技能,推动开发瓶颈从“写代码”转向“管理agent化的工作”。
关联讨论 2 条X:Vista (@vista8)OpenAI:官网动态(RSS · 排除企业/客户案例)OpenAI开源代理编排器Symphony,将Linear、GitHub Issues等任务跟踪器转化为始终在线的Codex Agent调度系统。它突破了人类同时有效监督仅3-5个编码Agent的瓶颈,允许管理几十个Agent,实现自动编码、测试、交叉审查,并提交包含CI全绿和安全审查的证据包。所有验证通过后,任务才进入Human Review队列,使人类角色从微观监督转变为结果审查与指导。OpenAI内部已实践此模式,三名工程师五个月生成一百万行代码且零人工编写。未来核心竞争力在于设计让Agent可靠自主工作的环境,而非模型本身。Symphony是一个17k token的SPEC,可喂给任何编码Agent生成定制版本。
关联讨论 2 条X:Vista (@vista8)OpenAI:官网动态(RSS · 排除企业/客户案例)受传统教育影响,个人不信算命。 但身边不少朋友对这方面有专研,听过好多离奇的故事。 三年前在飞书工作时认识一个朋友叫西元Levy。 他做了个App叫 @Fa…
小米 MiMo -V2.5 系列模型全部开源 采用宽松的 MIT 协议,允许自由商用、二次训练与微调,无需额外授权。 同时他们还推出了Orbit 100T …
百度文库与百度网盘联合推出的GenFlow 4.0已正式上线,每月服务超过1亿活跃用户并处理2亿项任务。此次升级的核心是全新的Office Agent,用户可通过单一提示并行调用PowerPoint、Excel和Word代理。该版本深度集成OpenClaw,支持从百度网盘PC端或移动应用一键部署,将网盘转化为个人AI工作空间。更多进展将于2026年5月13日至14日在北京举行的百度Create大会上公布,大会主题为“Agents at Scale”。
InferenceX已将DeepSeek V4 Pro集成至vLLM项目,在B200、B300、H200和GB200等硬件上的性能测试显示,B300的推理速度比H200快达8倍。团队正在基于vLLM 0.20版本进行基准测试,该版本引入了全新的DeepGEMM MegaMoE技术,将专家并行调度、组合、通用矩阵乘法及SwiGLU激活函数融合为单一巨型内核,预计将带来更优性能。文中感谢了来自NVIDIA AI、社区贡献者及相关团队的开发人员对开源项目的投入与努力。
OpenAI开源了gpt-realtime-1.5的官方语音控制组件,允许用户直接用自然语音控制应用UI状态,而非仅进行语音转文本。该组件是一个完整的React参考实现,开发者可快速集成。其核心在于工具由应用预定义,模型只能调用这些受限动作,确保了安全可控。这标志着语音正从输入层升级为顶层控制层,为设计、驾驶等双手操作场景提供了新的交互可能,是交互范式的重要转折。
Cognition公司推出Devin for Terminal,将云端AI编程助手Devin的能力打包为本地命令行Agent。其核心差异化在于“本地至云端无缝交接”设计:当任务超出本机能力时,可将同一会话无缝移交至云端Devin的虚拟机环境执行,用户可离线等待结果。该工具复用现有云端基础设施作为后端,支持多模型路由,可灵活选用Anthropic、OpenAI、Google及自研SWE-1.6等模型,并允许会话中实时切换。团队还使用Rust自研了高速终端渲染库,强调终端形式不变但内部工作范式已革新。
一个完全本地的 Agent,就生活在你的浏览器里。 由 Gemma 4 E2B 和 WebGPU 驱动,它使用原生工具调用来实现: 🔍 搜索浏览历史 📄 阅读并总结页面内容 🔗 管理标签页 100% 本地运行!无需任何服务器!