本文综述多工具LLM智能体的进展,指出其核心失败原因在于长时间协调多个工具的可靠性不足,而非单次工具调用。论文将多工具编排视为独立问题,要求智能体处理工具的选择、排序、监控与重试。作者从运行时规划、训练数据与调优、安全性、效率、缺失工具处理及更复杂的交互任务基准六个领域回顾现状。关键发现是,进展更依赖于图式规划、记忆、验证、回滚以及更好的长周期工具使用评估方法,而非单次调用准确性。当前研究与基准正从简单的单次调用测试转向更贴近现实、要求智能体在长工具链中保持可靠性的硬任务测试。
受传统教育影响,个人不信算命。 但身边不少朋友对这方面有专研,听过好多离奇的故事。 三年前在飞书工作时认识一个朋友叫西元Levy。 他做了个App叫 @Fa…
谷歌已与五角大楼签署协议,允许其AI模型用于机密工作及“任何合法的政府目的”,此举无视了超600名员工的反对,并逆转了其2018年因员工抗议退出Project Maven的立场。协议条款看似比OpenAI的同类合约更为宽松,虽声明AI“不拟用于”大规模监控或无人监督的自主武器,但法律专家指出该措辞缺乏约束力。协议还要求谷歌应政府要求调整AI安全过滤器。这与Anthropic因拒绝在类似用途上妥协而被五角大楼列为供应链风险形成对比。
商汤发布开源可商用的多模态大模型SenseNova-U1,采用NEO-Unify架构统一处理视觉与语言。其核心功能包括图文交错生成、智能图像编辑与图表渲染。模型提供8B密集版和约3B活性参数的轻量版,适合个人显卡本地部署。现提供每日5小时及1500次免费调用额度,并即将推出办公场景应用功能。
推文对比中国AI公司Manus与DeepSeek的全球化策略。Manus计划将总部迁至新加坡并将公司以20亿美元出售给Meta,但被中国发改委叫停交易,创始人被禁出境。DeepSeek则发布开源V4模型,适配华为昇腾,在性能榜单上超越Gemini 3.1 Pro。两者代表不同路径:前者试图将技术出售给美国;后者坚持开源并根植中国,旨在定义全球标准。
小米 MiMo -V2.5 系列模型全部开源 采用宽松的 MIT 协议,允许自由商用、二次训练与微调,无需额外授权。 同时他们还推出了Orbit 100T …
推文展示了一段以假乱真的AI生成“刀马舞”手势舞视频,并分享了利用此技术快速创收的副业方法。该方法门槛极低,仅需电脑,无需囤货、开店或露脸。核心是使用Rita平台的Seedance2.0和GPT-image-2模型,批量生成高质量美女跳舞视频,发布到小红书、抖音、支付宝视频号等平台获取流量分成。粉丝增长后可接品牌商单,成本远低于真人网红。推文强调该赛道尚处红利期,并附上了详细的视频分镜提示词和负面提示词以确保生成质量。
很多人总说AI没用,我觉得那是因为你光刷不用,真正能赚钱的人早就闷声发大财了。 分享一个用 AI 做副业的路子, 有点野,基本上算零门槛,见钱快(`・ω・´)…
阿里云作为战略合作伙伴,支持了TNG Digital FINHACK 2026活动。该活动汇聚了300多名马来西亚创新者,利用人工智能应对从欺诈预防到金融普惠等现实金融科技挑战。阿里云提供了云基础设施、AI工具(包括排名第一的开源模型Qwen和下一代AI驱动编码平台Qoder)以及现场解决方案架构师支持,旨在帮助未来人才构建可扩展的、面向真实世界的解决方案。活动致力于共同加速马来西亚金融科技的未来,使其更具包容性、安全性和智能化。
中国AI企业出海呈现两种对立路径。Manus选择将总部迁至新加坡并接受Meta收购,但该交易已被中国发改委叫停,创始人被禁止出境。DeepSeek则坚持开源路线,其最新发布的V4模型采用Apache 2.0协议,深度适配华为昇腾平台,在Vals AI榜单上位列开源模型第一。这两种模式体现了不同的全球化逻辑:前者试图通过出售技术实现国际化,后者则通过开源生态保持中国根基并定义技术标准。
作者观察到,尽管DeepSeek v4在龙虾等agent场景表现未达预期,但小米的mimo v2.5却表现优异。这源于小米AI负责人罗福莉对claw类产品的高度重视和投入。由此得出结论,无论是模型训练适配还是企业AI应用落地,本质上都是“一把手工程”。企业一号位对agentic(智能体)的认知深度和投入决心,直接决定了最终成果的差异,越早认识到其重要性,获得的收益就越大。
普遍观点认为AI不够用是因为不够聪明,但Dwarkesh去年6月指出,AI模型在许多任务上的起点已高于普通人类员工。真正瓶颈是AI缺乏学习曲线,只能维持水平性能,无法像人类一样通过经验成长。这种“聪明但不成长”的特性,使得AI在动态环境中表现受限,成为其发展的核心障碍。
Codex 的用量又被重置了 😂 一方面 Claude 搞小动作加大订阅用户消耗,不让Pro用户用 Claude code 一方面Codex三天两头重置用量 拉拢人心🫡 我就喜欢这种竞争方式😌
用户尝试了Slock平台,认为其界面和交互类似Slack,安装配置过程简单。主要流程包括:在网站注册登录并添加本地电脑,通过终端执行指令自动扫描本地的大模型命令行工具;随后可利用本地的Claude Code、Codex或Gemini CLI创建AI Agent。用户可以在不同对话线程中邀请这些Agent加入,实现随时对话并调用本地的Skill功能。该平台旨在便捷地集成和管理本地AI工具进行协作。