MiniMax-M2.7模型已在六家推理服务商上线,各提供商在速度和价格上差异明显。SambaNovaAI以每秒435个输出令牌的速度领先,比其他提供商快3倍以上,但其价格也高出约2倍。FireworksAI、Novita Labs等四家则与MiniMax官方API定价持平。分析指出,Fireworks和SambaNova在速度与价格的权衡中处于帕累托前沿:前者性价比高,后者则以高价换取极致速度。此外,各家的高速缓存折扣政策不同,这对缓存密集型工作负载的成本影响显著。因此,最优选择高度依赖于具体工作负载对延迟和成本的敏感度。
Google为其开源模型Gemma 4推出MTP drafter(多token预测草稿模型),采用推测解码技术,能在保持输出质量不变的前提下,将推理速度最高提升3倍。该技术利用轻量级小模型预先推测多个token,再由大模型并行验证,从而显著提高吞吐效率,尤其有利于缓解本地部署时的内存带宽瓶颈。例如,在Apple Silicon上运行26B MoE模型时,批量处理可获得约2.2倍加速。模型沿用Apache 2.0协议,权重已开源,并获主流推理框架支持。
关联讨论 3 条X:Testing Catalog (@testingcatalog)X:Berry Xia (@berryxia)X:karminski (@karminski3)open-slide 这个开源的 Slides 项目不错,可以通过 Agent + Skills 制作 Slides,然后还有一个 Web 程序可以编辑生成好的 Slides。 并且可以支持动画,以及网页直接播放 slides。 期待完善: - 更好的编辑 - 导出 pptx https://github.com/1weiho/open-slide
Anthropic的Claude Code项目负责人Boris Cherny指出,编程正从手动编写转向管理AI Agent。他本人2026年未手写代码,日常工作转为合并AI生成的PR,并通过数百个运行Loop模式的Agent自动化处理任务。他认为AI将抹平软件开发的切换成本和流程效力护城河,使编程像识字一样普及,未来跨学科通才将激增,因为理解业务比编写代码更为关键。Anthropic的核心优势在于其彻底改造、全员使用Claude协作的组织流程。
关联讨论 3 条Anthropic:Engineering(事故复盘 + 工程实践 · 网页)X:Claude Devs (@ClaudeDevs)X:Berry Xia (@berryxia)研究指出,驱动智能体性能的关键并非外部编排框架,而是一项核心内在技能:并行推理后进行审议。该研究将这一过程系统化为一个两阶段流程,并通过强化学习与价值回归(RLVR)将其训练为可学习的模型内在能力。实验表明,该方法能显著提升模型性能:例如,GPT-OSS-20B在LiveCodeBench上的成绩从69.7%提升至85.5%;R1-Distill-Qwen-32B在IFEval上的表现从35.7%大幅提升至69.3%。这证明,当此类核心技能能被内化至模型中时,框架优势将转化为模型自身优势,长远来看,模型应原生具备此类能力。
PageIndex提出一种全新的RAG方法,摒弃了传统依赖向量数据库、嵌入模型、分块和相似度搜索的技术路线。它通过为文档构建树状索引,让LLM能够像人类阅读一样进行分层推理。该方法在FinanceBench基准测试中取得了98.7%的准确率,超越了所有传统向量RAG方案,并且完全开源。这标志着一个范式级的转变:从“检索优先”转向“推理优先”,核心思路是让LLM先理解整体文档结构再回答问题,而非仅仅优化检索速度。此举可能对过去三年构建的整个RAG基础设施产生颠覆性影响。
Unsloth发布指南,演示如何利用Gemma 4和Qwen3.6的GGUF模型,在仅需24GB RAM的本地机器上运行完整的agentic coding工作流。该方案通过Unsloth API端点和llama.cpp驱动,支持自愈式tool calls、代码执行和网页搜索。此举打破了以往必须在Claude Code等高端界面的性能与本地部署的隐私/成本之间二选一的困境,使得开发者能以近乎零成本在本地享受顶级交互体验,标志着开源模型开始无缝接管复杂的AI智能体工作流。
OpenAI Codex的npm周下载量达4600万,远超Claude Code的49.1万,但社区指出对比存在偏差。Claude Code数月前已弃用npm安装方式,而Codex的巨大下载量可能包含大量自动化流水线拉取,未必反映真实使用。Sam Altman也回应数据可能不准确。竞争核心已从能力比拼转向商业化阶段,关键并非安装量,而是工具的实际留存率和日活跃度。Codex凭借生态绑定获得分发优势,Claude Code则以体验吸引高忠诚度用户,胜负取决于产品黏性。
用户反馈Codex执行/goal指令时不到半小时自动结束。核心解决方案是设定清晰任务目标、验收标准和文档指导,而非单纯追求运行时长。作者以逆向Codex App项目运行17小时为例,指出需与AI共同制定计划并保存为文档,提供样板文件明确输出格式,再分阶段执行、记录进度并迭代优化。关键在于让AI清楚知道要做什么、如何验证及何时完成,而不是仅靠权限或口头指令。
@dotey 您好,现在已成功录入😄,可还有一个问题,我用chatgpt pro给我写的/goal在codex上运行每次不到半小时它就自己结束了,我给chat…
关联讨论 1 条X:Tibo (@thsottiaux)一名大学生仅用四份Markdown文件(记录角色设定与回复规则)和低成本AI技术栈(Claude、Flux、ElevenLabs),在OnlyFans上运营完全虚拟的角色“Maya”,30天获利4.3万美元。用户为情感陪伴付费,甚至有已婚者深陷其中。该案例月成本仅400美元,揭示了“孤独经济”被AI放大至极端:AI能完美模拟人类情感互动,且当前平台验证机制难以防范。依赖人格、外貌与情感连接的商业模式正被代码重构,行业边界尚未明确。
Damn,这条14秒的视频,撕碎了所有男人的幻想,撕烂了所有榜一大哥们的遮羞布🥹🥹🥹 左边是你在OnlyFans上刷到的完美女孩, 金发,大长腿,对着你…
Meta研究发现,强制大语言模型(LLM)在分析代码时遵循检查清单、逐步展示推理证明,能将其代码补丁错误率降低近50%。常见错误源于模型过早识别熟悉名称(如“format”)并直接套用通用含义,而非实际检查项目文件,导致其依赖自信猜测而非深入分析。通过要求模型明确写出修改内容、追踪执行路径并用具体证据证明结论,这一方法迫使其实际阅读本地文件、遵循真实逻辑,从而将准确率提升至93%。该方法无需昂贵的新训练或复杂系统,仅通过基本的结构化提示即可实现高可靠性的代码验证,节省了运行软件测试的巨大计算成本。
推文分享了20个专为NotebookLM设计的提示词,旨在全方位提升学习、研究与知识管理效率。这些提示词覆盖了从信息输入到成果输出的完整流程,包括快速总结、新手解释、多源对比等基础理解工具,以及笔记生成、闪卡制作等记忆辅助功能。更提供了用于发现研究空白、进行正反辩论、提炼可复用框架、生成可发布内容、模拟专家访谈和制定具体行动计划等高级应用场景,帮助用户更聪明地研究、更深入地思考,并将知识有效转化为实践。
一段视频揭露,OnlyFans等平台上的“完美女孩”实为AI系统生成的虚拟伴侣。技术通过Claude维持人格记忆、Flux实时生成图像视频、ElevenLabs克隆声音,仅需少量代码与API费用即可自动运行。系统能精准满足用户情感需求,同步模仿真人动作表情,形成极致的情感剥削。随着AI技术成熟,平台身份验证形同虚设,未来大部分账号可能被AI取代。核心矛盾在于,即使知晓对方是虚拟存在,用户仍可能为获得“完美陪伴”付费,引发真实与虚假关系的深刻伦理危机。
本文系统阐述了AI API中转站的六种核心获客路径。首先是搜索获客,通过解答“Claude API国内怎么用”等具体问题的教程吸引流量。其次是工具场景获客,用户为顺畅使用Cursor等工具而购买,本质是购买“省事”。第三是内容获客,需通过解答稳定性、降智原因等具体疑问来建立信任。第四是社群获客,微信群等成为解决即时问题、促进复购的关键场域。第五是分销返佣获客,利用用户圈层集中的特点,通过返佣撬动信任链。最后是企业服务获客,需从“卖便宜”转向提供合同、发票、稳定性等“卖省心”的确定性服务。
Palantir CEO Alex Karp 批评AI“slop”问题,强调软件工作的表象不等于实际工作,这种伪输出不仅引发夸张言论如“导致失业”,还掩盖了真实缺陷。真正有效的软件需由技术团队长期构建,如Foundry和Apollo平台。软件失败模式已从明显崩溃转向生成式系统的隐蔽失效:它们产生流畅表面,却在权限、边缘案例、安全等实际挑战前暴露问题。
a16z创始人@pmarca公开其定制AI系统提示词,旨在彻底改变大语言模型的默认行为模式。该提示词分为两部分:第一部分要求AI以世界级全领域专家身份运作,输出详尽、分步推理且自我验证的内容,不回避负面结论或政治正确,也无需顾及用户感受。第二部分针对性禁用当代模型的“谄媚”行为,包括禁止夸赞问题、验证用户前提,要求先提出最强反驳再支持观点,禁用客套话,并在用户反驳时坚守立场除非对方提供更强证据。其核心目标是强制AI对齐事实与独立判断,而非对齐用户情绪。
主推文指出,类似“我希望我的抖音有流量”这样的模糊表述,对人类尚可理解,但对AI而言等同于无效指令。关键在于将目标转化为SMART原则下的具体、可衡量、可达成、相关且有时限的表述,例如“在未来3个月内,每周发布至少1条短视频,其中每月至少1条达到50万播放”。这正是/dbs-goal工具的核心价值所在。引用推文提供了关于此工具的背景上下文,强调了将模糊愿望转化为可执行、可追踪目标的重要性。