针对当前AI生成视频普遍存在的画面闪烁、角色不一致、细节丢失及渲染耗时等问题,Happy Horse 1.0定位为“制作优先”的引擎,旨在为创作者提供解决方案。其核心特性包括确保角色与资产从始至终保持稳定的“像素级一致性”,以及兼顾质量、速度与成本的“企业级效率”。官方将于2026年5月15日在香港举办大师班,演示如何将AI视频工作流从“实验性”提升至“专业级”。
Happy Horse 1.0是一款面向创意工作者的生产级AI视频引擎,旨在解决现有AI视频工具的核心痛点。它主打“像素级一致性”,确保角色和资产在视频中保持稳定,不再出现变形或闪烁。同时,引擎具备企业级效率,在质量、速度和成本上进行了优化。官方将于2026年5月15日在香港举办大师班,演示如何将AI视频工作流程从“实验性”提升至“专业级”。
特朗普孙女Kai Trump在播客中直接否认了叔叔Barron是“时间旅行者”的网络阴谋论,并以“不钻兔子洞”的清醒态度拒绝深入讨论。她指出,此类阴谋论已成为身份认同和娱乐产品。同时,作为优等生的她谈及教育系统对ChatGPT的抵制,认为这体现了代际认知鸿沟,主张学校应教授如何利用AI而非禁止,否则会加剧使用者的能力差距。
17岁的Kai Trump(特朗普孙女),一句话戳破了整个美国教育系统最虚伪的谎言。 她在播客里说,现在高中所有人都在用ChatGPT写论文,老师都气炸了。 …
开发者 Tom 开源了 open claude design 项目,宣称对 Claude Design 的还原度超过 95%。该项目历时 72 小时开发,包含超过 18700 行代码和 30 多种设计技能,支持 71 套以上设计系统,并能兼容多种主流代码代理工具。项目旨在成为 Claude Design 的开源替代品,后续将持续更新,代码已托管于 GitHub。
正式开源 open claude design 🚀 超 95% 以上的还原度! 浓缩和逆向所有 claude design 最先进的设计,最好看的模板💥 …
英伟达生产成本中亚洲供应商占比已升至90%,其新发布的Jetson Thor机器人平台等实体AI产品,与数据中心GPU共同争夺台积电3纳米晶圆产能,并消耗由三星、SK海力士供应的紧缺LPDDR5X内存,导致旧款模组因LPDDR4断供提前停产。尽管英伟达承诺在美投资,但亚洲供应链的依赖与产能争夺仍在加剧,美国本土产能尚无法承接快速增长的需求。
作者观看美国HBO脱口秀,发现美国主流媒体存在攻击AI的政治正确现象。结合推文分析,这反映了中美社会对AI态度的显著差异:美国民众虽持股量高,却普遍对AI感到深度焦虑,担心财富集中于硅谷精英而大众承担失业风险;相比之下,中国民众虽较少持有核心AI资产,却对AI技术抱持更普遍的乐观态度,相信其能推动社会进步。这种心态差异可能源于中国过去几十年的快速发展经验。
研究中美 AI 市场中发现非常反直觉的现象: 在人均持有股票数量极高的美国,普通民众对 AI 的焦虑与恐惧更深;而在普通人极少持有核心 AI 资产的中国,大众…
英伟达CEO黄仁勋驳斥了AI将导致大规模失业的“末日论”,强调人工智能是工业规模的就业机会生成器。他指出,AI产业由生产关键硬件的工厂驱动,这些工厂及其相关行业必然需要工人。黄仁勋认为,AI自动化的是特定任务,而非取代人的整份工作,员工在组织中的更广泛职能很可能保留。他担忧过度渲染AI威胁会阻碍人们参与,并指出未来人们更可能被会使用AI的人取代,因此掌握AI工具是关键。
美国白宫正考虑成立新的工作组,以加强对新型AI模型的监管。该工作组可能在AI模型公开发布前进行联邦审查,确保其符合安全标准。此举标志着白宫监管态度的重大转变,从先前“不干预”计划转向更严格的监督,可能参考英国的多层监督模式。具体实施方案尚未最终确定。
在SID Display Week 2026上,LG Display展示了其第三代Tandem OLED技术。该技术功耗降低18%,耐久性倍增,首款车用面板亮度达1200尼特,使用寿命突破15000小时,并计划年内量产。同时展出的还有一款5K RGB OLED显示器面板,像素密度达220 PPI,显示效果更细腻。此外,专为AI PC优化的16英寸Tandem OLED面板更薄更轻,可提升笔记本离电续航2.3小时。其他展品包括人形机器人P-OLED解决方案、57英寸车用面板及32英寸可滑动OLED面板。
OpenAI正加速首款AI Agent手机开发,目标最快2027年上半年量产。该手机预计采用联发科天玑9600定制处理器,2026年下半年由台积电N2P工艺生产,强化ISP以提升视觉感知。2027与2028年预计总出货量约3000万部。关键规格包括双NPU架构、LPDDR6内存和UFS 5.0存储。AI Agent将重新定义手机交互,用户可直接通过手机执行任务,而非打开应用。
文章介绍一款年费89.99美元的在线AI换脸工具Swaptok,用户可通过四步流程在30秒内将TikTok或Reels公开视频中的人脸替换为AI生成的高清人脸,单条成本极低。作者提出四条变现路径:运营AI网红矩阵账号、承接品牌广告外包、为自有产品制作素材以及出售课程或服务。同时指出需进行二次创作避免限流、注意版权风险及把握红利期等关键建议,视其为技术发展催生的新内容生产方式。
斯坦福一门2小时公开课系统讲解了ChatGPT等大语言模型从零构建的全过程,涵盖Transformer架构、训练技巧、Scaling law等核心知识。课程免费且含金量高,揭示了AI时代的底层逻辑。相比之下,许多顶级AI公司的工程师仅专注于调提示词和刷基准测试,缺乏此类系统知识。课程为真正想理解AI的人提供了宝贵的学习机会。
人工智能客户体验平台Sierra完成9.5亿美元融资,公司估值达到150亿美元。本轮融资将用于加速其AI代理技术的开发与部署,帮助企业构建更智能的自动化客户交互体验。该融资额和估值凸显了市场对专用企业级AI解决方案的强劲需求与投资热度。
大型视觉语言模型因优化目标无法约束视觉轨迹,易产生语言偏见与幻觉。现有方法引入视觉专家的几何先验作为监督,但偏向几何精度且推理效用有限。为此,本研究提出感知流网络,通过解耦感知与推理建立自条件生成过程,并借助变分强化学习整合多维奖励与邻近几何塑造,从而在保持视觉可靠性的同时促进面向推理的感知行为。该方法具备可证明的性能保证,在V* Bench与MME-RealWorld-lite基准上分别取得90.6%与67.0%的分数,创造了新的性能记录。
研究团队提出轨道空间几何概率路径(OGPP),这是一个专为粒子系统生成建模设计的原生粒子流匹配框架。该框架基于两个核心洞见:粒子具有置换对称性,匿名索引会导致难以学习的弯曲流;粒子存在于物理空间,其流终端速度可编码几何属性(如表面法线)。OGPP包含三个关键组件:轨道空间规范化、粒子索引嵌入以及具有弧长感知终端速度的几何概率路径。实验表明,在最小表面基准测试中,OGPP单步推理将误差降低达两个数量级;在ShapeNet上,它以更少的步骤和参数达到或超越了当前最佳性能;在单形状编码任务中,其完全在3D空间运行,生成的法线与重建结果可与6D生成器竞争。
MolmoAct2 是一个为实际部署设计的全开放动作推理模型,在五个方面取得进展。其核心是专为空间与具身推理训练的 VLM 骨干 MolmoER,基于 330 万样本语料库训练。团队发布了三个新数据集,包括迄今最大开放双手数据集 MolmoAct2-BimanualYAM(720 小时遥操作轨迹),并开源了动作分词器 OpenFAST。模型采用层间 KV 缓存条件化架构,嫁接连续动作专家,还引入自适应深度推理变体 MolmoThink,以极低延迟保持几何基础。在广泛实证研究中,MolmoAct2 在 7 个仿真与真实世界基准上超越 Pi-05 等基线,MolmoER 在 13 个具身推理基准上超过 GPT-5 和 Gemini Robotics ER-1.5。模型权重、训练代码与数据均已公开。
关联讨论 1 条X:AK (@_akhaliq)OpenAI 与普华永道宣布合作,旨在通过AI智能体帮助企业自动化财务工作流程、改进预测、强化控制并实现首席财务官职能的现代化。双方将把OpenAI的企业版ChatGPT等工具整合到普华永道的服务中,为数千名员工提供高级AI访问权限,以处理财务分析、税务、咨询等任务。这一合作标志着专业服务公司首次大规模应用生成式AI,目标是提升效率、减少人工错误并推动财务职能的战略转型。
中国移动将在5月7日至9日于苏州举办的2026移动云大会上发布AI-eSIM产品。该产品具备“智能大脑”,可实时调度云端模型,使AI玩具、智能穿戴等终端实现自主思考与即时响应。同时,AI-eSIM内置“安全底座”,将安全能力植入芯片内核,为机器人、无人机等设备提供专属数字身份证和唯一身份信息,以加强安全监管。此外,中国移动还预告了名为“移动云 MobileClaw”的相关产品。
据报道,OpenAI CEO奥尔特曼去年曾讨论将机器人和消费硬件部门分拆,使其能独立融资运营,以避免拖累核心AI业务,但该计划已被否决。公司未来可能效仿Alphabet设立控股公司结构,以区隔核心与探索性业务的财务表现。OpenAI近期完成了1220亿美元融资,但未能实现2025年ChatGPT的部分业绩目标。目前,公司已秘密建立人形机器人实验室,并于2025年收购了AI硬件初创公司io,持续从苹果等公司招募硬件人才。
据 daringfireball.net 披露,硅谷知名创业加速器 Y Combinator 持有 OpenAI 0.6% 的股份。这一投资体现了 Y Combinator 对人工智能前沿领域的持续布局。该消息在 Hacker News 上获得124点讨论热度,反映出科技社区对 OpenAI 股权结构的关注。尽管持股比例较小,但此类风险资本的参与通常涉及公司战略决策与估值影响,凸显了资本在塑造AI巨头发展中的角色。
当前约25家公司在首轮融资即获超十亿美元估值,其背后逻辑在于:AI领域潜在回报巨大,如Anthropic和OpenAI预示了万亿美元级别的私有市场流动性;同时,初创公司的核心约束是算力(GPU)和顶尖人才,大规模融资是获取这些稀缺资源的硬性要求。此外,有限的竞争提高了成功后的价值捕获概率。市场层面,大量资本追逐极少数顶尖团队推高了估值,而大型基金出于配置压力和追求规模回报的需要,也倾向于下大注。投资者对错过下一个AI巨头的恐惧以及创始人通过高估值减少稀释的动机,共同促成了这一趋势。
PhysicianBench是一个用于评估LLM智能体在真实电子健康记录环境中执行临床任务的基准。该基准包含100项源自真实会诊病例的长周期任务,覆盖21个专科,平均每项任务需调用27次工具。任务要求智能体跨就诊记录检索数据、对异构临床信息进行推理、执行临床操作并生成文档。每个任务被分解为总计670个结构化检查点,通过执行验证进行分级评估。在13个专有和开源LLM智能体的测试中,最佳模型成功率仅为46%,开源模型最高仅达19%,显示当前智能体能力与真实临床工作流程需求存在显著差距。该基准为衡量自主临床智能体的进展提供了基于真实执行的评估标准。
多轮强化学习训练常因探索效率低下而不稳定。为此,研究团队提出T^2PO框架,在细粒度层面实施不确定性引导的探索控制。在令牌级别,它监测不确定性动态,当边际变化低于阈值时触发思考干预;在轮次级别,它识别探索进展可忽略的交互并动态重采样,以避免无效计算。在WebShop、ALFWorld和Search QA等多个环境中的评估表明,T^2PO显著提升了训练稳定性与任务性能,并实现了更高效的探索。相关代码已开源。
研究团队推出AcademiClaw双语基准测试集,包含80项源自大学生真实学术流程的复杂长周期任务,涵盖作业、研究、竞赛等。任务经专家从230份提交中筛选,覆盖超过25个专业领域,包括奥数、语言学、GPU密集型强化学习等,其中16项需CUDA GPU执行。每项任务在隔离Docker环境中运行,采用多维评分与独立安全审计进行评估。对六个前沿模型的测试显示,最佳通过率仅为55%,分析揭示了模型在不同领域的能力边界差异、行为策略分化及令牌消耗与输出质量脱节等问题。该基准开源以推动AI智能体更好地满足真实学术需求。
Anthropic内部研发已由Claude主导,工程师基本不再手写代码,转而专注于编写提示词、审查代码和确定架构。这使得其工程师效率达到行业十倍以上,仅52天就推出50多个重大功能。这标志着递归自我改进(RSI)迈出关键一步:AI接管了生产自身的整个工厂。人类角色从生产者转变为监督者。结合OpenAI的Auto-review,一个能自我运行和改进的AI闭环正在形成。Anthropic CEO指出,未来仅约5%的开发者能留在核心领域,核心价值将转向驾驭和设计整个智能系统的系统思维能力。这是一个不可逆的进程。
Anthropic CEO Dario Amodei把所有程序员和独立开发者的终局和心里模糊的不安都说透了:未来只有5%的人能真正留在牌桌上。 他平静但无比坚…
关联讨论 2 条X:Kim (@kimmonismus)X:阿易 AI Notes (@AYi_AInotes)