5月1日
16:11
IT之家(RSS)
29
装机工具 Rufus 4.14 发布:新增静默安装,可禁用 Copilot 等预装提速 Win11 启动

装机工具Rufus发布4.14正式版,新增无人值守静默安装模式,可自动部署至首个检测到的磁盘,提升装机效率。新版本支持在安装时禁用Teams、Outlook、Copilot等预装应用,以减少后台资源占用,加快Windows 11系统启动速度,尤其适合低配硬件。此外,本次更新修复了创建Windows To Go启动盘时因新版BCDBoot导致的错误,解决了Windows 11 25H2版本的兼容性问题,并修正了本地账户首尾空格引发的创建失败问题。

其他
15:47
15:11
IT之家(RSS)
61
目标内存速率 12800 MT/s,固态技术协会 JEDEC 宣布 DDR5 MRDIMM 关键进展

固态技术协会(JEDEC)宣布了DDR5 MRDIMM标准的多项关键进展。其正式发布了JESD82-552标准(DDR5 MDB02数据缓冲器),并预告将推出JESD82-542标准(DDR5 MRCD02寄存时钟驱动器),以通过多路复用秩技术提升内存带宽,解决传统DIMM的瓶颈。此外,委员会正开发目标速率达12800 MT/s的Gen 2 DDR5 MRDIMM原卡设计,Gen 2模块标准接近完成,并已启动Gen 3标准的开发工作,旨在满足AI与云计算对极高内存带宽的需求。

数据/训练行业动态部署/工程
15:11
IT之家(RSS)
57
扎克伯格致 Meta 员工:公司追踪电脑操作,是因为你们比外包普通员工聪明

Meta公司CEO扎克伯格在全员会议上解释,公司通过内部系统追踪员工的鼠标移动、击键等电脑操作,旨在利用这些数据训练AI模型,以在AI竞争中取得优势。他声称Meta员工平均智力高于外包普通员工,因此其操作数据更具价值。该计划名为“智能体转型加速器”,员工无法选择退出,引发了关于员工正无偿训练可能取代自身岗位的AI、以及职场信任与同意权的争议。Meta声明数据仅用于模型训练,并设有安全保护措施。

Meta数据/训练行业动态
15:10
Alibaba Cloud@alibaba_cloud
40
首尔Qwen Meetup展示规模化AI产品开发实践

超过70名工程师和开发者在首尔Qwen Meetup上交流AI产品实战经验。channeltalk团队分享了如何在两周内构建处理5亿条记录的可观测性管道;Omelet介绍了生产级AI架构;TeamSparta演示了在阿里云Model Studio上构建AI助手。核心结论是Qwen3.6能显著提升团队规模化交付AI产品的效率。活动由阿里云韩国团队和TFM社区支持。

开源生态行业动态
14:40
Rohan Paul@rohanpaul_ai
49
LongCat团队发布LARYBench基准,评估AI模型能否从视频中真正学习动作

LongCat团队推出LARYBench基准,旨在评估AI模型是否从视频中真正学习动作,而非仅在后端机器人策略中表现良好。该基准聚焦模型从视频提取的潜在动作表示,通过超过120万视频片段等数据,将评估拆分为动作分类与控制回归两个清晰测试。关键发现是,通用自监督视觉模型(如V-JEPA 2和DINOv3)表现优于专用具身模型,表明强大视觉表示已蕴含丰富动作知识,且潜在特征空间比像素重建更利于机器人控制映射。这为利用丰富视频数据解决机器人训练数据稀缺问题提供了新方向。

具身智能论文/研究评测/基准
14:14
HuggingFace Daily Papers(社区热门论文)
62
Claw-Eval-Live:面向动态真实工作流的实时智能体基准

Claw-Eval-Live 是一个用于评估工作流智能体的实时基准,它将可定期刷新的公共需求信号层与可复现的时间戳快照相分离。该基准基于当前版本中 ClawHub Top-500 技能构建了 105 项涵盖商业服务与本地工作空间修复的受控任务。评估过程全面记录执行轨迹、审计日志、服务状态与运行后产物,并综合使用确定性检查与结构化大模型评判。在对 13 个前沿模型的公开统一测试中,领先模型仅通过 66.7% 的任务,无一达到 70%。失败多集中于人力资源、管理及多系统业务工作流,而本地修复任务相对容易但仍有提升空间。结果表明,工作流智能体评估需同时基于新鲜的外部需求与可验证的智能体执行动作。

智能体论文/研究评测/基准
14:14
Artificial Analysis@ArtificialAnlys
57
三大开源模型上周齐发,与顶尖闭源模型差距缩小至6分内

上周,Kimi K2.6、MiMo V2.5 Pro和DeepSeek V4 Pro三大领先开源模型发布,在Artificial Analysis Intelligence Index上得分达52-54分,与顶尖闭源模型GPT-5.5的60分差距缩小至6分以内,相比一年前22分的开源模型进步显著。这些模型均为万亿参数规模的MoE架构。然而,在复杂推理、智能体编码及知识准确性方面,开源模型与闭源模型仍存在明显差距。例如在HLE、CritPt和TerminalBench Hard等专项评估中得分大幅落后;在Omniscience评估中,DeepSeek V4 Pro的幻觉问题尤为突出。

DeepSeekOpenAI开源生态推理
14:11
IT之家(RSS)
51
三星官宣停产 LPDDR4/X 内存,产能聚焦 LPDDR5/X 与 HBM 等 AI 需求产品

三星官方已确认停产LPDDR4与LPDDR4X内存,并将产能全面转向LPDDR5、LPDDR5X及HBM等面向AI需求的高利润产品。AI浪潮正驱动内存市场,三星2026年第一季度利润同比飙升约50倍,但供应仍远不能满足需求,预计2027年供需缺口将进一步扩大。这一转型将影响消费市场,入门级手机将被迫采用成本更高的LPDDR5内存,可能导致终端产品价格上涨。

端侧行业动态
14:11
IT之家(RSS)
46
韩投称 AI 企业已锁定长期内存订单:即便市场短缺缓解,价格仍维持高位

韩国投资证券研报指出,即便内存芯片短缺问题缓解,其价格短期内也不会显著下降。AI超大规模企业已锁定长期内存产能订单,这将延长当前的内存超级周期,预计价格在未来一段时间内持续高位运行。扩大内存容量可提升GPU利用率,降低单个Token处理成本,因此AI公司愿意高价采购。目前DRAM价格同比已涨3倍,但GPU效率提升带来的回报更高。同时,HBM和DRAM的产能紧张意外推高了NAND芯片需求,其价格优势在高压需求下保持了市场弹性。

推理数据/训练行业动态
13:46
13:40
Alibaba Cloud@alibaba_cloud
58
Qwen与Fireworks AI合作,加速提供优化模型部署

Qwen宣布与Fireworks AI建立战略合作伙伴关系,旨在通过Fireworks平台提供其闭源权重模型的优化、生产就绪型部署。此次合作使开发者和企业能够以更低的延迟、更少的微调和推理成本来部署Qwen模型,同时利用企业级的可靠性、安全性和可扩展性,并将其无缝集成到现代AI工作流程中。

推理行业动态部署/工程
关联讨论 2X:通义千问 / Qwen (@Alibaba_Qwen)X:阿里云 / Alibaba Cloud (@alibaba_cloud)
13:17
小互@xiaohu
65
一位开发了DeepSeek-TUI终端工具的美国开发者,希望与国内开发者社群建立联系,共同探讨DeepSeek、开源及智能体开发。他因无法自行解决网络问题以使用微信,特请求社区帮助:一是转发推广其开源项目,二是协助验证微信号以便建群交流。作为回报,他承诺工具将通过cargo install方式安装。

Hunter Bown鲸鱼兄弟们好,我是做 DeepSeek-TUI 的那个美国佬。 说真的,特别想跟国内的鲸鱼兄弟们一起混——但我的翻墙技能仅限于写代码,微信到现在都没搞定,属实…

DeepSeek开源/仓库开源生态推理
13:13
歸藏(guizang.ai)@op7418
45
AI将催生下一代爆款游戏类型与平台

社区驱动的小游戏和社交游戏,如Roblox,正成为趋势。过去这类游戏构建成本高、类型少,如今技术门槛已大幅降低。历史上,Dota和PUBG等爆款均从游戏Mod演变而来。同理,基于AI技术,完全有可能演化出下一个现象级游戏类型。当前的关键缺口在于,缺乏一个能够整合这些AI能力的综合性游戏创作平台与工具。

多模态现象/趋势
13:13
歸藏(guizang.ai)@op7418
68
GPT-Image-2.0提示词抖音走红,手绘标注引风潮

GPT-Image-2.0的一个提示词在抖音平台引发关注,用户用它为照片生成手绘风格注解。提示词要求采用细线手绘线条、手写字体和简短句子,营造日记感语气,并避免过度装饰以保留空白空间。引用推文指出,GPT-Image-2.0提示词近期再度流行,体现了AI生成内容在社交媒体上的应用趋势。

歸藏(guizang.ai)最近 GPT-Image-2.0 很多提示词又火了,比如这个拉跨鼠标手绘图,原贴有提示

OpenAI图像生成教程/实践
13:11
IT之家(RSS)
57
挑战台积电 CoWoS:蒲得宇称英特尔 EMIB 技术良率达 90%

广发证券分析师蒲得宇发布研报指出,英特尔代工业务取得关键突破,其2.5D先进封装技术EMIB良率达到90%,已为AI数据中心芯片做好准备。该技术良率与FCBGA相当,但互连密度更高。其高性能版本EMIB-T集成了TSV,当前已支持大于8倍光罩尺寸,能在封装内容纳12个HBM芯片和超过20个桥接。英特尔计划到2028年将EMIB-T扩展至大于12倍光罩尺寸,以容纳超过24个HBM裸片和38个以上桥接,进一步提升封装能力。

行业动态部署/工程
13:11
12:46
swyx 🇸🇬@swyx
67
编码智能体突破应用边界,AGI将赋能所有知识工作者

作者提出,“编码智能体突破应用边界”是今年的突破性主题,强调AGI(通用人工智能)将惠及所有知识工作者,而不仅仅是程序员。他以自己的团队@aidotengineer为例,说明如何利用智能体作为“微型团队”高效运作,为全球数百万开发者提供免费服务。他指出,重点不在于特定工具(如Devin、townai),而在于整体性地、深度地将智能体融入日常知识工作以提升生产力,并认为当前人们在这方面努力不足。引用的推文也呼应了应尝试将此类能力应用于非编码的计算机工作。

智能体大佬观点现象/趋势
12:14
HuggingFace Daily Papers(社区热门论文)
63
ExoActor:以第三人称视频生成为可泛化交互式人形控制

人形机器人流畅的富交互行为建模是一大挑战。ExoActor提出新框架,利用大规模视频生成模型的泛化能力,将任务指令与场景上下文输入,通过第三人称视频生成技术合成隐含机器人、环境与物体协调交互的合理执行过程,再将其转化为可执行的人形机器人行为序列。实验表明,该端到端系统能泛化至新场景且无需额外真实数据收集,为建模富交互行为提供了可扩展路径,有望推动通用人形智能发展。

arXiv具身智能论文/研究
12:14
HuggingFace Daily Papers(社区热门论文)
61
基于验证推理的强化学习在图像编辑中的应用

针对图像编辑中缺乏通用奖励模型的问题,本研究提出Edit-R1框架。该框架构建了一个基于思维链的推理奖励模型,通过将编辑指令分解为多项原则进行细粒度评估,生成可解释的奖励信号。为训练此模型,研究采用监督微调进行“冷启动”,并引入群体对比偏好优化算法,利用人类成对偏好数据强化模型。实验表明,该推理奖励模型在编辑任务上超越了Seed-1.5-VL等视觉语言模型,且性能随参数规模从3B增至7B持续提升。最终,该框架成功提升了如FLUX.1-kontext等下游图像编辑模型的效果。

arXiv图像生成论文/研究
12:11
阿绎 AYi@AYi_AInotes
55
Karpathy最新演讲:LLM的真正价值是创造前所未有的可能

Andrej Karpathy指出,LLM的核心价值并非加速现有工作,而是创造以前不可能存在的事物,例如完全无需传统代码、由LLM原生驱动的应用。他提出“锯齿状智能”模型,解释LLM能力不均的现象:高价值、可验证领域因经济驱动获得密集训练,能力突出;其他领域则依赖泛化,表现不稳定。未来产品将被解构为感知、执行与逻辑,横跨软件1.0至3.0范式。程序员角色将转变为设计智能体系统、守护人类品味的架构师。真正的护城河在于理解LLM能力地图并设计放大人类意图的智能体系统。

智能体大佬观点编码
关联讨论 2X:邵猛 (@shao__meng)X:Andrej Karpathy (@karpathy)
11:46
meng shao@shao__meng
66
在 Codex App 中使用 GPT-5.5 和 GPT-Image-2 的实际应用体验:视觉理解 + 代码生成 + 浏览器执行 + 效果评估迭代,组成Web/App 开发全新闭环!

Codex App 结合 GPT-5.5 与 GPT-Image-2,构建了从视觉理解到代码生成、浏览器执行及效果评估的开发闭环。GPT-5.5 提升了编码细节与复杂逻辑处理能力,GPT-Image-2 擅长生成高保真UI。工作流支持输入截图或概念设计,自动分析、生成交互应用并修正设计偏差,内置结构化流程以提高实现保真度。这大幅缩短了从想法到高保真应用的迭代周期,适用于Web、移动及复杂工具开发,但复杂任务仍需人工提示与设计把关。

OpenAI多模态教程/实践编码
11:20
xAI:News(网页)
精选60
自定义语音与语音库

xAI于2026年4月30日推出自定义语音和语音库功能。用户可通过约1分钟录音快速克隆声音,并在Grok文本转语音及语音代理API中即时使用,整个过程仅需2分钟。语音库提供集中管理平台,内置语音已超80种,支持28种语言。为确保安全,系统采用两阶段验证,包括实时转录匹配和说话人嵌入确认,以防止未经授权的克隆。这些功能适用于品牌代理、内容创作、无障碍辅助、多语言团队及游戏娱乐等多种场景,且使用自定义语音无需额外费用。

xAI产品更新语音

推荐理由:xAI 这波‘声音克隆+管理’的更新很实用,安全验证做得细,创作品类和品牌方应该会喜欢,对开发者来说是个加分项,但不是那种能改变格局的大招。
11:14
HuggingFace Daily Papers(社区热门论文)
58
World2Minecraft:占据驱动的仿真场景构建

具身智能需高保真仿真环境,但现有平台存在数据污染和灵活性限制。本研究提出World2Minecraft系统,基于3D语义占据预测将真实场景转换为结构化Minecraft环境,以支持视觉语言导航等任务。然而,重建质量受限于占据预测模型的数据稀缺和泛化能力不足。为此,团队开发了低成本、自动化数据采集流程,构建大规模定制化数据集MinecraftOcc,包含100,165张图像来自156个精细室内场景。实验表明,该数据集有效补充现有资源并对前沿方法构成显著挑战,提升了占据预测精度,同时凸显World2Minecraft作为可定制、可编辑平台对个性化具身AI研究的价值。

具身智能数据/训练论文/研究
11:14
HuggingFace Daily Papers(社区热门论文)
68
PhyCo:学习生成运动中的可控物理先验

现代视频扩散模型擅长外观合成,但物理一致性不足,如物体漂移、碰撞不真实。PhyCo框架引入连续、可解释且基于物理的控制,整合三个核心组件:包含超过10万条模拟视频的大规模数据集,系统改变摩擦、恢复系数等属性;基于像素对齐物理属性图的ControlNet,对预训练扩散模型进行物理监督微调;以及VLM引导的奖励优化,通过微调视觉语言模型评估视频并提供可微分反馈。该方法使模型能通过调整物理属性生成物理一致且可控的视频,无需推理时模拟或几何重建。在Physics-IQ基准测试中,PhyCo显著提升物理真实感,人类研究证实其控制更清晰、更忠实。

多模态视频论文/研究