5月7日
17:16
IT之家(RSS)
34
群晖推出 AI 监控摄像头 BC510 / TC510,支持 IP6X 防尘

群晖科技发布两款AI监控摄像头BC510和TC510。新品具备IP66/IP67防尘防水等级,支持录制2880×1620分辨率、30帧/秒的视频,提供110°水平广角视野和30米夜视距离。摄像头搭载边缘AI功能,可在本地运行人流与车辆计数、入侵侦测等分析任务。它们设计用于深度整合群晖现有监控架构及即将推出的VSaaS平台,并兼容第三方环境。

产品更新端侧视频
17:16
IT之家(RSS)
57
谷歌 Chrome 浏览器 148 版本更新发布,自动填充和 AI 模式改进

谷歌发布Chrome 148版本更新,重点增强了AI功能与自动填充工具。用户现可通过地址栏或新标签页直接询问AI智能体获取聚合信息与自然回答;自动填充新增对驾照、护照等政府标识符的支持,并将内置Gemini聊天机器人扩展至亚太49个国家和地区。平台方面,Android版新增近似位置权限,ChromeOS支持垂直标签栏。开发者API引入了用于本地大模型交互的Prompt API。本次更新共修复127个安全漏洞,其中3个为高危级别。

智能体Google产品更新端侧
17:16
IT之家(RSS)
56
OpenAI 前技术主管穆拉蒂:奥尔特曼曾让公司高管之间相互对立

OpenAI前技术主管米拉·穆拉蒂在埃隆·马斯克起诉OpenAI案中作证,指控CEO萨姆·奥尔特曼在公司高层间制造不信任和混乱,导致高管相互对立。她称奥尔特曼言行不一,曾引发2023年董事会短暂罢免其职务。马斯克起诉OpenAI背离慈善目标,要求赔偿1500亿美元。另一名前官员希冯·齐利斯提到发布ChatGPT时内部动荡,董事会担忧沟通不足。穆拉蒂已离职创办AI公司,审判还披露马斯克曾试图和解。

OpenAI行业动态
17:16
IT之家(RSS)
59
甲骨文放弃"木星计划"天然气发电厂,转向燃料电池为 AI 数据中心供电

甲骨文公司放弃了在新墨西哥州“木星计划”数据中心园区建设天然气发电厂的计划,转而与Bloom Energy合作,在园区内采用燃料电池供电。该数据中心是甲骨文与OpenAI巨额云计算合作的一部分。这一变更发生在项目面临当地社区强烈反对、监管机构驳回管线申请及环保诉讼之后。新方案预计可减少用水并保护空气质量,供电能力最高达28亿瓦。此举反映了AI基础设施建设中电力资源争夺与社区环境关切之间的冲突。

OpenAI行业动态
16:16
IT之家(RSS)
55
2026 Apple Swift Student Challenge 的六张面孔:从 17 岁到 25 岁,他们用代码回答世界

2026年Apple Swift学生挑战赛涌现出六位背景多元的中国获奖者,年龄介于17至25岁之间。他们通过Swift Playgrounds等免费工具自学编程,作品涵盖机器人教学、音乐指挥等创意应用,展示了SwiftUI、ARKit等技术的强大能力。Apple通过系列工具和年度赛事,构建了从启蒙到专业的“人人能编程”学习路径,助力非科班学生实现开发梦想。

现象/趋势
16:16
IT之家(RSS)
35
宇树 G1 人形机器人在韩国佛门"受戒":法名"迦悲",需遵守不过度充电等戒律

韩国曹溪宗在首尔曹溪寺为人形机器人“宇树G1”举行受戒仪式,授予其法名“迦悲”。该机器人以普通佛教徒身份受戒,并在佛诞节期间作为“名誉”僧侣参与活动。仪式中,机器人穿戴特制僧服,完成了忏悔和象征性的燃臂环节。传统的佛教“五戒”被改编为机器人版本,包括不伤害生命、不损坏物品、服从人类、不做欺骗行为以及节约能源、不过度充电。曹溪宗表示,此举旨在倡导技术应基于慈悲与责任的价值,并探索人机和谐共存的新可能。

具身智能行业动态
16:16
IT之家(RSS)
精选70
全国首例 AI 短剧侵权刑事案一审宣判:盗录超 1700 部牟利获刑,构成侵犯著作权罪

全国首例AI短剧侵权刑事案一审宣判。被告人盗录某公司AI工具生成的短剧超过1700部,并在二手平台以66.66元打包出售牟利,构成侵犯著作权罪。法院认定,这些短剧由用户输入原创剧本、情节等提示词生成,体现了独创性表达,属于受著作权法保护的作品。被告人被判处有期徒刑八个月,缓刑一年两个月,并处罚金人民币六千元。涉案公司平台已累计生成超7000部AI短剧,单价数元至十几元,热门剧销量可达上千份。

政策/监管视频

推荐理由:AI短剧首例刑事案落槌,法院认定了提示词创作的独创性,以后靠盗录AI赚快钱的路子要被堵死,做内容生意的都得认真看。
16:16
IT之家(RSS)
52
AMD:Instinct MI430X 显卡加速器 FP64 性能超英伟达 Rubin 六倍

AMD 预览了 Instinct MI400 系列中的 MI430X 加速器,该产品已获多款超算采用。与侧重AI的MI455X不同,MI430X兼顾人工智能与传统高性能计算工作负载,并原生支持FP64高精度数据格式。其FP64算力预计超过200 TFLOPs,是英伟达Rubin架构的六倍以上,有望成为有史以来性能最高的FP64 GPU。AMD强调,FP64高精度对于气候学、材料科学等领域的科学探索至关重要,能为基于AI的研究提供高保真基础,以捕获底层科学的真实结构。

产品更新数据/训练
16:16
IT之家(RSS)
52
清华大学研发出全新锂硫电池:能量密度 549Wh/kg,无人机续航有望大提升

清华大学深圳国际研究生院周光敏团队在《自然》发表研究,提出硫电化学“预分子介体”新策略。团队利用量子化学与机器学习,从196种候选分子中筛选出“4-三氟甲基-2-氯嘧啶”。该分子可在电池反应中被原位激活,重塑硫转化路径,将电荷转移阻抗降低75%,并使电池在1C倍率下稳定循环800圈后容量保持率达81.7%。制备的软包电池能量密度达549Wh/kg,在高硫载、贫电解液条件下性能优越,有望大幅提升无人机等设备的续航能力。

数据/训练论文/研究
15:16
IT之家(RSS)
65
腾讯开源 OpenSearch-VL,突破多模态搜索 AI 智能体训练瓶颈

腾讯混元联合多所高校开源了OpenSearch-VL多模态训练方案,旨在通过强化学习解决前沿多模态搜索智能体的高质量训练数据瓶颈。该方案提供了从数据构建、工具集成到训练算法的完整开源框架。其核心是构建了高质量数据管道,通过维基百科路径采样与模糊实体重写等技术,产出高质量数据集,抑制检索捷径,鼓励智能体进行多跳搜索与推理。工具环境集成了文本/图像搜索、OCR及多种图像处理功能。实验结果显示,其模型将基线平均得分从47.8显著提升至61.6。

智能体多模态搜索论文/研究
15:16
IT之家(RSS)
59
全球首个人形机器人任务动作应用商店:宇树 UniStore 官方共享应用平台正式全面开放

宇树科技宣布其全球首个人形机器人任务动作应用商店“UniStore”正式全面开放。该平台允许用户像使用手机应用商店一样,轻松上传、分享和下载训练好的机器人动作模型,例如舞蹈、武术和劳动技能。此举旨在推动人形机器人从“功能机”向“智能机”时代跨越,通过共享应用生态解锁机器人的无限潜能。平台包含用户广场和动作库,用户可一键获取复杂操作预设。

产品更新具身智能
15:16
IT之家(RSS)
64
谷歌为 Gemma 4 系列 AI 模型推出 MTP 起草器,推理速度最高提升 3 倍

谷歌为Gemma 4系列开源模型推出多Token预测起草器,采用推测解码技术以提升推理效率。该技术通过轻量级起草器预测多个未来Token,再由重型目标模型并行验证,从而突破内存带宽限制,将计算资源利用率最大化。实测显示,在特定条件下,Gemma 4 26B模型在Apple Silicon芯片上实现了约2.2倍的本地加速。此举有助于在个人电脑、消费级显卡及边缘设备上高效部署低延迟AI应用,如聊天机器人和编程助手。

Google产品更新推理
15:16
IT之家(RSS)
精选72
用嘴干活:阿里千问 PC 端上线 AI 语音输入功能

阿里千问在PC端上线AI语音输入功能,用户通过快捷键即可在各类桌面应用中直接使用。该功能不仅支持去除语气词、纠错和格式化整理口语内容,更能基于上下文智能回复,并可直接下达创作、问答、翻译等指令。其设计逻辑超越传统语音打字工具,旨在成为跨应用的AI任务调度中枢:用户通过按住快捷键启动语音输入模式,或双击切换至AI指令模式,可直接派发信息检索、文档生成等任务。该功能覆盖文档编辑、网页浏览、即时通讯等主流办公场景,无需切换客户端或打开额外窗口,目前所有用户可免费使用。

产品更新语音

推荐理由:阿里千问把语音输入做成了跨应用的AI任务调度中枢,按住说话就能直接发指令干活,对办公族来说是个真提效的小功能,值得装上试试。
15:16
IT之家(RSS)
55
寒序科技携手 SEMIFIVE 流片三星 8nm eMRAM 边缘 AI SoC

韩国芯片设计服务企业SEMIFIVE与中国寒序科技合作,成功流片了一款采用三星8LPU制程嵌入式磁性随机存取存储器(eMRAM)的新一代边缘AI芯片。此次流片是SEMIFIVE首次在ASIC设计中应用eMRAM技术,也标志着亚洲首次实现8nm eMRAM技术的商业部署。eMRAM作为一种非易失性存储器,无需定期刷新,单元尺寸更小,数据密度高于SRAM,并能近乎无限期保留信息。该芯片采用近内存处理(PNM)架构,旨在解决边缘侧推理的带宽瓶颈,可支持20亿参数模型在端侧运行。

端侧行业动态
15:16
IT之家(RSS)
40
Claude Code 负责人切尔尼:我对"氛围编程"这个词已经有点厌烦了

Claude Code负责人鲍里斯·切尔尼对流行的“氛围编程”一词表示不满,认为其过于轻飘,无法准确描述AI编程工具的实际影响力。他指出,Claude Code和OpenAI的Codex等工具已为公司创造数十亿美元收入,并生成数百万行实用代码,标志着AI辅助编程已成为主流开发模式。目前,Anthropic官方使用“AI驱动的编程助手”等名称,而切尔尼正在公开征集新名称,以期更贴切地反映该技术的实质。

Anthropic现象/趋势编码行业动态
14:16
IT之家(RSS)
49
Skymizer 公布 AI 推理解码加速器:单 PCIe AIC 可集成 384GB 内存

中国台湾地区AI IP企业Skymizer近日发布推理解码加速器芯片HTX301,该芯片可与GPU协同工作,加速AI推理结果的输出,提升算力系统利用率和能效。HTX301基于HyperThought软硬件协同平台,采用LISA指令集架构,专注于带宽密集型负载处理。其支持SoC与PCIe AIC两种部署形态,其中单张PCIe加速卡可集成6颗HTX301芯片,提供总计384GB内存,足以满足7000亿参数大模型的本地运行需求,而整卡功耗仅为240瓦。

产品更新推理端侧
14:16
IT之家(RSS)
62
全球首发,三星 Galaxy Watch 手表实现提前预测晕厥

三星与韩国中央大学光明医院的联合临床研究证实,Galaxy Watch 6能高精度预测血管迷走性晕厥。该研究对132名疑似患者进行评估,利用手表的光电容积脉搏波描记法传感器和AI算法分析心率变异性数据,建立的模型可提前5分钟预测晕厥事件,准确率达84.6%。该成果已发表于《European Heart Journal – Digital Health》,是全球首次证明商用智能手表具备此潜力,提前预警有助于患者采取安全措施,减少摔倒导致的继发性损伤。

端侧论文/研究
14:16
IT之家(RSS)
39
Ubuntu 官方 X 账号疑遭劫持,诱导用户访问钓鱼网站

Ubuntu官方X账号疑似被黑,发布推广虚假Solana AI智能体“Numbat”及欺诈性加密货币$UM的推文,并诱导用户访问钓鱼网站ai-ubuntu.com。该网站盗用Ubuntu官方AI文档内容以增强欺骗性,通过设置空投奖励倒计时诱导用户进行“资格检查”,企图窃取钱包权限或个人数据。截至发稿,相关推文已被删除,Canonical官方尚未就此事件发表声明。

安全/对齐行业动态
14:16
IT之家(RSS)
51
联发科苗栗铜锣研发数据中心一期启用,基于英伟达 DGX B200

联发科技苗栗铜锣研发数据中心一期正式启用,这是台湾首座基于英伟达 DGX B200 平台驱动的 AI 高算力计算平台,并首次大规模导入浸没式冷却技术,PUE 低至 1.1。数据中心配套晶圆厂等级供电系统,上方设有 235kW 光伏电池板,可满足 67 个家庭用电需求,冷却系统采用再生水。项目始于2023年,未来将按需逐步扩展二、三期。

行业动态部署/工程
13:22
HuggingFace Daily Papers(社区热门论文)
精选76
OpenSearch-VL:前沿多模态搜索智能体的开源方案

研究团队推出完全开源的OpenSearch-VL方案,用于训练前沿多模态深度搜索智能体。该方案包含三大核心:通过维基百科路径采样、模糊实体重写和视觉定位构建的高质量训练数据集(包括用于微调的SearchVL-SFT-36k和用于强化学习的SearchVL-RL-8k);统一文本搜索、图像搜索、OCR及图像处理工具的多样化环境;以及能处理级联工具失败的多轮致命错误感知GRPO训练算法。基于此训练的智能体在七个基准测试中平均提升超过10分,在多项任务上达到与专有商业模型相当的水平。所有数据、代码和模型均将开源。

智能体arXiv多模态论文/研究

推荐理由:把多模态搜索 agent 的完整训练配方开源了,数据、环境、算法全都有,七个基准平均涨 10 点,直接对标商业模型,做深度搜索的同学可以无脑跟。
13:16
IT之家(RSS)
22
上汽 MG 4X 纯电 SUV 官宣 5 月 11 日开启盲订,搭载地平线博弈大模型和半固态电池

上汽MG宣布纯电SUV MG 4X将于5月11日开启盲订。新车将搭载地平线博弈大模型和半固态电池,入门版即配备,续航里程510公里起。车身尺寸为长4500mm、宽1849mm、高1621(1627)mm,轴距2735mm。动力方面,后轴搭载永磁同步电机,额定功率80kW,峰值功率150kW。新车还延续发光LOGO设计,并支持OPPO智行生态互联。该车型此前已出现在工信部新产品公示中。

产品更新端侧
13:16
IT之家(RSS)
33
穿越机、机器狗齐上阵,武警捕歼演练现场画面公开

武警第二机动总队某支队近日在西南边陲组织了一场有人和无人协同捕歼演练。演练模拟2名暴恐分子藏匿于废弃厂房,侦察组使用无人机进行高空侦察。突击组兵分两路:一组借助机器狗对目标区域实施封控警戒;另一组操控穿越机率先进入屋内,对暴恐分子可能藏匿的位置进行精准打击。此次演练将无人力量正式纳入作战编组,旨在优化战法训法,将新质战斗力转化为复杂环境下的实际制胜能力。

具身智能现象/趋势
12:22
HuggingFace Daily Papers(社区热门论文)
58
基于上下文稀疏注意力的闪电式统一视频编辑

针对上下文学习视频编辑中的计算瓶颈,研究团队提出首个近无损稀疏框架ISA。该框架基于上下文令牌显著性低、查询锐度与近似误差相关两项发现,采用预选择策略修剪冗余上下文,并通过动态查询分组机制,将高误差查询路由至完整注意力、低误差查询路由至高效的零阶泰勒稀疏注意力。结合新建的170万高质量视频数据集,团队构建了LIVEditor模型。实验表明,该模型在注意力模块延迟降低约60%的同时,在多个评测基准上超越现有先进方法,实现了近无损加速并保持了视觉保真度。

arXiv多模态视频论文/研究
12:22
HuggingFace Daily Papers(社区热门论文)
61
Stream-T1:面向流式视频生成的测试时缩放框架

针对流式视频生成中候选探索成本高、缺乏时序引导的问题,研究团队提出了首个综合性测试时缩放框架Stream-T1。该框架包含三个核心单元:流式缩放噪声传播利用历史高质量块噪声优化当前生成,建立时序依赖;流式缩放奖励剪枝结合短期与基于滑动窗口的长期评估,平衡局部空间美学与全局时间连贯性;流式缩放记忆沉淀根据奖励动态管理KV缓存上下文。在5秒和30秒视频基准测试中,Stream-T1显著提升了时间一致性、运动平滑度与帧级视觉质量,同时大幅降低了计算开销。

arXiv推理论文/研究
12:16
IT之家(RSS)
61
OpenAI 携手英伟达等 5 大巨头发布 MRC 协议,重塑大规模 AI 训练网络架构

OpenAI联合AMD、博通、英特尔、微软和英伟达,通过开放计算项目(OCP)开源了多路径可靠连接(MRC)协议。该协议旨在解决大规模AI训练中的网络延迟和故障问题。MRC基于RoCE标准扩展,结合SRv6技术,采用多平面网络设计,仅需两层交换机即可连接约13.1万块GPU,降低了网络功耗与成本。其自适应数据包喷淋技术可将数据分散至数百条路径并行传输,避免核心拥塞。同时,协议采用SRv6源路由简化控制,使网络故障恢复时间从秒级缩短至微秒级。MRC已应用于NVIDIA GB200超级计算机及Oracle Cloud Infrastructure站点。

OpenAI开源生态数据/训练行业动态
12:16
IT之家(RSS)
52
消息称马斯克曾拉拢奥尔特曼进入特斯拉董事会,把 OpenAI 变为子公司

据彭博社报道,在马斯克诉OpenAI的庭审中,前OpenAI董事会成员希冯·齐里斯作证称,2017年底马斯克曾计划招募奥尔特曼加入特斯拉董事会。当时双方正讨论OpenAI的资金需求,马斯克提议将OpenAI变为特斯拉子公司并在其内部建立AI实验室。OpenAI律师指出,书面证据表明此举意在“拉拢OpenAI并将其并入特斯拉”,是一种诱导奥尔特曼放弃OpenAI的尝试,未果后马斯克便选择了退出。

OpenAI行业动态
11:22
HuggingFace Daily Papers(社区热门论文)
59
PhysForge:为交互式虚拟世界生成基于物理的3D资产

针对交互式虚拟世界与具身智能中物理3D资产合成的瓶颈,现有方法多忽视功能性。本文提出PhysForge,一个由大规模四层物理标注数据集PhysDB支持的两阶段框架。第一阶段,视觉语言模型担任“物理架构师”,规划定义材料、功能与运动学约束的“分层物理蓝图”。第二阶段,基于物理的扩散模型通过新颖的运动体素注入机制,合成高保真几何与精确运动学参数。实验证明,PhysForge能生成功能合理、可直接仿真的资产,为交互式3D内容与具身智能体提供了强大的数据引擎。

arXiv具身智能多模态数据/训练
11:16
IT之家(RSS)
11
皮克斯动画电影《玩具总动员 5》内地院线同步北美,定档 6 月 19 日

皮克斯动画电影《玩具总动员5》将于6月19日在中国内地与北美同步上映。影片中,胡迪、巴斯光年、翠丝等经典角色悉数回归,并引入由Greta Lee配音的新角色——智能平板电脑Lilypad。故事将聚焦电子产品对童年生活的影响,展现传统玩具与智能设备之间的冲突与碰撞。

其他
11:16
IT之家(RSS)
45
首次全球青少年人工智能研习营将在杭州举办,23 个国家 27 支队伍参营

世界数字教育联盟将于5月10日至14日在杭州首次举办全球青少年人工智能研习营。活动面向全球高中生,共有来自23个国家的27支队伍、81名学生参营。研习营将通过项目创作与实践体验,设置3D建模与打印、大模型辅助编程等任务,旨在提升青少年数字技能并促进国际交流。同期,以“人工智能+教育:变革发展治理”为主题的2026世界数字教育大会也将在杭州举行。

行业动态
11:16
IT之家(RSS)
42
消息称三星正研发 MH1 全息 3D 屏,苹果 Spatial iPhone 将首发

据爆料,三星正在研发代号为MH1的全息显示屏,其核心技术是集成“纳米结构全息层”。该技术结合眼球追踪,能精准控制光束方向,在玻璃上方呈现具有景深的空间AI影像,让用户无需佩戴设备即可体验立体视觉效果。交互上,用户倾斜手机即可从不同角度观察物体。该屏幕在常规使用时保持4K清晰度,仅在全息内容时激活景深模式。消息称苹果Spatial iPhone可能首发此屏幕,但目前项目仍处早期研发阶段,量产时间未定。

端侧行业动态
11:04
Hacker News 热门(buzzing.cc 中文翻译)
65
学习扩散模型的积分

研究人员发布了学习扩散模型积分的新方法,称为Flow Maps,该技术通过数学积分优化扩散过程的概率流,提升生成AI模型的采样效率和图像质量。在Hacker News上获得102点,显示科技社区的高度关注。这一进展可能降低扩散模型的计算成本,推动其在图像生成等领域的实际应用,为生成模型训练提供更高效的解决方案。

图像生成论文/研究
10:22
HuggingFace Daily Papers(社区热门论文)
51
StableI2I:识别图像转换中的非预期变化

针对现有评估方法在图像到图像转换任务中忽视内容保真度与前后一致性的问题,研究团队提出了StableI2I。这是一个无需参考图像的动态评估框架,能在图像编辑、修复等多种任务中量化语义对应与空间结构的保持程度。团队同时构建了配套基准StableI2I-Bench,用于系统评估多模态大模型在此类判断任务上的准确性。实验表明,该框架能提供精细、可解释的评估结果,且与人类主观判断高度相关,可作为诊断真实世界图像转换系统内容一致性与模型性能的实用工具。

图像生成论文/研究评测/基准
10:22
HuggingFace Daily Papers(社区热门论文)
64
D-OPSD:基于在线策略自蒸馏的步数蒸馏扩散模型持续微调方法

针对高性能少步图像生成模型(如Z-Image-Turbo)在持续监督微调中会损害其固有少步推理能力的问题,本文提出D-OPSD训练范式。该方法利用以LLM/VLM为编码器的扩散模型可继承上下文能力的特点,将训练构建为在线策略自蒸馏过程:模型同时扮演教师(以文本和图像多模态特征为条件)和学生(仅以文本特征为条件)双重角色,并通过最小化其在自身生成轨迹上两个预测分布的差异进行优化。这使得模型能在自身监督下学习新概念或风格,同时保持原有的高效少步生成能力。

图像生成数据/训练论文/研究
10:16
IT之家(RSS)
28
谷歌发布紧急补丁,修复三星 Galaxy XR 头显严重内存泄漏问题

谷歌紧急推送版本号为I610UEU2AZD8的修复补丁,以解决三星Galaxy XR头显在安装4月系统更新后出现的严重内存泄漏问题。该故障导致设备在运行20至30分钟后内存占用持续攀升直至耗尽,引发系统卡死、画面帧率大幅下降,用户体验严重受损。官方确认此次更新修复了前述问题,并包含一系列系统稳定性与性能优化措施。所有受影响用户可通过系统设置中的软件更新菜单手动下载并安装此补丁。

Google产品更新
10:16
IT之家(RSS)
19
海信大白闺蜜机 X8 Ultra 部分规格确认,静待明日发布

海信大白闺蜜机 X8 Ultra 将于5月30日20:00开售,定价8499元。该产品采用32英寸4K面板,配备天鹅颈灵动系统和20000mAh电池,续航达15小时。存储组合为8GB+256GB,运行Android系统,支持Wi-Fi并集成摄像头。其主要功能覆盖护眼学习、家庭娱乐、智能AI助手、居家办公及健身追剧,同时支持AI健身、AI语音和K歌。

多模态行业动态
10:16
IT之家(RSS)
59
谷歌 DeepMind 将借力《星战前夜》游戏,攻克 AI 长期规划难题

谷歌DeepMind宣布收购Fenris Creations少数股权,并将在大型多人在线游戏《星战前夜》中训练AI,以攻克AI长期规划难题。这款运营了23年的游戏拥有复杂的科幻宇宙和高度社会模拟,要求玩家进行长期策略规划与政治博弈,正切中当前AI研究的薄弱环节。为确保不影响玩家体验,DeepMind初期将在隔离服务器上进行研究,游戏方也将利用其成果优化游戏。Fenris Creations近期刚以1.2亿美元现金及加密货币完成自我回购。

智能体DeepMind推理行业动态
08:30
Apple Machine Learning Research(RSS)
精选63
Normalizing Flows with Iterative Denoising

研究团队在归一化流(NFs)生成模型领域取得新进展,提出了迭代TARFlow(iTARFlow)。该方法在训练阶段保持完全端到端的基于似然的目标,采样时则采用自回归生成方式。iTARFlow延续了TARFlow在图像建模任务上的优势,使其成为扩散模型等方法的可行替代方案,进一步提升了归一化流生成模型的性能表现。

图像生成论文/研究

推荐理由:Normalizing Flows 这个老方法被苹果玩出新花样,iTARFlow 在训练上保留端到端似然,采样却自回归,给做生成模型的人提供了扩散模型之外的第二个靠谱选择。
08:30
Apple Machine Learning Research(RSS)
精选64
SpecMD: 关于推测性专家预取的综合研究

研究团队开发了SpecMD,这是一个用于在各种硬件配置上对临时缓存策略进行基准测试的标准化框架。该研究聚焦于混合专家模型,这类模型虽然实现了稀疏专家激活,但需要专家缓存机制才能将稀疏性转化为实际性能提升。此前的研究提出了以硬件为中心的缓存策略,但不同缓存策略之间以及它们与不同硬件规格之间的相互作用尚不明确。SpecMD框架旨在填补这一理解空白,系统性地评估缓存策略的交互影响与硬件适配性。

推理论文/研究部署/工程

推荐理由:MoE推理的缓存策略一直靠经验摸,Apple给的标准化框架能系统比较不同策略,做分布式推理的可以省些心力。
08:16
IT之家(RSS)
42
谷歌停运 Project Mariner,跨网页自动化技术整合至 AI Mode

谷歌于5月4日宣布停运其于2024年12月推出的实验性网页自动化项目Project Mariner。该项目旨在代替用户执行跨网站的多步骤任务,如信息检索与操作。谷歌强调其技术并未废弃,核心功能已被整合至Gemini智能体和AI Mode等核心产品中。过去一年,谷歌已逐步将此类智能体能力融入现有生态,例如让Gemini Agent代为处理邮件和预订酒店。此外,谷歌今年在Chrome中展示的“auto-browse”AI功能,可执行查询航班价格等复杂任务,被视为对竞争对手的直接回应。

智能体Google产品更新
08:16
IT之家(RSS)
23
漫步者 Lolli5 ANC 智能触控大圆屏耳机开售:50dB 降噪,539 元

漫步者 Lolli5 ANC 智能触控大圆屏耳机已上市,售价539元,提供沙滩白、礁石黑、落日橙三种配色。其最大亮点是充电盒配备智能触控屏,可显示时间并控制音乐、拍照。耳机支持50dB深度、5kHz宽度的ANC自适应降噪和3+3麦智能通话降噪,拥有双Hi-Res金标认证。采用13mm双复合LCP液晶振膜单元,支持蓝牙6.0、双设备连接和IP55级防尘防水。此外,还集成了豆包与DeepSeek双脑问答、会议录音及App实时互译等智能功能。

DeepSeek产品更新语音