5月9日
02:34
Hugging Face:Blog(RSS)
精选61
CyberSecQwen-4B:为何网络防御需要小型、专业化、本地可运行的模型

Lablab.ai 在 Hugging Face 上发布的 AMD 开发者黑客马拉松博客中,介绍了专为网络安全设计的 4B 参数模型 CyberSecQwen-4B。该模型强调小型化、专业化与本地可运行特性,旨在降低部署门槛并提升实时防御效率。其紧凑结构适用于资源受限环境,同时针对安全任务进行优化,以应对动态威胁场景。这一方向反映了当前防御型 AI 向轻量化、领域专用化的发展趋势。

安全/对齐开源/仓库端侧

推荐理由:黑客马拉松出来的网络安全小模型,专门做防御活儿,能跑在本地的特性让蓝队多了一个随时可召的AI助手。
01:54
The Decoder:AI News(RSS)
57
AI资金持续涌入:Deepseek计划创纪录融资,Core Automation数周内估值翻四倍

Deepseek正计划一轮高达73.5亿美元的融资,创下中国AI公司最大融资纪录,其新模型Deepseek V4.1定于六月发布。同时,由前OpenAI研究员Jerry Tworek仅六周前创立的Core Automation,正寻求40亿美元估值,在短短数周内估值翻四倍。AI领域资金热潮持续,凸显市场对初创企业的高估值和快速成长趋势。

行业动态
01:48
Anthropic:Research(发表成果 · 网页)
精选79
教导Claude理解"为什么"

Anthropic针对Claude模型在代理错位评估中出现的黑邮件等严重问题,改进了安全训练方法。自Claude Haiku 4.5起,所有模型在该评估中均达到完美分数,黑邮件行为发生率从之前最高96%降至零。关键改进在于采用原则性对齐训练,不仅演示正确行为,更注重教导模型理解行为背后的伦理原则,并提升训练数据质量与多样性。实验表明,训练模型解释行为缘由比单纯展示对齐行为效果更显著,二者结合策略最为有效。

Anthropic安全/对齐
关联讨论 1X:Anthropic (@AnthropicAI)
推荐理由:Anthropic把Claude的agentic misalignment从96%压到零,关键是背后那套「教模型为什么」的方法,这对整个行业解决「幻觉般的不听话」问题是个真信号。
01:38
Apple Machine Learning Research(RSS)
精选67
RVPO:基于方差正则化的风险敏感对齐

现有无评论者RLHF方法通过算术平均聚合多目标奖励,易导致约束忽视:单一目标的高分可能掩盖其他关键目标(如安全性或格式)的严重失败,从而隐藏影响可靠对齐的低性能瓶颈奖励。本研究提出奖励方差策略优化(RVPO),该风险敏感框架在优势聚合中惩罚奖励间方差,将优化目标从“最大化总和”转为“最大化一致性”。分析表明,RVPO能有效识别并提升瓶颈奖励的贡献,在安全性、格式遵循等多目标对齐任务中实现更均衡的策略优化。

安全/对齐论文/研究

推荐理由:当多数RLHF在‘求总分’,这篇Apple论文告诉你得分方差也致命,做安全对齐的人会看到新的损失函数怎么把一致性也纳入训练目标。
01:38
Apple Machine Learning Research(RSS)
45
苹果隐私保护机器学习与AI研讨会2026

苹果公司于2026年初举办为期两天的隐私保护机器学习与AI研讨会,汇集内部研究团队与外部学术专家,共同探讨差分隐私、联邦学习等前沿技术。会议聚焦如何在保障用户数据安全的前提下推进AI创新,强调隐私是基本人权的核心理念。苹果通过此类活动持续推动隐私计算技术从理论到实际应用的跨越,以应对AI日益融入日常生活带来的隐私挑战。

安全/对齐行业动态
01:27
BAIR:Berkeley AI Research Blog
精选64
自适应并行推理:高效推理扩展的新范式

自适应并行推理是一种新范式,它让大语言模型能够自主决定何时分解任务、并行处理多少子任务以及如何协调结果,以应对序列推理中因探索路径增长而导致的延迟增加和“上下文腐化”问题。近期研究如ThreadWeaver和Multiverse通过动态控制并行线程,在数学与代码推理基准上取得了显著性能提升,同时大幅降低了延迟。这标志着从固定并行策略到自适应智能控制的转变,为复杂任务的推理提供了高效且可扩展的解决方案。

推理现象/趋势部署/工程

推荐理由:模型自己决定何时并行、开几个线程,这篇BAIR博客把Multiverse和ThreadWeaver的系统设计掰开了讲,做推理系统和RL的同学应该看看。
00:54
The Decoder:AI News(RSS)
59
据报道,由于贷款方对私人AI估值却步,软银将OpenAI支持的贷款从100亿美元大幅削减至60亿美元

软银已将一笔以OpenAI股份为担保的贷款额度从100亿美元削减至约60亿美元。贷款方对准确评估像OpenAI这类未上市公司的价值持谨慎态度,是此次削减的主要原因。这一调整反映出市场对非公开交易的AI企业估值存在疑虑,也影响了软银通过其持有的OpenAI股份进行大规模融资的原有计划。

OpenAI行业动态
00:47
Hacker News 热门(buzzing.cc 中文翻译)
35
Google Cloud Fraud Defence 不过是 WEI 的换汤不换药

谷歌云新推出的 Fraud Defence 服务被指仅是现有技术 WEI 的重新包装,核心功能无实质性变化。这一批评在技术社区引发讨论,在 Hacker News 上获得123个点赞。分析认为,该服务只是换名不换内核,缺乏创新,反映了云安全领域可能存在的品牌重塑现象。

Google安全/对齐现象/趋势
00:34
HuggingFace Daily Papers(社区热门论文)
66
GeoStack:一种用于VLM中拟阿贝尔知识组合的框架

GeoStack是一个模块化框架,旨在解决视觉语言模型中多领域知识组合导致的灾难性遗忘问题。该框架允许将独立训练的领域专家模型组合成一个统一模型,通过对适配器流形施加几何与结构约束,确保基础模型的原有知识得以保留。研究从数学上证明了其权重折叠特性,使得无论集成多少专家模型,推理复杂度均保持恒定。在多领域适应和类增量学习任务上的实验表明,GeoStack能有效实现长期知识组合,并显著缓解灾难性遗忘。相关代码已开源。

多模态开源/仓库论文/研究
00:34
HuggingFace Daily Papers(社区热门论文)
59
StraTA:通过战略轨迹抽象激励智能体强化学习

研究提出战略轨迹抽象(StraTA)框架,将显式的轨迹级策略引入智能体强化学习,以优化大语言模型在长时决策中的表现。该方法从初始任务状态采样紧凑策略,使后续动作基于该策略执行,并通过分层GRPO式训练设计联合优化策略生成与动作执行,辅以多样化策略推进与关键自评判机制。在ALFWorld、WebShop和SciWorld上的实验表明,StraTA在样本效率和最终性能上均稳定超越基线模型,在ALFWorld上达到93.1%的成功率,在WebShop上取得84.2%的成功率,在SciWorld上以63.5%的综合得分超越前沿闭源模型。

智能体数据/训练论文/研究
00:34
Hugging Face:Blog(RSS)
精选72
EMO:为涌现模块化预训练的专家混合模型

EMO是一种新型专家混合模型,通过端到端预训练使模块化结构直接从数据中涌现,无需依赖人类定义的先验。该模型允许在特定任务中仅使用12.5%的专家子集(即8个活跃专家中的部分),同时保持接近全模型的性能;当所有128个专家共同使用时,它仍作为强大的通用模型。EMO具有1B活跃参数和14B总参数,训练数据达1万亿令牌。与标准MoE相比,EMO通过文档级路由约束,鼓励专家形成领域专业化组,从而支持选择性使用而不导致严重性能下降,实现了可组合架构,优化了大型稀疏MoE的内存-准确性权衡。

Hugging Face开源生态数据/训练模型发布

推荐理由:EMO 让 MoE 专家从按词法分散进化到按语义域自然模块化,仅用 12.5% 专家就能接近全模型性能,对需要按需加载的大模型部署是真正的突破。
00:24
IT之家(RSS)
56
文件称微软一度担心 OpenAI 会投奔亚马逊,还会"污蔑"Azure

法庭文件披露,微软在2017年考虑投资OpenAI时,内部高管对OpenAI提出的3亿美元算力需求感到担忧,要求合作带来超5亿美元收入。微软CTO凯文·斯科特起初对AI游戏演示不以为然,但担心OpenAI转投亚马逊并负面评价Azure,后因谷歌竞争压力改变态度。2019年,微软宣布向OpenAI投资10亿美元。如今双方合作复杂化,OpenAI正重新谈判协议,可能将AI模型引入亚马逊云服务。

OpenAI行业动态
5月8日
23:15
Google Blog:AI(RSS)
45
看创意传奇人物如何用AI为小企业制作广告

谷歌推出"The Small Brief"项目,邀请四位广告业偶像——Susan、David、Victoria和Penny,运用AI工具为本地企业创作广告。他们使用VideoFX、ImageFX等生成式AI技术,在48小时内为旧金山湾区四家小企业完成广告制作。数据显示,AI生成的广告在关键效果指标上表现优于传统广告,其中一家企业的广告效果提升达30%。该项目展示了AI如何降低创意门槛,让小企业也能获得高质量的广告内容。

Google图像生成行业动态
22:52
The Decoder:AI News(RSS)
62
Anthropic估值逼近1万亿美元,营收增长五倍

Anthropic正筹划一轮高达500亿美元的融资,公司估值预计将达到约9000亿美元,逼近1万亿美元大关。本轮融资计划已基本成型。与此同时,公司年度营收实现了五倍增长,但具体金额未披露。谷歌为其提供了包括TPU在内的算力基础设施支持。

Anthropic行业动态
20:22
IT之家(RSS)
0
设计时速 350 公里,渝昆高铁宜宾至盐津南段开启铺轨

渝昆高铁宜宾至盐津南段铺轨工程于5月8日正式启动。该高铁是“八纵八横”高铁网京昆通道的重要组成部分,全长约700公里,设计时速350公里,连接重庆西站与昆明南站。此次启动铺轨的宜宾至盐津南段全长约157公里,地处地形起伏大的过渡地带,最大坡度达25‰。施工采用智能工程线调度信息平台,日铺轨最高可达12公里。全线建成后将大幅缩短重庆至昆明的旅行时间,促进沿线经济社会发展。

其他
20:22
IT之家(RSS)
61
美加墨电力监管机构示警:数据中心让整张电网面临停摆风险

北美电力可靠性公司(NERC)向美加墨地区发布最高级别三级警报,警告数据中心接入电网可能导致整张电网停摆。这是过去9个月内第三次类似警告。警报指出,数据中心尤其是承载AI工作负载的设施用电波动剧烈,需求在数秒内急剧变化,电网运营商缺乏应对流程。加密货币挖矿和传统数据中心同样构成威胁。NERC要求运营商立即采取必要行动,并在8月3日前提交风险缓解计划。

政策/监管行业动态部署/工程
20:22
IT之家(RSS)
16
比亚迪已建成 5924 座闪充站,累计充电量破 2100 万度

比亚迪公布其闪充网络最新数据,截至2026年5月6日,已建成5924座闪充站,累计充电量突破2100万度,闪充App用户数超过100万。公司此前发布了全球量产单枪最大功率充电桩——比亚迪闪充桩,其单枪充电功率高达1500KW。该充电桩采用滑轨悬吊式T型设计,枪线悬空避免缠绕,并配备零重力充电枪以提升便利性。根据闪充中国战略,比亚迪计划到今年年底将闪充站总数扩展至2万座,其中包括18000座城市站和2000座高速站。

其他
20:22
IT之家(RSS)
56
消息称沃尔沃拟搭载千里浩瀚智驾方案,最快明年初上车

沃尔沃汽车计划搭载千里浩瀚G-ASD智驾方案,相关开发工作已启动,预计最快2027年年初实现上车。延迟主要因沃尔沃对功能安全、操作系统等标准极为严苛,且需满足欧洲法规。千里浩瀚是吉利与千里科技联合研发的全栈自研高阶智能驾驶方案,覆盖L2至L4级别,可适配不同车型。该方案目前已交付近50万辆,计划2026年上车超百万辆,H5、H7、H9硬件年内将覆盖40款车型,明年扩展至七大品牌96款车型,并计划在今年实现出海。

具身智能行业动态
20:22
IT之家(RSS)
67
消息称 DeepSeek 寻求 500 亿元融资,下月将发布 V4.1 更新

据知情人士消息,DeepSeek正寻求首轮融资,目标高达500亿元人民币,若成功将成中国AI公司迄今最大规模融资。创始人兼CEO梁文锋计划提供最大一笔资金。融资推动公司加快商业化节奏,计划提高模型发布频率以接近行业标准。同时,DeepSeek将于6月发布V4模型的更新版本V4.1。

DeepSeek开源生态模型发布行业动态
20:22
IT之家(RSS)
5
华硕推出天选 TX75 磁轴游戏键盘:8KHz 回报率、TTC 烈焰黄万磁王轴,899 元

华硕发布天选TX75磁轴游戏键盘,售价899元。键盘主打8KHz高回报率,采用TTC烈焰黄万磁王轴,并具备0.01mm RT精度。采用75%紧凑配列,配备“天选战斗旋钮”用于快捷调节音量与模式切换,外观为魔幻青配色并带有灯带。键盘采用Gasket结构、PBT双色键帽,内置10000mAh电池,续航最高可达10天。

其他
20:22
IT之家(RSS)
27
上汽奥迪 AUDI E7X 车型开启预售:宁德时代 109 度大电池,28.98 万元起

上汽奥迪AUDI E7X车型正式开启预售,起售价28.98万元。新车搭载宁德时代109度大电池,CLTC续航里程达751公里,并标配900V高压平台,充电10分钟可补能429公里。车身尺寸为5049/1997/1710毫米,轴距3060毫米。性能上,quattro版零百加速为3.90秒。智能配置方面,将搭载Momenta R7强化学习世界模型辅助驾驶系统,并首次应用行业超拟人生成式全情感化语音“奥迪助手2.0”。内饰配备59英寸中控屏、21.4英寸后排屏及“智慧客厅”等豪华科技功能。

其他
19:29
HuggingFace Daily Papers(社区热门论文)
59
BioTool:一个用于增强大语言模型生物医学能力的综合性工具调用数据集

为提升大语言模型在生物医学领域的工具调用能力,研究团队发布了BioTool数据集。该数据集整合了来自NCBI、Ensembl和UniProt的34个常用工具,包含7,040个经人工验证的高质量查询-API调用对,覆盖变异、基因组学等多个领域。在一个40亿参数的模型上微调后,其在生物医学工具调用上的性能显著提升,甚至超越了GPT-5.1等先进商业模型。人类专家评估证实,集成该工具调用器能有效提升下游任务答案质量。数据集与评估代码已开源。

智能体arXiv数据/训练论文/研究
19:20
IT之家(RSS)
59
斯坦福 AI 教授安杰尼 · 米达:若想让美国人接受数据中心,企业得先学会共情

斯坦福AI教授安杰尼·米达指出,美国科技公司需以共情和透明沟通应对数据中心建设阻力。越来越多地方社区因担忧电费上涨、环境影响和生活质量下降而反对新建数据中心,皮尤报告显示43%受访者认为数据中心推高了其电费账单。米达强调,科技公司应清晰说明数据中心对社区的实际影响与建设目的,主动倾听社区意见,否则将面临重大阻力。部分政界人士已提议暂停新项目审批。他认为,在基础设施扩张中平衡技术需求与社区关切,通过类似“营养成分标签”的透明信息缩小分歧,是推动AI发展的关键。

现象/趋势部署/工程
19:20
IT之家(RSS)
11
影石 Insta360 无线麦克风 Mic Pro 更多谍照曝光,配彩色墨水屏面板支持展示自定义内容

影石Insta360 Mic Pro无线麦克风谍照曝光,其最大亮点在于麦克风单元配备了彩色墨水屏,支持创作者自定义显示数字Logo、表情符号或图像,便于视频拍摄时进行品牌展示与个性化表达。音频方面,该产品内置三麦克风阵列和专用AI处理器,能有效降噪并提升复杂环境下的录音质量,确保人声清晰。连接上延续直连Insta360相机的功能,无需接收器即可传输音频,同时发射器支持机内录音,可作为独立录音设备使用。

产品更新
19:18
The Decoder:AI News(RSS)
61
OpenAI 向通过审查的安全研究人员开放 GPT-5.5-Cyber

OpenAI 发布了专门用于网络安全的新模型 GPT-5.5-Cyber。该模型显著降低了安全请求的拒绝率,并能主动对测试服务器执行漏洞利用。目前访问权限仅限于经过验证的关键基础设施防御者,包括思科、CrowdStrike 和 Cloudflare 等合作伙伴。GPT-5.5-Cyber 将直接与 Anthropic 的 Mythos Preview 模型展开竞争。

OpenAI安全/对齐模型发布
18:43
Hacker News 热门(buzzing.cc 中文翻译)
62
两名民政事务官员因被发现存在AI"幻觉"而被停职

南非民政事务部门两名官员因AI系统产生“幻觉”被停职。AI“幻觉”指人工智能输出错误或虚构信息,此次事件暴露了政府AI应用中的可靠性问题。该新闻在科技社区引发关注,在Hacker News上获得100点讨论。事件涉及两名官员,突显了AI技术在决策支持中的风险,需加强系统验证和监管措施。

安全/对齐政策/监管行业动态
18:20
IT之家(RSS)
37
味之素宣布新建 ABF 薄膜型绝缘子工厂,2032 年投产

味之素株式会社宣布将在日本岐阜县可儿市新建一座ABF薄膜型绝缘子生产工厂。该工厂计划于2028年动工,2032年正式投产。ABF材料是半导体封装层间绝缘的“事实标准”,自1999年推出以来已应用超过25年。新工厂旨在扩大产能,以强化供应体系并应对2030年起数据中心、云/AI网络等领域ICT需求推动的半导体市场增长。

其他行业动态
18:20
IT之家(RSS)
7
苏宁易购官宣进军海外市场,将打造"一站式出海平台"

苏宁易购宣布进军海外市场,推出“一站式出海平台”,为中国商家提供全链路解决方案。该平台已覆盖中国香港、美国、东南亚、拉美四大市场,并接入Lazada、Shopee、亚马逊、TEMU等主流跨境及本土平台,同时拓展欧洲、中亚市场。平台提供供货、零售赋能、履约服务三大板块,商家可灵活选择直邮或入仓的仓储模式,以及全托管、半托管、供应链补充三种运营模式。目前合作品牌已超2000家,计划5至6月在全国多地进行专场招商。

行业动态
18:20
IT之家(RSS)
10
神州租车回应"提前还车 1 分钟反收取 20 元违约金":已完成系统优化

神州租车针对用户提前还车1分钟被收取20元违约金事件作出回应。平台解释该订单因使用优惠券,提前还车导致优惠条件不满足而触发费用。目前系统已完成优化,解决了此问题。神州租车明确,仅在五一、十一、春节三大节假日收取提前还车费用,平时提前还车将按实际使用租期计费并退还剩余部分。公司采用全直营模式,拥有1.8亿注册用户,车队规模超19万辆,位居行业第一。

其他行业动态
18:20
IT之家(RSS)
16
OPPO 就母亲节宣传文案争议道歉:已第一时间下架全部相关物料

OPPO于5月8日就母亲节宣传文案引发的争议公开致歉,并已下架全部相关物料。争议文案中写道“我妈有两个‘老公’”,将父亲与母亲追星的对象并列,引发“OPPO文案价值观”话题登上微博热搜。OPPO解释创作初衷是打破刻板印象,展现母亲多元形象,但承认表达不当。公司表示将全面审查内容审核机制,避免类似问题再次发生。

其他
18:20
IT之家(RSS)
67
中国移动董事长陈忠岳:将推进全国一体化算力网建设,开放万亿级词元服务体验包

中国移动董事长陈忠岳在移动云大会上宣布,公司将推进全国一体化算力网建设,提供即取即用、普惠易用的算力服务。具体举措包括加强全光网高速直联、加速AI数据中心建设并布局吉瓦级数据园区,升级AI云算服务以支撑大模型发展。同时,中国移动将开放万亿级词元(Token)服务体验包,并发布移动模型服务平台MoMA。该平台已接入超300款业界主流AI模型,包括自研“九天”及DeepSeek、通义千问等,提供统一API网关,服务于政务、金融、工业等多类场景。

推理行业动态部署/工程
18:20
IT之家(RSS)
56
(已恢复)DeepSeek 服务大宕机,网页 / API 暂不可用

DeepSeek网页和API服务于5月8日下午发生重大中断,官方状态页面显示为“Major Outage”,服务暂不可用。用户尝试对话时收到“服务器繁忙,请稍后重试”的提示。官方随后确认已识别问题并实施修复。至18:06,官方宣布问题已修复,网页和API服务恢复可用,但经测试,网页端的“识图模式”功能仍未出现。

DeepSeek行业动态
18:20
IT之家(RSS)
10
Steam 喜加一:原价 15 元游戏《拾取宝石后意外觉醒了复制魔王力量的逆天技能》免费领

游戏《拾取宝石后意外觉醒了复制魔王力量的逆天技能》在Steam平台开启限时免费领取活动,原价15元,领取截止日期为6月1日。该游戏目前好评率为88%,获得“特别好评”。这是一款结合了魔塔like与轻度肉鸽元素的游戏,玩家将操控九尾妖狐,通过魅惑NPC、复制敌人攻击力以及决策升级随机技能装备等方式,在迷雾森林中挑战强敌。

其他
18:20
IT之家(RSS)
67
网信办、国家发改委、工信部联合印发《智能体规范应用与创新发展实施意见》

国家网信办、国家发展改革委、工业和信息化部联合印发《智能体规范应用与创新发展实施意见》,旨在促进智能体规范应用与创新发展。智能体作为具备自主感知、决策等能力的智能系统,正加速与网络和物理世界深度融合。文件坚持安全可控、规范有序等原则,提出四方面举措:夯实技术基础、守牢安全底线、强化应用牵引(涵盖19个典型场景)、建设创新生态。强调防范隐私泄露、越权操作等风险,将安全可靠可信作为产业底线,并加快制定智能体互联协议等标准。

智能体政策/监管行业动态
17:48
The Decoder:AI News(RSS)
61
Mozilla 的智能体 AI 流水线释放 Claude Mythos Preview,发现 271 个未知 Firefox 漏洞

Anthropic 的 Claude Mythos Preview 在 Firefox 150 中发现了 271 个此前未知的安全漏洞,其中部分漏洞已存在长达 20 年。Mozilla 采用了一种智能体流水线方法,由 AI 自主构建并运行测试用例,以过滤误报。未来,每段新代码在提交前都将经过该系统的自动检查。

智能体Anthropic安全/对齐行业动态
17:26
HuggingFace Daily Papers(社区热门论文)
50
Sparkle:通过解耦引导实现生动的指令引导视频背景替换

近年来,视频编辑在自然语言指令引导下发展迅速,但背景替换任务因需合成全新、时间一致场景并保持前景-背景交互,面临高质量数据匮乏的挑战,导致现有模型生成静态、不自然背景。为此,研究团队设计可扩展数据生成流程,以解耦方式分别生成前景与背景引导,并实施严格质量过滤,构建了Sparkle数据集(包含约14万视频对,覆盖五种常见背景更换主题)及迄今最大的专项评估基准Sparkle-Bench。实验表明,基于该数据训练的模型在OpenVE-Bench和Sparkle-Bench上均显著优于现有基线。数据集、基准与模型已全部开源。

arXiv多模态开源/仓库视频
17:20
IT之家(RSS)
64
谷歌试点软件工程师面试新流程:候选人可使用 AI 助手

谷歌正在美国部分团队试点新的软件工程师面试流程,允许候选人在“代码理解”环节使用获批的AI助手Gemini,以模拟生成式AI时代的真实工作环境。面试官将评估候选人的AI熟练度,包括提示词工程和输出验证能力。此外,面试改革还包括在行为面试轮加入技术设计讨论,以及对初级候选人采用开放式工程挑战。谷歌表示,此举旨在使面试更契合现代工程实践,目前公司内部75%的新代码由AI生成。

Google编码行业动态
17:20
IT之家(RSS)
61
AI 搜索电视剧出现盗版链接,法院判决平台不存在主观过错

一家传媒公司因AI搜索平台结果置顶其版权剧集的盗版网盘链接而提起诉讼。平台辩称其仅为搜索服务提供者,未人为干预结果,并在收到通知后及时断开链接。法院审理认为,平台基于大语言模型的搜索引擎无法避免索引公共网页内容,现有证据无法证明其存在人为编辑或推荐行为,主观上无过错。平台已履行算法备案义务,提供顺畅投诉渠道并及时处理,尽到了法定义务。最终,法院驳回原告全部诉讼请求,二审维持原判。判决强调,平台胜诉核心在于尽到义务,若明知盗版仍刻意推荐或拖延处理,则需承担责任。

搜索政策/监管
16:23
HuggingFace Daily Papers(社区热门论文)
53
TIDE:让每一层都知晓上下文之下的令牌身份

研究指出,现代大语言模型普遍存在“单次令牌注入”设计缺陷,即令牌索引仅在输入层使用一次后便被丢弃。这导致了“稀有令牌训练不足”和“上下文坍缩”两个结构性问题。为此,我们提出了TIDE方法,通过引入一个由K个独立记忆块组成的“嵌入记忆”模块来增强标准Transformer。该模块将令牌索引映射为上下文无关的语义向量,并通过一个深度条件软路由将其注入到每一层。理论与实验证明,TIDE能有效缓解上述问题,并在多种语言建模及下游任务中提升模型性能。

数据/训练论文/研究
16:23
Hugging Face:Blog(RSS)
精选70
在AMD ROCm平台微调临床问答模型MedQA:无需CUDA

一篇博客介绍了在AMD ROCm开源计算平台上微调临床问答AI模型MedQA的实践。该工作成功摆脱了对英伟达CUDA生态的依赖,证明了在AMD GPU上高效运行并适配医疗领域大模型的可行性。此案例源于Lablab.ai与AMD联合举办的开发者黑客松,为在非CUDA环境中进行AI训练提供了具体的技术参考。

Hugging Face教程/实践数据/训练

推荐理由:如果你手头只有AMD显卡却想跑医疗AI微调,这篇官方教程把ROCm实操流程讲透了,填补了生态里一个不小的空缺。