Meta 于 4 月 18 日发布的开源模型 Llama 3-70B 在 Chatbot Arena 排行榜迅速登顶,参与超 5 万次对战。该模型在开放式写作和创意任务上表现突出,胜率达 60%,但在数学、编码等封闭式技术任务上逊于 GPT-4-Turbo 和 Claude 3 Opus。随着提示难度增加,其胜率从 50% 显著下降至 40%。分析显示,Llama 3 的输出风格更友好且具对话性,这成为其获得用户偏好的关键因素。
LMSYS 与 Kaggle 联合发起一项人类偏好预测竞赛,总奖金池达 10 万美元。参赛者需构建预测模型,判断用户在大型语言模型(LLM)两两对决中更偏好哪个回答。竞赛基于 LMSYS Arena 的真实对战数据,旨在通过众包方式探索更准确的 LLM 评估方法,推动模型与人类偏好对齐。比赛面向全球开发者开放,获胜方案有望改进现有大模型排名机制。
Qwen1.5 系列发布首个 100B+ 模型 Qwen1.5-110B,基础性能对标 Meta-Llama3-70B,在 MT-Bench 和 AlpacaEval 2.0 对话评测中表现优异。
DeepSeek-AI发布第二代大模型DeepSeek-V2,采用MoE架构,总参数量236B、每次前向传播仅激活21B参数,在保持接近GPT-4性能的同时显著降低计算成本。模型支持128K长上下文,通过创新的多头潜在注意力机制提升推理效率,训练成本与API定价均远低于同类模型。
关联讨论 1 条DeepSeek:GitHub 新仓库研究团队推出 Arena-Hard 数据流程及 Arena Hard Auto v0.1 基准测试,用于从 Chatbot Arena 实时用户数据中自动构建高质量 LLM 评估集。该基准在模型区分度上显著优于 MT Bench,与 Chatbot Arena 人类偏好排序的一致性达 89.1%,可分离性达 87.4%,单次评估成本仅需 25 美元。流程通过主题建模从 20 万条用户查询中筛选多样化、高质量提示词,并采用 GPT-4-Turbo 作为评判,解决了传统静态基准测试集泄露和区分度不足的问题。
Anthropic可解释性团队分享了2024年4月的研究进展与招聘规划。团队现有17人,预计2024至2025年将持续大规模扩张,重点招聘管理、研究科学家和工程师等职位。研究方面,团队探讨了字典学习的扩展规律,分析了计算资源分配与稀疏自编码器(SAE)训练效果的关系,并以一个具体案例展示了通过大规模超参数扫描寻找最优配置的过程。团队强调,这些成果属于初步分享,类似于实验室会议上的非正式交流。
Pile-T5 是研究人员基于 T5 架构,在 The Pile 大规模文本数据集上训练的语言模型。该模型继承了 T5 的文本到文本转换框架,通过在大规模多样化语料上的预训练,提升了自然语言理解与生成能力。Pile-T5 的发布为相关研究提供了基于 The Pile 数据训练的 T5 变体,适用于各类下游自然语言处理任务。
Qwen1.5-32B 作为该系列新成员发布,采用 32B 参数规模,架构除引入分组查询注意力(GQA)外,与系列内其他模型保持一致。
Qwen1.5-MoE-A2.7B 发布,仅2.7B激活参数(约为7B模型的1/3)即可匹敌 Mistral 7B 和 Qwen1.5-7B 的性能。
xAI 发布 Grok-1.5 大模型,推理与编程能力显著提升,支持 128K 上下文窗口,数学与代码基准测试成绩大幅改进,已向 X 平台 Premium+ 用户开放。
文章针对《纽约时报》关于 Yi-34B 与 Llama 2 关系的报道进行事实核查,澄清 Yi-34B 在架构设计、训练数据及分词器实现上与 Llama 2 的实际差异,同时系统梳理了当前大语言模型训练领域的行业常见实践,强调在遵循开源协议前提下基于现有架构进行技术迭代是 AI 社区的标准做法。
Runway 与 Musixmatch 达成合作,后者超100万艺术家社区将可使用 Gen-2 等模型制作动态歌词视频。结合 Musixmatch 歌词语义提取与 Runway 视频生成能力,让音乐视频创作更快、更独特且易于获取,帮助艺术家与全球听众建立更深连接。
Runway 与 Media.Monks 达成合作,为这家 2023 年度 Adweek AI 代理商提供生成式 AI 技术支持,帮助其优化内容创作流程、扩大创意产出规模并节省制作时间。Media.Monks 为 S4Capital 旗下数字营销品牌,此次合作旨在通过 AI 技术重新定义创意表达边界。
xAI 宣布开源 Grok-1 模型权重,采用 Apache 2.0 协议。该模型拥有 3140 亿参数,基于 MoE 架构,是迄今参数量最大的开源大模型之一。权重已上传至 GitHub 和 Hugging Face,可自由下载用于本地部署与商用。
Anthropic可解释性团队提出利用稀疏自编码器(SAE)学习到的特征来快速识别语言模型内部电路,替代传统依赖大量行为数据集的繁琐方法。研究以“Fact: [运动员姓名] plays the sport of”为例,通过归因分析在第9层残差流中自动识别出与篮球、棒球、网球相关的关键特征。这些特征本身构成了针对特定运动的探测机制,并能揭示注意力头等组件对特征的直接影响。该方法为理解模型组件功能提供了更通用、高效的途径。
DeepSeek 发布视觉语言模型 DeepSeek-VL,专注于真实场景下的多模态理解任务。该模型致力于缩小实验室环境与实际应用之间的性能差距,提升在复杂真实世界场景中的视觉问答、图像描述等能力。通过针对实际数据分布优化架构设计与训练策略,DeepSeek-VL 在保持高效推理的同时增强了鲁棒性,为开源社区提供了面向实用场景的高性能视觉语言基础模型选择。
关联讨论 1 条DeepSeek:GitHub 新仓库LMSYS Chatbot Arena是由LMSYS和UC Berkeley SkyLab于2023年5月推出的开源评估平台,基于FastChat框架构建。平台通过实时两两对比已收集超80万张社区投票,评估了GPT-4、Gemini、Llama、Mistral等90余个模型。坚持透明原则,仅收录API或开源权重可访问的公开模型,同时支持未发布模型匿名测试。团队定期开放20%投票数据(含提示词、回答及用户偏好),致力于通过社区驱动的实时评估推进大语言模型研究。
发布全新资源 FM Dev Cheatsheet,这是一份面向 Foundation Model 开发的实用速查表。该资源旨在为开发者提供基础模型开发全流程的关键参考信息,涵盖架构设计、训练优化及部署等环节的核心要点,帮助快速查阅技术规范与最佳实践,提升开发效率与项目质量。
Anthropic可解释性团队分享了多项研究进展。针对稀疏自编码器训练中普遍存在的“死亡特征”问题,团队发现其根源在于L1正则化过早抑制了特征,并确认这些特征将编码器权重集中在了整个数据集中弱激活的少数Transformer神经元上。团队提出多项架构改进:将Adam优化器的beta1设为0可大幅减少死亡特征;将解码器范数约束为≤1并允许后期剪枝;移除基于合成数据设置的预编码器偏置。此外,团队修正了“幽灵梯度”实现中的一个错误,并指出该技术目前主要对单层模型有明显提升,在更大模型上的效果尚不明确。
SGLang团队提出Jump-Forward Decoding算法,通过压缩有限状态机中的单一路径,将多token预填充合并为单步执行,突破传统方法逐token解码的限制。该技术兼容任意正则表达式与JSON/YAML schema,相比guidance+llama.cpp和outlines+vLLM等现有方案,延迟降低2倍,吞吐量提升2.5倍,使约束解码速度超越普通解码。
基于 Qwen 大模型能力,阿里云于2023年9月开源多模态模型 Qwen-VL,采用统一多模态预训练解决泛化局限。近期该系列升级,推出 Qwen-VL-Plus 与 Qwen-VL-Max 两个增强版本。
研究团队发布 SGLang 结构化生成语言及后端技术 RadixAttention,通过基数树数据结构自动管理并重用 KV 缓存,显著减少多轮生成调用中的冗余计算。在 NVIDIA A10G GPU 上运行 Llama-7B 和 Mixtral-8x7B 模型的测试显示,该系统吞吐量较 Guidance 和 vLLM 等现有系统提升最高达 5 倍。前端提供嵌入 Python 的领域特定语言,支持解释器与编译器双模式执行,有效提升复杂 LLM 程序的编程与执行效率。
Anthropic可解释性团队分享了2024年1月的多项初步研究想法。团队未来数月将聚焦三个方向:扩展字典学习方法、利用其分析真实模型中的注意力叠加现象,以及在此基础上解析电路机制。报告提及在注意力叠加几何结构上的新发现,例如在仅用两个注意力头表征五个“真实注意力特征”的玩具模型中,混合矩阵呈现出显著的几何结构。此外,团队也探讨了字典学习能否从MNIST模型中提取稀疏特征。这些内容多为初步成果,旨在促进领域内研究者交流。
该项目汇总了 DeepSeek 大模型与各类主流软件的集成方案,涵盖编辑器、IDE、聊天客户端及浏览器插件等工具。收录资源包括 VS Code 扩展、Obsidian 插件、ChatGPT-Next-Web 等客户端配置教程,支持开发者快速将 DeepSeek API 接入日常工作流,实现代码补全、文本生成与智能对话等功能。列表持续更新社区贡献的第三方集成案例与配置模板,降低 API 接入门槛。
DeepSeek 发布 DeepSeekMoE 架构,致力于在混合专家语言模型中实现极致的专家特化。该方案通过优化专家分工与路由机制,提升稀疏激活模型的参数利用效率,在控制计算成本的同时扩展模型容量,为大语言模型的高效训练与部署提供了新的技术路径。
Licklider 1960年论文《人机共生》提出"智能增强"(IA)是通向AI的过渡阶段,预测人机能力互补——计算机处理机械工作、人类负责思考,这一范式延续64年直至LLM打破界限。他预见云计算雏形,但误判技术路径:当时看好的逻辑推理AI成死胡同,而因缺乏数据被忽视的统计方法(LLM)终成主流。对交互预测也偏离现实:设想的多人协作大屏未普及,键盘鼠标仍是主导;对语音识别"5年实现"的乐观估计,实际耗时64年未成熟。
Sam Altman 分享17条创业与管理建议:以乐观、信念和人际网络启动项目,用凝聚团队和长期主义推动落地;集中资源押注高信念项目,设计好激励机制,保持快速迭代;警惕官僚作风,重视人才招聘与复利效应,与优秀的人共事。
研究团队提出了一种基于最小二乘法的概念擦除方法,在推理阶段利用 Oracle 概念标签,实现了比 LEACE 更精准的概念编辑。该方法通过引入真实的概念标签作为监督信号,能够对神经网络内部表示进行更精细的干预,在保持模型其他功能的同时,实现了更精确的概念移除和表示编辑。
Sam Marks 与 Max Tegmark 证明 Diff-in-Means Concept Editing 方法在最坏情况下具有最优性。该研究从理论角度确立了这种概念编辑技术的性能边界,表明在面对最具挑战性的干预场景时,该方法能够达到最佳效果,为模型编辑的可靠性提供了严格的数学保证。
Chatbot Arena平台已收集超13万张投票,对40余个模型进行排名。新加入的Tulu-2-DPO-70B和Yi-34B-Chat在开源模型中领先,性能接近GPT-3.5;基于Mistral的7B模型也展现强劲实力。平台正从Elo评分系统转向Bradley-Terry模型以提升稳定性。数据还显示GPT-4-0314与GPT-4-0613存在显著性能差异,而GPT-3.5-turbo-1106版本出现意外性能下滑。
Runway 与 Getty Images 联合推出 RGM(Runway-Getty Images Model),为企业提供可定制的视频生成基座模型。企业可用自有专有数据微调,生成符合品牌风格的视频内容,面向好莱坞、广告、媒体等行业。该模型将在未来几个月内开放商用。
DeepSeek-AI 开源发布 DeepSeek-LLM 大模型系列,包含 7B 与 67B 参数版本。模型基于 2 万亿 token 高质量数据训练,在数学推理、代码生成等任务上表现优异。67B 版本在 HumanEval、GSM8K 等基准测试中超越 LLaMA-2 70B,采用完全开源策略发布技术细节与训练方案。
第三届新英格兰 RLHF Hackers 黑客松近期举办,集中展示了多个聚焦机器学习与强化学习不同领域的创新项目。重点项目 Pink Elephants Pt 3 采用 ILQL(Inverse Learning from Q-learning)方法,基于标准 trlX 实现框架训练粉色大象模型。主办方鼓励参与者加入 Discord 社区,以获取未来活动更新与更多技术资讯。
研究团队发布 lookahead decoding 并行解码算法,基于 Jacobi 迭代同时提取验证 n-grams,无需草稿模型即可打破自回归解码的顺序依赖。该方法可将 LLaMA-2-Chat 7B 等模型的推理延迟降低 1.5 至 2.3 倍,解码步骤数随每步 log(FLOPs) 线性减少,且已与 HuggingFace Transformers 兼容,仅需数行代码即可集成。
S-LoRA 是一个专为大规模并发 LoRA 适配器服务设计的系统,通过统一分页技术动态管理 KV 缓存与适配器权重内存以减少碎片,并采用异构批处理优化不同秩的 LoRA 计算。该系统支持张量并行扩展至多 GPU,相比 HuggingFace PEFT 和 vLLM,吞吐量提升最高达 4 倍,可同时服务的适配器数量增加数个数量级。
EleutherAI 回顾了过去一年的研究工作,重点总结了在扩展 RoPE(旋转位置编码)方面的技术探索与成果。团队针对位置编码提出了优化方案,改进了旋转位置编码的基数调整与插值方法,显著提升了模型的长上下文处理能力。相关进展为大规模语言模型突破上下文长度限制提供了新的技术路径与实验数据。
简单改写或翻译测试集即可让13B模型在MMLU、GSM-8K和HumanEval等基准测试中达到GPT-4性能(MMLU 85.9分),而现有n-gram和嵌入相似度去污染方法完全无法检测此类样本。研究团队推出LLM Decontaminator工具,利用大模型评估潜在改写对,在The Stack、RedPajama等真实数据集中发现显著污染,甚至检测到MATH基准训练-测试集之间的数据重叠。