AIHOT

5月8日

00:00

LMSYS：Blog（Chatbot Arena 团队）

Meta 于 4 月 18 日发布的开源模型 Llama 3-70B 在 Chatbot Arena 排行榜迅速登顶，参与超 5 万次对战。该模型在开放式写作和创意任务上表现突出，胜率达 60%，但在数学、编码等封闭式技术任务上逊于 GPT-4-Turbo 和 Claude 3 Opus。随着提示难度增加，其胜率从 50% 显著下降至 40%。分析显示，Llama 3 的输出风格更友好且具对话性，这成为其获得用户偏好的关键因素。

Meta开源生态推理评测/基准

5月2日

00:00

LMSYS：Blog（Chatbot Arena 团队）

LMSYS 与 Kaggle 联合举办人类偏好预测竞赛，奖金 10 万美元

LMSYS 与 Kaggle 联合发起一项人类偏好预测竞赛，总奖金池达 10 万美元。参赛者需构建预测模型，判断用户在大型语言模型（LLM）两两对决中更偏好哪个回答。竞赛基于 LMSYS Arena 的真实对战数据，旨在通过众包方式探索更准确的 LLM 评估方法，推动模型与人类偏好对齐。比赛面向全球开发者开放，获胜方案有望改进现有大模型排名机制。

数据/训练评测/基准

4月25日

13:33

Qwen：Research（API）

精选

Qwen1.5-110B：Qwen1.5 系列首个 100B+ 参数模型

Qwen1.5 系列发布首个 100B+ 模型 Qwen1.5-110B，基础性能对标 Meta-Llama3-70B，在 MT-Bench 和 AlpacaEval 2.0 对话评测中表现优异。

开源生态数据/训练模型发布

推荐理由：阿里Qwen开源110B参数大模型，性能对标Llama3-70B

4月22日

14:55

DeepSeek：GitHub 新仓库

精选

DeepSeek-V2：一种强大、经济且高效的混合专家语言模型

DeepSeek-AI发布第二代大模型DeepSeek-V2，采用MoE架构，总参数量236B、每次前向传播仅激活21B参数，在保持接近GPT-4性能的同时显著降低计算成本。模型支持128K长上下文，通过创新的多头潜在注意力机制提升推理效率，训练成本与API定价均远低于同类模型。

DeepSeek开源/仓库推理模型发布

关联讨论 1 条

推荐理由：DeepSeek 开源 V2 模型，MoE 架构实现低成本高效推理

4月19日

00:00

LMSYS：Blog（Chatbot Arena 团队）

从实时数据到高质量基准：Arena-Hard Pipeline

研究团队推出 Arena-Hard 数据流程及 Arena Hard Auto v0.1 基准测试，用于从 Chatbot Arena 实时用户数据中自动构建高质量 LLM 评估集。该基准在模型区分度上显著优于 MT Bench，与 Chatbot Arena 人类偏好排序的一致性达 89.1%，可分离性达 87.4%，单次评估成本仅需 25 美元。流程通过主题建模从 20 万条用户查询中筛选多样化、高质量提示词，并采用 GPT-4-Turbo 作为评判，解决了传统静态基准测试集泄露和区分度不足的问题。

数据/训练论文/研究评测/基准

4月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选76

2024年4月机制可解释性研究动态与团队招聘计划

Anthropic可解释性团队分享了2024年4月的研究进展与招聘规划。团队现有17人，预计2024至2025年将持续大规模扩张，重点招聘管理、研究科学家和工程师等职位。研究方面，团队探讨了字典学习的扩展规律，分析了计算资源分配与稀疏自编码器（SAE）训练效果的关系，并以一个具体案例展示了通过大规模超参数扫描寻找最优配置的过程。团队强调，这些成果属于初步分享，类似于实验室会议上的非正式交流。

Anthropic推理数据/训练论文/研究

推荐理由：可解释性研究揭示AI内部机制，助力构建更安全可靠的AI产品。

01:00

EleutherAI：Blog

Pile-T5：基于 The Pile 训练的 T5 模型

Pile-T5 是研究人员基于 T5 架构，在 The Pile 大规模文本数据集上训练的语言模型。该模型继承了 T5 的文本到文本转换框架，通过在大规模多样化语料上的预训练，提升了自然语言理解与生成能力。Pile-T5 的发布为相关研究提供了基于 The Pile 数据训练的 T5 变体，适用于各类下游自然语言处理任务。

开源生态数据/训练模型发布

4月2日

13:33

Qwen：Research（API）

Qwen1.5-32B：为 Qwen1.5 语言模型系列补上关键一环

Qwen1.5-32B 作为该系列新成员发布，采用 32B 参数规模，架构除引入分组查询注意力（GQA）外，与系列内其他模型保持一致。

模型发布端侧

3月28日

11:31

Qwen：Research（API）

精选

Qwen1.5-MoE：以1/3激活参数匹敌7B模型性能

Qwen1.5-MoE-A2.7B 发布，仅2.7B激活参数（约为7B模型的1/3）即可匹敌 Mistral 7B 和 Qwen1.5-7B 的性能。

模型发布部署/工程

推荐理由：阿里Qwen发布MoE架构小模型，2.7B激活参数匹敌7B性能，大幅降低推理成本