AIHOT

12月22日

00:00

Anthropic：Transformer Circuits（可解释性研究）

53

Garçon：支持大语言模型可解释性研究的核心工具

Anthropic开发的Garçon工具解决了传统方法难以对超单节点大模型进行可解释性研究的问题。它允许研究人员通过启动服务器连接模型，并利用“钩子”接口在前向传播过程中访问和修改内部状态（如特定层的张量）。该工具自动处理多节点数据分发与服务器管理（如一小时闲置后自动关闭），显著简化了大规模模型的探测与干预实验工作流程。

Anthropic推理论文/研究

00:00

Anthropic：Transformer Circuits（可解释性研究）

58

Transformer电路的数学框架

本研究提出一个用于逆向工程Transformer语言模型的数学框架，通过分析仅含注意力机制的超简模型（两层或以下）来揭示其内部工作机制。研究发现：零层模型直接建模二元统计；单层模型是二元与“跳跃三元”模型的组合；两层模型则能通过注意力头组合形成“归纳头”，实现复杂的上下文学习算法。该框架将注意力头分解为独立的QK与OV电路，并将模型输出表述为可解释函数之和，为理解更大规模模型的计算原理提供了初步基础。

Anthropic推理论文/研究

12月15日

00:00

Runway：News（网页）

Runway 完成 3500 万美元 B 轮融资

Runway 完成 3500 万美元 B 轮融资，Coatue 领投，Amplify Partners 等现有投资方跟投。资金将用于开发自动化视频编辑工具，降低视频创作门槛，帮助更多用户通过视频讲述故事。

行业动态视频

10月26日

04:00

EleutherAI：Blog

使用 GPT-3 对分解认知的初步探索

研究团队利用分解认知（factored cognition）策略，使原本无法完成简单数学运算的 GPT-3 成功处理复杂算术任务。实验通过将复杂玩具任务拆解为可管理的子任务，验证分解方法在现实模型中的可行性。结果表明，即使不具备基础数学能力，该模型仍可通过任务分解解决其原生能力无法处理的复杂问题，为扩展语言模型能力边界提供了初步证据。

安全/对齐推理论文/研究

10月11日

23:00

EleutherAI：Blog

语言模型评估中的多项选择归一化

自回归语言模型（GPT-3、GPT-Neo、GPT-J 等）的多项选择任务评估存在多种实现路径。文章系统梳理了当前主流的归一化（Normalization）方法，针对模型在不同选项上的概率计算方式、长度偏差修正及分数标准化技术进行详细阐述，为统一语言模型评测标准提供方法论参考。

数据/训练论文/研究评测/基准

8月17日

02:13

EleutherAI：Blog

RoPE 与 GPT 学习式位置编码的下游评估对比

该评估系统对比了旋转位置编码（RoPE）与 GPT 类学习式位置编码在下游任务中的性能表现，通过多维度基准测试分析两种位置编码机制的应用差异，为 Transformer 模型架构中位置编码方案的选择提供实证依据。

数据/训练论文/研究

7月8日

08:00

EleutherAI：Blog

漫长而奇异的旅程：EleutherAI 一周年回顾

EleutherAI 在成立一周年之际回顾转型历程，从松散志愿者社区发展为正式开源 AI 研究机构，期间发布 GPT-Neo（27 亿参数）、GPT-J（60 亿参数）等大语言模型及 The Pile（825GB）数据集，推动大模型训练民主化。首年成果为开源社区提供了可商用的 GPT 替代方案，标志着去中心化 AI 研究模式的成熟。

开源生态现象/趋势

6月15日

08:00

Anthropic：Transformer Circuits（可解释性研究）

43

Transformer Circuit Videos

研究团队发布了一系列关于逆向工程神经网络的早期思考视频。这些视频旨在与同行分享非正式、初步的研究想法，内容相当于研究组会议上的早期成果报告。视频中的观点较为粗糙，可能存在错误，主要面向积极思考神经网络逆向工程的研究者。团队强调，自录制以来其想法已显著演进，且前几个视频的内容已被后续更完善的论文《A Mathematical Framework for Transformer Circuits》所取代。视频合集已发布于YouTube平台。

Anthropic论文/研究

08:00

Anthropic：Transformer Circuits（可解释性研究）

精选76

Transformer电路逆向工程练习题集

本练习集旨在通过动手编写注意力头的具体权重矩阵，从参数层面精确理解Transformer工作机制。内容涵盖：详解注意力头中W_Q、W_K、W_V、W_out矩阵的作用；分析读写子空间的控制矩阵及其乘积意义；探讨如何用两个矩阵等效表示注意力头及其秩的含义；研究跨层注意力头如何通过矩阵运算传递信息。并通过具体数值示例，演示多个“前词注意力头”如何协作实现“查看前两个词”的虚拟功能，以及手动构建实现“归纳头”的“指针算法”步骤。

Anthropic推理数据/训练论文/研究

推荐理由：帮助开发者亲手拆解Transformer内部机制，提升可解释性研究能力。

6月3日

05:30

EleutherAI：Blog

为何发布大语言模型？

创造并开源大语言模型对AI安全具有净收益价值。文章论证了公开发布大模型能够提升AI系统的安全性与透明度，详细阐述了支持开放源代码策略的核心理由，解释了这种发布方式为何有助于推动AI安全领域的整体发展，而非增加潜在风险。

安全/对齐开源生态

5月25日

04:00

EleutherAI：Blog

关于 OpenAI API 模型规模的探讨

研究团队利用 eval harness 评估框架，通过对比 OpenAI API 模型在标准测试集上的性能表现，成功反向推算出其模型参数规模。该方法基于模型能力与参数量之间的相关性，分析了包括 GPT 系列在内的闭源模型在各项任务中的得分差异，揭示了 OpenAI 未公开披露的模型大小信息，为理解这些模型的实际规模与能力边界提供了量化依据。

OpenAI论文/研究评测/基准

04:00

EleutherAI：Blog

评估 GPT-3 上不同 Few-shot 描述提示的效果

该研究在 GPT-3 模型上系统评估了不同 Few-shot 描述提示对性能的影响，通过对比多种少样本提示模板，分析了提示设计差异如何改变模型输出质量。实验显示，描述方式的细微差别会导致 GPT-3 在任务表现上产生显著变化，为理解大语言模型的少样本学习机制及优化提示工程策略提供了实证参考。

论文/研究

04:00

EleutherAI：Blog

在下游任务上微调模型

研究团队对GPT-Neo模型开展下游任务微调实验，利用eval harness评测体系进行针对性训练，系统观测微调过程对其性能表现产生的具体影响。实验通过调整模型参数适配特定任务，评估预训练模型在下游场景中的能力变化与适应性表现，为理解微调对模型性能的优化效果提供实证数据支撑。

数据/训练论文/研究评测/基准

04:00

EleutherAI：Blog

激活函数消融研究

针对类 GPT 自回归语言模型开展激活函数消融实验，系统评估不同激活函数对模型性能的影响。通过对比分析各类激活函数在自回归架构中的表现差异，检验其对模型表达能力、训练稳定性及生成质量的作用机制，为大语言模型的激活函数选择与架构优化提供实验依据。

数据/训练论文/研究

4月21日

09:00

EleutherAI：Blog

旋转位置编码（RoPE）：一场相对的革命

旋转位置编码（RoPE）作为一种新型位置编码技术，统一了绝对位置与相对位置编码方法。该技术突破了传统位置编码的局限，在保持绝对位置信息的同时实现了相对位置感知能力。测试验证表明，这种编码方案在模型性能和位置外推方面展现出优势，为大语言模型的位置表示策略提供了新的技术路径。

数据/训练论文/研究

12月16日

00:00

Runway：News（网页）

Runway 完成 850 万美元 A 轮融资

Runway 获 850 万美元 A 轮融资，Amplify Partners 领投，Lux Capital 与 Compound Ventures 跟投。这家成立近两年的机器学习创意工具公司起源于 NYU Tisch 艺术学院，现正扩招团队。

行业动态视频

12月10日

00:00

Runway：News（网页）

构建不可能之事

Runway 从2019年的机器学习平台发展为新一代创意工具，依托生成式机器学习、新分发渠道和Web技术三大驱动力，已支持用户训练超5万个AI模型、上传2400万资源。平台通过AI视频编辑、绿幕工具等技术缩小好莱坞与TikTok创作者的内容差距，服务IBM、Google及RISD等院校，致力于让创意实现从想法到执行的即时转化，重新定义AI时代的创作流程。

多模态现象/趋势视频

12月5日

00:00

Mistral AI：News（网页）

精选86

Mistral AI 发布首个面向 Lean 4 的开源代码代理 Leanstral

Mistral AI 发布了首个面向 Lean 4 证明助手的开源代码代理 Leanstral。该代理采用稀疏架构，仅激活 60 亿参数，专为在真实形式化代码库中操作而训练。在 FLTEval 评估中，其表现优异：仅需两次尝试即以 26.3 分超越多个大型开源模型，同时成本效益显著。例如，达到此分数时，Leanstral 成本为 36 美元，远低于 Claude Sonnet 的 549 美元。其权重基于 Apache 2.0 许可开源，并已集成至 Mistral Vibe 平台提供免费 API。

智能体模型发布编码

推荐理由：开源代码代理首次支持形式化验证，开发者可低成本实现高可靠性代码。

6月20日

01:39

Sam Altman：Blog（RSS）

精选

研究人员与创始人

曾与创始人合作、现与研究人员共事的作者发现，尽管两类人差异显著，但顶尖者都思考"领域内最重要的问题"、兼具短期专注与长期视野、极度坚持、偏向行动、创意丰富且重视自主，动机常源于好奇心。

OpenAI大佬观点

推荐理由：Sam Altman深度剖析顶尖研究者与创始人的共同特质

5月29日

03:12

Sam Altman：Blog（RSS）

精选

如何获得创业想法

YC 曾实验资助无想法的优秀创始人，结果全部失败，证明创始人必须自身擅长产生想法。要身处正确环境：周围需有对未来敏感、乐观、想法丰富的人，远离愤世嫉俗者。关注重大结构性转变，区分真实与虚假趋势。评估想法时考虑能否做大、创始人与公司是否匹配，以及能否解释为何大多数人认为是坏主意但你看到价值。

OpenAI大佬观点现象/趋势

推荐理由：Sam Altman 分享识别技术趋势的方法论，称适用于 AI 发展

2月27日

02:28

Sam Altman：Blog（RSS）

艰难的创业

创业中最反直觉的秘密是，做困难的创业往往比容易的创业更易成功。容易启动的项目虽简单起步，却因缺乏使命感而难以吸引顶尖人才；反之，解决核聚变、基因编辑等难题虽需大量资源，却能靠"世界需要这个"的使命感招募人才，形成顺风。建议创业者设定宏大愿景但保持合理节奏，以10年而非3年的长期承诺建立复利优势。

OpenAI大佬观点

5月28日

00:00

Runway：News（网页）

户外写生式机器学习：为艺术家打造易用工具

将机器学习比作19世纪颜料管的发明。当年颜料管让户外写生成为可能，推动印象派革命；如今机器学习有望类似地释放艺术创造力，但现有工具对非技术背景艺术家门槛过高，如同当年研磨颜料的复杂工艺。作者呼吁开发更友好的机器学习工具，让艺术家无需编写底层代码即可实验，实现技术民主化。

多模态现象/趋势视频

12月15日

01:12

Sam Altman：Blog（RSS）

但它确实在动（E Pur Si Muove）

Sam Altman 观察到，旧金山对争议话题的开放度已不及北京，过度政治正确正在扼杀创新。他指出，从牛顿研究炼金术到比特币的诞生，所有突破性想法最初都看似异端；当社会将持不同意见者视为异端而非辩论对象时，思想交流逐渐停滞，顶尖人才开始外流。警告称，若无法容忍"地球是圆的"这类曾经危险的观点，湾区将失去孕育 SpaceX 或比特币的土壤。

OpenAI大佬观点

12月8日

00:56

Sam Altman：Blog（RSS）

精选

人类与机器的"融合"并非未来奇点，而是已悄然开始数年的渐进过程。智能手机、社交媒体算法和搜索引擎已在控制人类行为与思维，我们正与AI进入共同进化阶段：AI影响人类，人类改进AI。随着算力和AI人才呈双指数级增长，超级智能与脑机接口将比预期更快到来。与其对抗或被淘汰，深度融合或许是避免物种冲突的最佳路径，但全球需立即开始严肃协调应对。

OpenAI大佬观点

推荐理由：Sam Altman 经典长文阐述人机融合已启动，AGI 时代需全球协调应对