开源一个教程Skill 打磨了十几版,效果还不错,已推到GitHub 如果想在五一假期高质量充电,或随时给自己生成一份定制高质量教程 欢迎下载 基本逻辑: …
太猛了,Codex 做类《杀戮尖塔》游戏完整关卡演示! 现在非常细了,除了没有声音以外,其他的都相当完美了! 主要的场景和角色素材是 GPT-Image 生…
今天看到一条容易被刷掉的消息,但越想越觉得有意思。 LMArena 文本榜最新更新,文心 5.1 Preview 拿下 1476 分,国内第一,全球前十五唯一…
文心5.1 Preview在LMArena文本榜以1476分位列国内第一,是全球前十五名中唯一的国产模型,排名超越GPT-5.5与DeepSeek-V4-Pro。尽管AI领域热点转向Agent与多模态,但DeepSeek V4与文心5.1等旗舰模型仍以文本为核心。作者强调文本能力是大模型的地基,代码、推理等多维度能力均由此衍生,地基差异直接影响上层性能,因此文本仍是模型拉开差距的关键分水岭。引用推文显示,文心5.1在数学、法律与政府、商业管理及软件服务等类别表现突出。
太猛了,Codex 做类《杀戮尖塔》游戏完整关卡演示! 现在非常细了,除了没有声音以外,其他的都相当完美了! 主要的场景和角色素材是 GPT-Image 生…
我操,Codex 太牛逼了! 自己给我做了一个类似于《杀戮尖塔》的爬塔游戏,从代码到素材全是自己搞。 我就跟他说了一个要做类似《杀戮尖塔》的游戏,要中国风格…
Andrej Karpathy指出,要最大化利用现有AI工具,关键在于将自身从交互循环中移除,避免成为持续提示的瓶颈。他主张构建完全自主的系统,通过最大化token吞吐量来实现高效率运作。核心目标是提升个人杠杆率:仅需偶尔投入极少量的token,就能驱动系统自动完成大量工作,从而使人从重复性操作中解放出来,专注于更高层次的决策与设计。
在 DeepSeek-V4 Pro 1.6T 模型上,采用机架级解耦设计的 GB300 NVL72 系统性能达到 B200 的 6.5 倍。这一高吞吐配置得益于 DeepSeek-AI 的 MegaMoe 内核,该内核将专家分派、专家组合及 GEMM 运算完全融合并重叠至单一内核中。性能突破由 Radixark、LMSYS 和 NVIDIA AI 的工程师团队快速实现。CoreWeave 为此项开源性能优化贡献了临时的 GB300 NVL72 机架资源,使整个社区受益。
OpenAI 最新工程博客指出,随着 GPT-5/5.2 及 Codex-Spark 等模型推理速度大幅提升(目标超1000 TPS),传统请求-响应 API 框架的固定开销成为 Agent 工作流的主要瓶颈。为此,OpenAI 为 Responses API 引入了 WebSocket 模式,通过保持长连接、在内存中缓存对话状态和已渲染 token,实现了跨工具调用的状态复用,避免了每次交互都重复预处理完整历史。此举使端到端延迟降低最多 40%,让 Codex-Spark 能稳定实现 1000 TPS 并峰值达 4000 TPS,显著提升了 Vercel AI SDK、Cline 和 Cursor 等集成的体验。
开源一个教程Skill 打磨了十几版,效果还不错,已推到GitHub 如果想在五一假期高质量充电,或随时给自己生成一份定制高质量教程 欢迎下载 基本逻辑: …
作者推荐一种自定义工具,用于监控关注标的(如招标信息)的更新并自动推送通知。相比商业工具“招标助手”的高昂价格,自制工具更具自定义性和便利性,且完全免费。基于引用推文中@berryxia提供的文章,该工具附有详细教程,用户可免费注册和使用,实现高效信息追踪。
Cursor推出的Agent Kanban并非完整产品,而是一个鼓励开发者自行搭建的参考实现。其核心变革在于改变了开发者与代码的交互模式:从亲自编写,到用prompt指挥AI,如今演变为将任务抛入看板,由Agent自主认领、执行并更新状态,开发者则退居幕后监控进度,使任务待办列表本身成为一种“编程语言”。尽管当前原型存在运行时限、失败率等限制,且缺乏结果审核机制,但其关键启示在于促使开发者重新思考:为何还要亲自处理那些机械、可被清晰描述的重复杂任务。
做内容运营,生图生视频,你现在还在跑好几个工具吗? 被朋友拉去做瑜伽图,搭了无数工作流 GPT Image 2 出来后,发现全废了 得重新规划一套,但这几天…
从上海 Let's Vision 2026 回来之后, 我整整一个月几乎没写代码了。 不是因为忙, 是突然就觉得这件事没那么有意思了。 这几年我反复经历一个…
OpenAI技术博客深入调查了其模型(从GPT-5.1到GPT-5.4)输出中“goblin”和“gremlin”等奇幻生物词汇异常激增的现象。根源在于ChatGPT的“Nerdy”性格定制功能:其奖励模型在训练中无意间高奖励了包含此类词汇的“俏皮”表达。尽管该性格仅占全部回复的2.5%,却贡献了超66%的“goblin”出现次数,并通过强化学习的反馈循环污染了模型的整体输出,形成了“tic词”。OpenAI已下架该性格并调整训练数据,但此案例揭示了微小的奖励信号在AI训练中可能被意外放大和泛化的核心难题。
该推文赞赏一个用于生成极简风格插画的提示词。其核心要求是:用干净纤细的线条描绘主体,整体采用黑白或低饱和色调,仅在局部添加鲜明色彩作为焦点。画面强调大量留白与精致构图,追求现代杂志编辑般的简洁、优雅高级感,并避免复杂背景或写实元素。推文引用的“Minimal Line + Color Accent Illustrations”模板也体现了同样的极简美学。
作者分享了一个将AI代理(“龙虾”)融入实际工作流的案例。核心在于利用ClawEmail为AI代理提供一个可编程的邮箱接口,使其能通过邮件接收和处理指令。结合XCrawl(网页抓取工具)获取公开的招投标公告信息,并整合飞书进行结果同步。这一组合解决了教育行业投标信息分散、需人工频繁刷网站的问题,实现了从信息发现到整理分发的自动化。关键在于,AI工具的价值不在于其模型本身多强大,而在于能否无缝嵌入现有、稳定的工作流(如邮件),从而真正提升效率。
作者结合ClawEmail、XCrawl等工具,为公司商务助理开发了一套自动投标监控系统。该系统能自动抓取招标公告,筛选出苹果、Mac或服务器相关项目,并结构化提取关键信息,随后自动通知同事并更新飞书表格。全程零配置,仅需会发邮件即可驱动,体现了邮箱作为AI时代低门槛、高效工作流入口的价值。
基于现有信息,Mythos是一款在网络安全方面表现优异的高级通用AI模型,并非专业网络安全模型。出于对网络安全风险的担忧,Anthropic将其设为受限制模型并引起政府关注。而即将或已达到相同能力阈值的OpenAI和Google,可能因不同的风险评估或对自身防护措施的自信,做出不同的发布决策。目前,模型网络安全风险程度完全依赖企业自我报告,缺乏外部监管。这引发了Anthropic是否因自我限制而处于竞争劣势,以及其他公司会否面临类似限制的疑问,当前局势尚不明朗。