阿里云发布Smart Studio平台,旨在整合AI模型测试与服务的全流程,终结用户在不同平台间切换的繁琐。该平台提供即时访问最新SOTA模型(如Qwen3.6-Max、DeepSeek-v4)的能力,支持多模态及图像视频生成模型。其核心功能包括可视化模型实验室,用于并排比较开源与闭源模型的输出效果,并能快速将Hugging Face上的模型转化为实时API,简化部署流程。
推文引用设计师保罗·兰德的观点,指出仅将视觉元素进行美观排列不等于好的布局,这是对平面设计师职能的误解。作者借此解释当前AI图像生成技术为何尚未达到真正的设计标准。兰德强调,设计超越表面的视觉组合,涉及更深层的构思与判断,而这正是当前AI所缺乏的核心能力。
OpenAI发布GPT-Realtime-2等实时语音模型,将高级推理能力引入语音交互,推动其从辅助转向核心界面。ElevenLabs年收入达4亿美元,并强调情绪智能与音频水印。Anthropic因80倍增长面临算力挑战,与SpaceX合作获取大规模计算能力,同时升级Claude托管智能体,使其具备自我改进与多智能体协作能力。行业趋势显示,AI正从工具演变为能自主运行的智能体系统,这给GitHub等基础设施带来了新的负载压力。
BestBlogs 周刊 #94|语音 AI 突围 本周主线:OpenAI 发布了三个实时语音模型,GPT-Realtime-2 实测通话成功率从69%提升到95%。ElevenLabs 年收入4亿美元,下一个方向是情绪智能。Anthropic 增长80倍,算力成为核心瓶颈。 同时 AI 编程范式加速:Claude Code 创作者日均150个PR,GitHub 被 AI 流量压到86%可用性。 播客和图文都已上线 ↓
Cardputer是Anthropic在Claude开发者大会上推出的售价29.9美元的实体设备,通过WiFi连接电脑,支持键盘输入问题由Claude处理并显示结果、语音对讲经STT/TTS转换交互,以及作为Claude实体宠物显示动态像素动物,还可接入OpenClaw平台扩展语音功能。
OpenAI发布三款实时语音模型。核心GPT-Realtime-2首次集成“GPT-5级推理”能力,支持复杂对话推理、并行调用工具及纠错,上下文窗口扩展至128K。GPT-Realtime-Translate支持70多种语言的实时翻译,能适应说话节奏并处理专业词汇。GPT-Realtime-Whisper则为低延迟场景提供流式语音转文字服务。
安装Codex Chrome插件需注意:确保Codex为最新版本并使用官方订阅登录,第三方API模式不支持。插件安装对网络节点有要求,部分区域(如香港)可能无法使用。建议将Chrome设为默认浏览器以便引导。安装后,需在对话中通过“@ Chrome”指令调用。若连接失败,可尝试重启电脑。
关联讨论 9 条X:OpenAI (@OpenAI)X:OpenAI Developers (@OpenAIDevs)X:Testing Catalog (@testingcatalog)X:宝玉 (@dotey)X:Berry Xia (@berryxia)X:Greg Brockman (@gdb)X:Tibo (@thsottiaux)X:小互 (@xiaohu)IT之家(RSS)开发者借助Cursor赠送的额度,花费约100美元和两天时间创建了Owl Eyes工具。该工具监控全球141个App Store区域的价格变动,核心功能包括比较ChatGPT和Claude等服务的地区价格、发现限免应用、追踪汇率差异及设备差价,并支持价格提醒。项目揭示数字产品的全球定价差异可达30%-70%,指出利用国家、汇率和定价层差异可能比寻找优惠券更能节省开支。
最新一期Lex Fridman访谈了 VLC 播放器开发者,还有FFmpeg的核心贡献者。 有些冷知识很有趣,比如: VLC 最早是为在校园网播放卫星电视信…
我想用这个做个Voice Agent 能行吗? 直接给我进行问答和做一些定向的检测和人物啊! 有没有玩过的朋友?
Ramp Labs在Ramp Sheets的Spreadsheet Agent中深度集成了Fast Ask检索子代理,解决了传统表格Agent因读取范围不当导致的效率低下和成本高昂问题。该子代理能自动导航并读取最相关数据范围,仅返回精炼答案,减少上下文污染与token消耗。其基于开源Qwen3.5-35B-A3B模型,通过与Prime Intellect合作进行RL后训练优化。实际应用中,它消除了主代理17.8%的无效工具调用,延迟接近Claude Haiku 4.5,准确率比Claude Opus 4.6高4个百分点,实现了更快、更准、更经济的系统性能。
卧槽!GPT每天有惊喜啊! 星巴克领Trae 的咖啡羊毛,顺手搞了个提示词! 发现好用啊!! 搞了几个案例是真的nice哦~ 有喜欢想要的🙋
商汤科技在新加坡MTX-Millipol TechX展览中展示了其前沿的视觉AI创新,旨在提升城市安全与智能化水平。其解决方案基于SenseFoundry单体算法模型生产平台和由SenseNova驱动的多模态视频理解智能体,涵盖从火灾检测到交通事故监测等公共安全领域。公司表示将与新加坡合作伙伴紧密协作,共同加速数字化转型,构建开放、包容且繁荣的本地AI生态系统。
Codex推出/side功能,允许用户在AI执行主要任务时,无需中断当前进程即可开启新对话窗口处理突发问题,如登录或点击操作。该功能支持在/side窗口运行期间继续开启新的/side对话,实现多话题并行插入,但并行窗口数量上限尚未明确。
Codex最新更新引入了内置谷歌浏览器插件,能直接控制基于Chromium的浏览器(如Chrome或Dia)执行任务。该插件支持后台跨浏览器页面并行工作,不干扰正常浏览;用户可启动多个SubAgent同时操作多个网页,实现高效并发。根据OpenAI官方信息,Codex现直接在macOS和Windows的Chrome中运行,能更好地与应用和网站交互,并在后台跨标签页并行处理任务,不接管浏览器。安装方法简单:在Codex插件库找到Chrome插件,点击添加并安装即可。安装后,用户可无缝下达指令,享受流畅的多任务操作体验。
关联讨论 9 条X:OpenAI (@OpenAI)X:OpenAI Developers (@OpenAIDevs)X:Testing Catalog (@testingcatalog)X:宝玉 (@dotey)X:Berry Xia (@berryxia)X:Greg Brockman (@gdb)X:Tibo (@thsottiaux)X:小互 (@xiaohu)IT之家(RSS)