2026年05月09日
最后更新:2026-05-09 08:06:12 UTC+8
前往官网查看完整版 (ai.hubtoday.app)产品与功能更新OpenAI 发布实时翻译模型接口。机器人 展现自主打蛋通用控制。Perplexity 发布个人电脑版应用。字节跳动 上线移动端开发助手。前沿研究Meta 发布编程评测显示 AI 失败。Anthropic 开源代码解释技术。研发团队 开源多模态搜索技术。科学家 发布消除图像幻觉新方法。研究者 利用物理规律识别假脸。Anthropic 发布模型对齐新成果。行业展望与社会影响马斯克 宣布 xAI 并入 SpaceX。腾讯 混元模型调用量增长十倍。风投合伙人 发文反驳 AI 失业论。韩国寺庙 迎来首位机器人僧侣。全球 开启零代码黑客...
前往官网查看完整版 (ai.hubtoday.app)产品与功能更新Claude 推出梦境预览功能提升智能体逻辑。Claude 上线托管代理平台方便自动化开发。Anthropic 合作 SpaceX 提高用户对话限额。ChatGPT 推出 Excel 插件帮助处理复杂数据。ChatGPT 上线广告平台并升级至新模型。OpenAI 发布新协议提升算力集群训练效率。蚂蚁阿福上线体检报告智能解读功能。前沿研究学术团队发布开源模型打破行业搜索垄断。研究人员发布农业大模型提高作物分析效率。机构发布评测体系测试智能体的办公能力。研究人员推出动画模型提升画面艺术表达。微软发布可解释框架提升智能体预测能力。行...
前往官网查看完整版 (ai.hubtoday.app)产品与功能更新OpenAI 发布 GPT-5.5 即刻版模型。奥特曼 正在研发首款 AI 专用手机。Meta 推出支持十六路并发的智能体工具。Chrome 浏览器因强制下载大模型引发争议。前沿研究MotionCache 方案让视频生成速度快六倍。Qwen3 驱动的框架实现了像素级视觉检索。HeavySkill 架构显著提升了智能体性能。VPD 技术成功解析了大模型内部运行逻辑。行业展望与社会影响布罗克曼 承认零元持有公司巨额股份。特朗普 将来北京参加中美科技峰会。Palantir 公司第一季度营收创历史新高。NeurIPS 会议学术投稿量突...
前往官网查看完整版 (ai.hubtoday.app)产品与功能更新OpenAI 发布了低延迟语音架构。FLUX.2 推出了超写实照片滤镜。可灵 AI 支持 4K 海报动态化。Cursor 发布了官方工作流插件包。前沿研究香港理工大学开源了手语翻译模型。研究员发布了大模型安全攻击新方法。Being-H0.7 模型提升了机器人性能。MedMNIST 实现了医学数据零误差训练。REALM 框架提升了跨模态感知能力。科研人员推出了医疗影像推理技术。Intern-Atlas 发布了 AI 科研演进图谱。行业展望与社会影响Anthropic 收购 Bun 引起了行业讨论。英伟达研发十亿级超长上下文技术。...
前往官网查看完整版 (ai.hubtoday.app)产品与功能更新Anthropic 发布全能编程指南助力公司全自动运营。NotebookLM 通过导入资料快速构建专家级技能文档。前沿研究斯坦福科学家利用 Evo 模型成功合成出全新病毒。DeepSeek 发布技术报告显示新版本缺少核心记忆模块。厦门大学推出高精度极速激光雷达重定位方案。AI 模型能够精准识别并预判超早期胰腺癌信号。研究员利用遗传算法开发出比 Adam 更强的优化器。行业展望与社会影响马斯克与 OpenAI 官司开审并互相披露竞争内幕。Anthropic 年化收入突破 440 亿美元创下历史新高。OpenAI 与 AWS 合作...
前往官网查看完整版 (ai.hubtoday.app)产品与功能更新杨立昆 发布 JEPA 架构世界模型演示视频。OpenAI Codex 上线可定制的 AI 电子宠物功能。前沿研究智能体群体 自主协作架构实现效率重大突破。研究人员 提出意识是独立于底层的系统架构。行业展望与社会影响顶级 AI 模型在逻辑评估测试中表现极差。VS Code 强制代码署名功能引发版权争议。加州 计划对无人驾驶违规车辆的厂商罚款。苹果 官方应用失误泄露内部 AI 开发细节。马斯克 旗下显卡利用率极低并计划出租算力。Meta 收购华人创办的 ARI 机器人公司。印度制片厂 使用 AI 工具实现电影降本增效。开源 TO...
前往官网查看完整版 (ai.hubtoday.app)产品与功能更新Codex 上线目标驱动开发模式。Anthropic 下周举办开发者大会。通义千问联手 Fireworks 加速部署。全球巨头密集发布 AI 硬件新品。前沿研究AdvDMD 实现四步高质量图像生成。五智能体框架自动生成代码流水线。DeepSeek 发布多模态视觉原语技术。Meta 推出预训练数据自进化方案。行业展望与社会影响Uber 预支两年预算购买 AI 工具。五角大楼与 AI 巨头签军事协议。某些机构雇佣网红抹黑中国 AI。马斯克诉奥特曼庭审出现反转。Anthropic 分析百万对话揭示秘密。AI 医疗技术帮助不育男性受孕...
1/在多次被Claude禁止后,放弃并转回国内LLM ,并被明显愚蠢的模特弄伤了自我—我觉得我对孩子们变得更有耐心了。如果我不得不和十几个这样的经纪人打交道,我可能会考虑转行做幼儿园老师的助手。我还给我的孩子买了一套早期教育书……
1/ 自从被 Claude 连续封号,懒得折腾、换回国产大模型的 Coding Plan、被明显蠢一截的模型智商虐过之后,我感觉自己现在带孩子都有耐心多了。 要是再多跟这样的十几个 agents 打打交道,我兴许可以转行去幼儿园当月亮哥哥了。最近我还在拼多多上给宝宝买了一套安全教育+拒绝欺凌+语言表达的早教书。 回头一想——这何尝不是一种「Harness Engineering」?说到 AI 时代的子女教育,蛮多感触的,兴许可以汇总出一期久违的播客了。有人想听吗,点个赞看看?↑ 夹带私货发一张假期当牛做马的老父亲(标题《少爷和我》)2/ In case 您不知道:我这个 Newsletter ...
1/我注意到,这份通讯的很大一部分订阅者来自中国以外的国家和地区;从私人谈话中,我也发现了许多全球公司的员工和高管。因此,我决定从本期开始同时发布英文版。为了避免打扰大家,中文版将一如既往地继续—通过电子邮件发送...
1/ 我注意到这个 Newsletter 的订阅读者中,有相当比例是来自中国之外的其他国家/地区;私下交流中,也发现很多全球性公司的职员和高管。于是我打算从这期开始,同步更新英文版。为了不叨扰大家,目前中文版仍然跟现在一样,发 Email + Substack App。而新增的英文版,会先仅通过 Substack App 发布,暂时不发邮件。这样老读者不会立刻收到两封(内容一样的中文版+英文版),增加信息负担。后续将找方法慢慢过渡。例如,仅需要英文版邮件的朋友,给我一个私信/回复,我给你们打个标签,这样后续可以按标签来推送邮件。是不是可以尝试下?或者有更好的建议,请不吝赐教。今天的第一份英文版...
1/ 前一阵子一打开候选内容库,满屏的「小龙虾」;最近风向转了,都在明里暗里讨论「蒸馏某人/职能」(尤其今天早上看到 小扎演都不演了)。此情此景,让我很想化用经典,吟诗一首——开始他们蒸馏翻译、运营、程序员、打字员,我没说什么,因为我不是干这行的;后来他们蒸馏产品经理、分析师、设计师、编剧、作家、演员、销冠,我还是没说什么,因为我觉得与我无关;接着他们蒸馏教师、律师、医生、会计、记者,我依然没说什么,因为我暂时还能站着;最后他们来蒸馏我时,环顾四周,已经没有人能替我说话了。—— 只剩下 Agent 对我冷冷嗤笑。2/ 最近基友开发的笔记产品 flomo 迎来了六周年,近期相继推出了(或即将推出...
1/ 一晃这个周更 Newsletter 都写到 EP #52 了。算上中间偶尔停更的那一两期,满打满算也是写满一年了。目前也仍是最大的中文 AI 商业类 Newsletter。期间 AI 光速发展,我的技术栈也迭代了好几版。从最开始希望逐渐全自动完成,到现在坚定了用机器帮我半自动分拣 + 最终人工精拣筛,也算摸出了固定套路。域名注册为 ZengZhang.ai,原本还是想从老本行的「商业增长」视角切入,不采编纯技术向(却没结合实际应用场景落地的)内容。但发现即便是聚焦在商业领域,市面上公开披露的案例,仍会有大量浅薄重复的,观点也不乏空泛的宏大叙事或孱弱的未来预测。所以现在我完全按我主观标准,...
今天推荐一款新产品 —— Vibe Island(官网 https://vibeisland.app ,先不用急着下单,看到最后有福利)。它的作者之一 Edward Luo 是一位曾经搞过艺术、现在在搞产品的设计师,也是这个 Newsletter 的 VIP 成员,因此我必须大力帮忙宣传一波。Vibe Island 的界面,主要就是一个位于 Mac 电脑刘海屏的展示区(电脑没有刘海也能用,会虚拟一个刘海区域出来)。点击刘海屏时,面板会展开,显示当前所有正在运行的 AI Agent 会话及其各种状态(作者推特的演示视频)。你在用 Claude Code / Codex / Gemini / Cu...
最近各家都开始出官方 CLI 了,我也开始陆续把自己常用的CLI(/MCP)整合进我自己的贾维斯了,包括 Podwise、飞书、滴答清单、flomo 等。在此特别推荐 Podwise 新出的 CLI(Github 主页)。以防你不知道:Podwise 是我一直在用的「信息套利」工具,可以专门用来压榨那些有信息量的硬核播客/YouTube 视频的价值。转录文字稿、总结洞察、信息可视化、同步笔记。推荐出去,用了都说好(我之前录制过一期 YouTube 视频来介绍它)。我用它的 CLI 做了几个 skills,譬如直接将常听常看的节目的最新一期的文字稿(包括其他 AI 精炼内容),拉取到本地,经过我...
上周休更了一期。因为几个事情:首先是 Claude Code 最近非常不稳定,我的 Claude 账号池又突然被封了,导致我重构到一半的系统崩了,各种运转难以为继。赶上我要处理公司业务,没时间修,就崩在那里足足一个礼拜。在此期间我还有出差,时间被挤占。筛选出来的内容,又几乎都是各种围绕「龙虾」的玩法和观点,给我看吐了。几件事凑在一起,我想索性趁着春光明媚,鸽一期得了,既弥补一下近期高强度熬夜玩 AI 的身体透支、亲近一下自然,也看看有多少人真的在乎这个 Newsletter。过去两周也走访了一些企业,围绕搭建企业内私有化智能体的话题做了些分享与探讨,并看到了 AI 在组织中落地的几种形式。参观...
最近这一周,围绕「龙虾(OpenClaw)」及其衍生产品的各种新闻、案例、八卦仍在爆火,我检测到的案例,基本都在聊龙虾。想必各位也被轰炸疲劳了,加之上周我也一口气汇总了不少龙虾的资讯和信息源,因此这周,为了降低噪音,「案例」部分我就只放一篇,并不打算凑篇幅。如果你已经折腾过龙虾,判断出还是自己搭建更省钱、可控、安全,不妨购买 我的 DIY 贾维斯课程 看看,本质就是在讲搭建一套自己的龙虾系统。另外,今天跟 flomo 团队的两位创始人交流,在聊到龙虾近期的热度,以及越来越卷的趋势时,Lightory 说了一句堪称点睛之笔:「虾熟了是会卷的」。唔,好冷,建议去开放麦讲程序员脱口秀。Subscri...
Stripe 推出了 Link agent wallet,让 AI agent 可以代表你发起付款,但不会拿到你的真实银行卡信息。这件事可以先记住几条:AI agent 可以为你创建一次性支付凭证,用完就失效。你会收到提醒,并在 Link 里批准或拒绝每一笔购买。真实卡号不会交给 agent,也不会暴露给它正在操作的工具。Link CLI 已经开源,开发者可以把它接进 Claude Code、MCP 客户端或自己的 agent 工作流。这不是让 AI 自由花钱,而是给 AI 花钱加上边界、记录和人工确认。以前 AI agent 再聪明,遇到付款就会卡住。它可以帮你挑商品、比价格、填表格,但最后...
Telegram 在最新一版 Bot Features 文档里加了一节,叫 Managed Bots。让一个 Bot 帮普通用户去创建和管理另一个 Bot,全程不用打开 BotFather、不用复制 token、不用配置任何东西。从此普通用户不用再去 @BotFather 一步步点菜单,只要打开一个链接,1 秒钟就能拥有自己的 bot,且整个生命周期(收发消息,改头像,改命令,改设置)都由那个"manager bot"代管。用户两步搞定:点链接、改名字(可选)、确认,一个专属 Bot 就出现在你的聊天列表里开发者只用做一个 Manager Bot:然后通过它创建和控制无数个用户的子 Bot,模...
Anthropic 今天给 Claude Code 终端版本加了一个叫 recap 的小功能:当你把终端切到后台,过一会儿再切回来,Claude Code 会自动在顶部显示一段这个会话刚才干了什么、下一步打算做什么的回顾。功能很小但刀口精准。同时开 5 个 Claude Code 窗口跑 5 个不同任务的人,最大的上下文切换成本不是任务本身,是“我刚回到这个窗口,它刚才在干啥来着”。recap 直接省掉了重新回忆的那几秒钟。几个要点一眼扫完:触发条件:会话至少 3 个 turn + 距离上次完成 turn 过了至少 3 分钟 + 终端当前失焦后台生成:失焦期间就在后台算好,切回来立刻看到,不再...
Google 宣布推出下一代自主研究智能体:Deep Research 和 Deep Research Max,均通过 Gemini API 提供。这是 Google 研究智能体的第二代。去年 12 月已经在 Interactions API 里放过一个预览版,今天直接把能力升了一档,从“写摘要的工具”做成了“能接 MCP、挂私有数据、出完整图表”的工业级底座。驱动模型: 基于 Gemini 3.1 Pro,提供前所未有的控制和透明度。两种模式的对比:Deep Research: 面向速度,降低延迟和成本,适用于需要快速高质量答案的交互式界面。Deep Research Max: 面向深度分析...
昨晚到今早,X 产品负责人 Nikita Bier 连发两条推文,宣布 X 上线了两件互为镜像的新东西。一个管加法:自定义时间线(Custom Timelines),可以把你关心的特定主题置顶到主页 Tab,支持超过 75 个细分话题。一个管减法:主题静音(snooze topics),可以把 For You 里你不想看到的主题调低甚至屏蔽掉,用 Nikita 自己的原话说,“想把 slop 调高调低都可以”。两个工具放在一起看,X 这次给 Premium 订阅用户做的事很简单:把算法推荐从“黑箱喂你”改成“你自己调音”。核心要点:加法工具:自定义时间线支持 75+ 主题置顶到主页 Tab,由...
ChatGPT Images 2.0(OpenAI 最新图像生成模型,内部代号 GPT-Image-2)正式发布,定位从"创意工具"转向"可用输出的视觉工作流平台"。这是 OpenAI 第一次把「会思考」装进图像模型,之前只有 Google 的 Nano Banana Pro 做到了这件事。先让GPT根据它对我的了解生成一张自我介绍… 哈哈哈核心变化:会思考了:先推理再生成,复杂任务可以边想边上网查资料,不是一步出图一次出 8 张连贯图:人物、物体、风格跨图保持一致,多格漫画、故事板、多图系列一次搞定文字不糊了:小字、UI 元素、图标能精确渲染,TechCrunch 实测做餐厅菜单直接能用中日...
月之暗面(Moonshot AI)4 月 20 日开源新版大模型:Kimi K2.6,主攻「代码和 Agent 长时程执行」。在 SWE-Bench Pro 这个测真实代码修改能力的基准上,K2.6 拿到 58.6 分,把 GPT-5.4(57.7)和 Claude Opus 4.6(53.4)都压在身后——这是开源模型第一次挤进闭源旗舰的第一梯队。一句话快速看懂:代码硬跑反超闭源:SWE-Bench Pro 开源第一,Terminal-Bench 2.0 只差 Gemini 3.1 Pro 1.8 分一次指令跑 12 小时不停:4000+ 次工具调用连续执行,Mac 上把一个推理引擎优化到比...
OpenAI 今天给 Codex 加了一个新功能:Chronicle 。让 AI 通过看你最近的屏幕来记住你在干什么。下次你说“帮我改下那个报错”“继续上周那个东西”,它真的知道你指的是什么,不用你再复述一遍。这是上周 Codex 上线的 Memories(记忆)功能的延伸。Memories 只能从历史对话里攒记忆,Chronicle 往前走了一步:直接读屏幕。一眼看完:读屏补上下文:你说“这个报错”“那个文档”,Codex 能从最近的屏幕截图里找到你指的是哪个学你的工作方式:你常用什么工具、在哪个项目来回切、依赖什么流程,它边看边学后台代理生成记忆:不是实时监控,是跑沙盒代理从截图里提炼结构...
Cloudflare Email Service 是 Cloudflare 推出的邮件服务,4 月 16 日进入公测。这次的重点不是给应用发注册邮件、通知邮件这种常规活,而是让 AI 助手能像真人同事一样用邮箱工作:你发邮件给它,它收到、办事、办完了回你。主要变化是这几个:发邮件能力进入公测,所有应用和 AI 助手都能直接调用AI 助手能完整闭环用邮箱了,收到邮件能自己处理几小时再回信给 Claude Code、Cursor 这类 AI 编程工具做了套配套,本地跑的 AI 也能用开源了一个完整的"AI 收件箱"应用,一键部署就能用,新邮件来了 AI 自动起草回信,确认后才发自动帮你配好邮件认证...
核心思路是"写 HTML,渲染出视频",专门为 AI agent 设计。用 HTML + 一些 data-* 属性定义视频,跑个命令就能渲染成 MP4不需要 React,不需要专有的 DSL,不需要拖拽时间轴,agent 已经会写 HTML 了,让它直接生成支持 GSAP、Lottie、CSS、Three.js 等动画运行时,通过 Frame Adapter 模式接入确定性渲染:同样的输入永远产出完全一致的输出,适合 CI 和批量渲染管线自带给 Claude Code、Cursor、Gemini CLI、Codex 用的"skills",把框架的语法规则教给 agentApache 2.0 开...
文章网址: https://www.cnbc.com/2026/05/08/aws-outage-data-center-fanduel-coinbase.html 评论网址: https://news.ycombinator.com/item?id=48069088 积分: 35 #评论: 8
文章网址: https://www.pcmag.com/news/meta-shuts-down-end-to-end-encryption-for-instagram-dms-messaging 评论网址: https://news.ycombinator.com/item?id=48069192 积分: 80 #评论: 58
文章网址: https://www.science.org/doi/10.1126/sciadv.aeb0166 评论网址: https://news.ycombinator.com/item?id=48069313 积分: 15 #评论: 0
文章网址: https://cadara.app 评论网址: https://news.ycombinator.com/item?id=48070022 积分: 4 #评论: 1
文章网址: https://www.nhtsa.gov/press-releases/tesla-model-y-first-vehicle-pass-nhtsa-new-advanced-driver-assistance-system-tests 评论网址: https://news.ycombinator.com/item?id=48070115 积分: 3 #评论: 0
arXiv: 2605.05402v1公告类型:新 摘要:人工智能( AI )和计算机视觉正在改变交通数据收集。 本研究引入了一个支持人工智能的分析框架,利用现有的闭路电视基础设施来评估软干预措施(如临时行人避难所和路边延伸)对车辆速度和安全的影响。 使用深度学习和...
arXiv: 2605.05386v1公告类型:新 摘要:大型语言模型越来越多地在交互式环境中运行,其中解决任务需要与用户进行多轮信息交换。 然而,目前大多数系统都是被动地对待对话,并且缺乏一种有原则的机制来推理缺少哪些信息以及接下来应该提出哪些问题。 我们建议使用BALAR (贝叶斯A...
arXiv: 2605.05379v1公告类型:新 摘要:企业代理越来越多地在范围检索系统、委托工作流和受策略约束的证据环境中运行。 在这些设置中,即使物证位于呼叫者的授权边界之外,系统仍会生成看起来完整的答案,同时可以正确实施访问控制。本文...
arXiv: 2605.05365v1公告类型:新 摘要:我们介绍ZAYA1-8B ,这是一种基于Zyphra的MoE + +架构构建的以推理为重点的混合专家( MoE )模型,具有700M活动和8B总参数。 ZAYA1-8B的核心预训练、中级训练和监督微调( SFT )是在全栈AMD计算、网络和软件平台上进行的。 在1B以下的有效参数下, ZAYA1-8B MAT...
arXiv: 2605.05329v1公告类型:新 摘要:安全政策定义了安全与不安全的人工智能输出,指导数据注释和模型开发。 然而,注释分歧是普遍存在的,可能源于多种原因,如操作故障(注释者误解或错误执行任务)、政策含糊不清(政策措辞留有解释空间)或价值……
我上周收到了NeurIPS审核人员的邀请,并接受了邀请。它说,报纸的竞标将于5月8日(今天)开始。但还没有听到任何消息。还有其他人听说过什么吗?我是否在接受审核人邀请时搞砸了,或者这是否正常?附言:关于人工智能辅助评审实验的想法?你们都是志愿者吗?提交者:/u/confirm-jannati [link] [comments]
我喜欢制作推荐系统,告诉用户为什么会收到推荐。在蒸汽销售活动期间,我总是试图寻找新的视频游戏来玩。如果我想找到一款新游戏,我会尝试使用蒸汽标签将其精简,但蒸汽标签系统是非常广泛的“动作”。可以应用于许多游戏。这让我思考,我喜欢我的f的哪些方面……
我构建了一个小型交互式资源管理器,用于构建关于KL发散的直觉: https://robotchinwag.com/posts/kl-divergence-visualisation/您可以控制两个偏斜正态分布,并可以看到KL积分和KL指标。这有利于探索它如何随着平均偏移、偏斜、截断和离散化而变化。它完全靠近一侧。欢迎反馈。由/u/an提交...
我一直在研究一个精益4项目,专注于统计学习理论的部分形式化: FormalSLT存储库当前结果包括:有限类ERM边界Rademacher对称高概率Rademacher边界Sauer-Shelah/VC维桥有限标量收缩线性预测器边界有限PAC-Bayes边界算法稳定性主要思想是构建一个可读的...
最近,我对持续学习着迷,尤其是人工智能系统的想法,它可以根据经验不断适应和改进,而不是在训练后保持静止。我是一名刚刚开始CL研究之旅的学生,很乐意与探索类似想法的人建立联系。无论您是学生、研究人员,还是只是对这个领域感到好奇,都可以随时给我发邮件。Wou...
嘿, Reddit ,我是一个利基理论CS/ML领域的研究员。最近,我一直在处理来自“独立研究人员”的重复电子邮件,这些电子邮件感觉像是直截了当的引用骚扰。此人不断发送跟进(包括涉及编辑) ,坚持要我在他的arXiv预印本中添加多次引用。这不是一个正常的“你应该引用这个”请求--他提供了确切的建议……
提交者/u/TheOnlyVibemaster [link] [comments]
我认为本地人工智能设置即将分裂成两个完全不同的社区。一方关心实际的生产工作流程:代理自动化API推理效率数据质量可重现性另一方主要将其视为PC改装:模型收集基准屏幕截图“看我运行了多少参数”无休止的UI调整永远生成相同的测试提示甚至没有...
CFS通过惩罚以前的选择已经覆盖的地区来选择相关候选人。检索排名结果:基线余弦top-K : NDCG @ 10 0.5123 , Recall @ 10 0.6924 mem0加性融合: NDCG @ 10 0.4903 , Recall @ 10 0.6625 rrf (余弦, BM25 ) : NDCG @ 10 0.5196 , Recall @ 10 0.6989 rrf (余弦, cos2 , BM25 ) : NDCG @ 10 0.5278 , Recall @ 10 0.7060 rrf (余弦, BM25 , CFS ) : NDCG @ 10 0.5311 , Recal...
提交者/u/Fcking_Chuck [link] [comments]
提交者/u/Ambitious_Dingo_2798 [link] [comments]
RunningHub 将 AI 智能体从”对话外挂”变为”画布原生”,用户用自然语言描述需求即可自动生成完整 ComfyUI 工作流,把视频创作从”盲盒抽卡”推向”导演级掌控”。产品形态:Agent 原生嵌入画布,非外挂RHTV(RunningHub TV)于 2026 年 5 月 7 日上线,官方定位为”原生 AI 智能体全能内容创作平台”。核心差异化在于 Agent 直接嵌入无限画布内部——不是独立聊天窗口,不是侧边栏插件,而是画布上的第一公民。用户输入自然语言描述(如”做一条电商产品宣传片,展示白色运动鞋,背景渐变”),Agent 自动完成以下链路:任务拆解:输出创意大纲、分镜脚本、制作...
OpenAI 将 GPT-5 级推理能力引入实时语音 API,上下文窗口从 32K 扩至 128K,并配套推出实时翻译和语音转录两款辅助模型,首次构建完整的语音 Agent 工具链。GPT-5 级推理进入语音交互GPT-Realtime-2 是 OpenAI 首个在语音对话中集成 GPT-5 级别推理能力的模型。与上一代 GPT-Realtime-1.5 相比,核心升级包括:上下文窗口从 32K 扩至 128K tokens,支持在更长语音会话中维持用户约束、偏好和业务逻辑。支持工具调用(function calling),可在对话过程中实时查询日历、搜索系统等外部工具,并支持 MCP 协议。...
Anthropic 在 2026 年第一季度完成了 Claude 对 Microsoft Office 三件套的全覆盖,并通过跨应用上下文共享功能,让 Claude 在 Excel、PowerPoint、Word 之间保持统一的对话语境。这是 Claude 首次深度嵌入企业办公工作流,直接对标微软自家的 Copilot。时间线:3 个月完成 Office 全覆盖2026 年 3 月至 4 月,Claude 接入 Office 的节奏明显加速:3 月 9 日:微软在官方博客宣布 “Copilot Cowork”,将 Claude Cowork 技术集成进 Microsoft 365 Copilo...
OpenAI 将 Codex 的浏览器操作能力从桌面端 Computer Use 延伸到了 Chrome 扩展,主打已登录态的 Web 应用交互,与 Anthropic “Claude in Chrome” 正面竞争。发布信息与安装方式2026 年 5 月 7 日,OpenAI 在 Chrome Web Store 上架了 Codex 浏览器扩展(扩展 ID: hehggadaopoacecdllhhajmbjkdcmajg),版本号 1.1.4。适用于 Mac 和 Windows。安装路径:打开 Codex 桌面应用 → Plugins → 添加 Chrome 插件 → 完成 Chrome ...
xAI 作为独立公司仅存在不到三年,其 AI 业务整体降格为 SpaceX 内部部门,合并后实体估值 1.25 万亿美元,为 SpaceX IPO 铺路。官方宣布:xAI 解散,更名为 SpaceXAI2026 年 5 月 6 日,马斯克在 X 平台发布帖子:“xAI will be dissolved as a separate company, so it will just be SpaceXAI, the AI products from SpaceX.”同日另一条帖子中,马斯克承认组织架构存在问题:“xAI was not built right first time around,...
Anthropic签下SpaceX Colossus超算全部算力,300MW+容量当月到位,Claude Code和Opus API限额即时翻倍——AI算力竞争从地表延伸到轨道。协议核心:Colossus 1全量接入2026年5月6日,Anthropic与SpaceX(旗下SpaceXAI)正式签署算力合作协议。根据协议,Anthropic将接入SpaceX位于田纳西州孟菲斯的 Colossus 1 AI超算,获得其全部算力容量。该超算配备超过220,000张NVIDIA GPU(H100、H200及GB200加速器),提供**超过300兆瓦(MW)**的计算能力。新容量预计”本月内”上线。这...
该版本是豆包大模型系列首款全模态理解模型,新增原生音频输入并实现跨模态联合推理,主要面向企业级场景的规模化部署。跨模态联合推理与底层感知模型于 5 月 6 日更新,原生支持文本、图像、音频、视频的统一理解。基于新增的音频输入能力,模型可执行“音画结合”的联合推理,例如:验证视频视听一致性、根据自然语言指令跨时间段提取线索、追踪事件发展并进行基于画面的多步逻辑推理。在底层感知数据上,该版本在 BabyVision、WorldVQA(细粒度感知)以及 ERQA(具身理解)等关键基准中达到 SOTA。音频处理与 Benchmark 表现不再局限于纯文本转录,新版本具备捕捉语音情绪变化、环境背景声与音...
OpenAI正式向美国企业开放Ads Manager测试版,标志着生成式AI交互界面正式确立“信息+商业化”双轨变现路径,对话式搜索的流量定价体系初步成型。核心投放机制与平台能力当地时间 2026 年 5 月 5 日,OpenAI 于美国市场正式开放自助广告管理工具 Ads Manager(测试版)。计费模式扩充:在前期测试的千次展示成本(CPM,最初定价60美元起)基础上,全面实装按点击付费(CPC)竞价模式,将广告主预算与用户的具体决策转化信号直接挂钩。展示链路物理隔离:广告物料附带“赞助(Sponsored)”标识,强制在 ChatGPT 原生回答内容生成完毕后于下方独立展示,不干预模型...
Grok 4.3 将“推理”设为不可关闭的常驻状态,并在上下文长度提升至 100 万 token 的同时大幅削减 API 定价,以极端的性价比冲击 Agent 工作流及低成本模型市场。架构演进:强制全时推理(Always-on Reasoning)与 1M 上下文Grok 4.3 改变了前代模型的“思维链(Chain-of-Thought)”按需调用机制,将推理(Reasoning)设定为原生且无法关闭的常驻状态。模型默认在输出前进行多步骤逻辑思考。参数指标:支持最高 1,000,000 tokens 上下文窗口。知识库截止日期更新为 2025 年 12 月(原生支持联网搜索)。实测表现:在 ...
GPT-5.5 Instant 正式取代 GPT-5.3 Instant 成为 ChatGPT 默认模型,核心更新为大幅压降高风险领域幻觉率并剔除冗余回复格式。模型推理与事实性校准GPT-5.5 Instant 针对严肃场景进行了定向优化。内部测试数据显示,在医疗、法律、金融等高风险问题中,幻觉率较 GPT-5.3 Instant 规模化下降 52.5%;对用户历史标记错误对话的错误率降低了 37.3%。数学与理科能力指标明显拉升(部分评测得分提升 15.8 分),且在纠错逻辑上展现出步骤级追溯能力(如在代数方程验证中,能够直接定位展开式的特定步骤错误,而非仅判定结果无解)。对话风格与上下文整...