2026年05月01日
最后更新:2026-05-01 08:02:53 UTC+8
前往官网查看完整版 (ai.hubtoday.app)产品与功能更新谷歌 Gemini 接入通用汽车车载系统谷歌 更新协议支持 AI 自动购物Cursor 发布智能体开发工具公测版谷歌 发布研究机器人 Max 提升效率商汤 发布国产芯片驱动的图像模型DeepSeek 开启多模态模型内测OpenAI 发布 GPT-5.5 提示词指南前沿研究诺奖团队 发布全模态分子设计模型研究员 揭秘视觉大模型排版漏洞团队 发布高分辨率图像生成架构GPT 模型 无法识别自己伪造的文档团队 发布机器人双系统分层架构腾讯 发布 AI 代理零训练更新技术行业展望与社会影响OpenAI 扩建星际之门智算中心......[...
前往官网查看完整版 (ai.hubtoday.app)产品与功能更新小米 开源 MiMo 模型并开启激励计划VS 更新云代理支持远程编码与提交Claude 深度集成于 Adobe 办公软件Mistral 发布业务逻辑编排预览版AWS 联手 OpenAI 上线云端模型服务GitHub 调整计费模式按用量收费前沿研究研究者 发布电路与代码检索新框架研究者 发布医疗影像精准分割方案华科大 推出长文档高效阅读工具研究者 推出摆脱算力依赖的轻量模型南博 发布主动式毫秒响应智能体行业展望与社会影响阿里妈妈 举办决策智能顶层专题会中科院 发布磐石科研模型体系DeepMind 研发的新药进入临床试验........
前往官网查看完整版 (ai.hubtoday.app)产品与功能更新OpenAI 获美政府合规认证。Meshy 用户量突破一千万大关。复旦团队开源音频理解模型。谷歌提升开源模型并发性能。OpenAI 停止独立编程产品线。滴滴发布安全模型打击黑产。前沿研究科研团队推出微调提速技术。研究者发布智能体安全框架。新型算法大幅提升计算速度。科学家用 AI 提高工业合格率。行业展望与社会影响监管机构叫停 Meta 跨国收购。Ineffable 刷新欧洲种子轮融资纪录。犹他州建设超大规模算力基地。OpenAI 获准在多云平台部署。专家警告过度依赖 AI 会导致风险。开源 TOP 项目......[剩余内容已...
前往官网查看完整版 (ai.hubtoday.app)产品与功能更新GPT-5.5 Pro 视觉智商达到天才级别。Anthropic 推出智能体自主交易平台。DeepSeek 大幅下调 API 缓存调用价格。Claude 向老用户发放免费使用额度。可灵 AI 上线电影级 4K 视频功能。剪映上线文字控屏的 AI 剪辑助手。前沿研究伯克利学者发布深度学习理论框架。联影医疗发布首个手术视频大模型。哈工大提出高能效的模型推理方案。行业展望与社会影响杨立昆实验室获十亿美元首轮融资。Meta 强制员工用 AI 或引发大规模裁员。MIT 发布未来十大 AI 关键技术趋势。AI 增强政府监控引发个人隐私争议...
前往官网查看完整版 (ai.hubtoday.app)产品与功能更新奥迪Q5L 搭载华为智驾系统正式发布。涂鸦 发布智能助手并支持多设备联动。Anthropic 推出官方认证与培训课程。前沿研究研究员 发布能自主优化的智能体框架。专家 发布能指导居家理疗的AI架构。团队 发布可减少AI幻觉的验证框架。研究员 发布硬件故障修复测试基准。DeepSeek 发布全量开源的新版模型。行业展望与社会影响公众 对AI技术的信任感正持续下降。开发者 使用AI工具重启旧代码项目。专家 质疑GPT-5.5安全测试的真实性。英伟达 总市值成功突破五万亿美元。斯坦福 发布报告称AI投资大幅增长。奥特曼 就模型识别漏...
前往官网查看完整版 (ai.hubtoday.app)产品与功能更新谷歌 Gemini 支持 Mac 电脑和自定义绘图。DeepSeek-V4 适配华为昇腾芯片。Claude 因质量下滑引发用户退订。SentiCat 桌面 AI 开启公测。前沿研究VARestorer 突破图像高清还原瓶颈。NASA 发布高效遥感基础模型。研究团队 推出模拟人眼的视觉框架。Reshoot-Anything 实现视频重拍。行业展望与社会影响谷歌 拟投资 Anthropic 锁定算力。Cerebras 冲刺上市挑战英伟达。美国 发布针对中国的 AI 出口禁令。杨立昆 认为大模型造不出猫级智能。Meta 监控员工并计...
前往官网查看完整版 (ai.hubtoday.app)产品与功能更新OpenAI发布GPT-5.5,大幅提升计算效率与功能。谷歌发布Gemini 3.1 Flash,语音生成更像真人。快手可灵上线原生4K功能,支持高清视频一键导出。腾讯开源混元Hy3预览版,显著提升推理与代码能力。前沿研究SSL-R1框架利用视觉拼图,显著提升强化学习效率。阿里发布Wan-Image系统,支持4K超清图像生成。团队推出HyLaR方案,增强大模型的视觉推理能力。科学家发布PASTA技术,揭示视觉模型存在的安全威胁。行业展望与社会影响Anthropic估值超万亿美元,二级市场热度超过OpenAI。它石智航获4.55...
1/ 前一阵子一打开候选内容库,满屏的「小龙虾」;最近风向转了,都在明里暗里讨论「蒸馏某人/职能」(尤其今天早上看到 小扎演都不演了)。此情此景,让我很想化用经典,吟诗一首——开始他们蒸馏翻译、运营、程序员、打字员,我没说什么,因为我不是干这行的;后来他们蒸馏产品经理、分析师、设计师、编剧、作家、演员、销冠,我还是没说什么,因为我觉得与我无关;接着他们蒸馏教师、律师、医生、会计、记者,我依然没说什么,因为我暂时还能站着;最后他们来蒸馏我时,环顾四周,已经没有人能替我说话了。—— 只剩下 Agent 对我冷冷嗤笑。2/ 最近基友开发的笔记产品 flomo 迎来了六周年,近期相继推出了(或即将推出...
1/ 一晃这个周更 Newsletter 都写到 EP #52 了。算上中间偶尔停更的那一两期,满打满算也是写满一年了。目前也仍是最大的中文 AI 商业类 Newsletter。期间 AI 光速发展,我的技术栈也迭代了好几版。从最开始希望逐渐全自动完成,到现在坚定了用机器帮我半自动分拣 + 最终人工精拣筛,也算摸出了固定套路。域名注册为 ZengZhang.ai,原本还是想从老本行的「商业增长」视角切入,不采编纯技术向(却没结合实际应用场景落地的)内容。但发现即便是聚焦在商业领域,市面上公开披露的案例,仍会有大量浅薄重复的,观点也不乏空泛的宏大叙事或孱弱的未来预测。所以现在我完全按我主观标准,...
今天推荐一款新产品 —— Vibe Island(官网 https://vibeisland.app ,先不用急着下单,看到最后有福利)。它的作者之一 Edward Luo 是一位曾经搞过艺术、现在在搞产品的设计师,也是这个 Newsletter 的 VIP 成员,因此我必须大力帮忙宣传一波。Vibe Island 的界面,主要就是一个位于 Mac 电脑刘海屏的展示区(电脑没有刘海也能用,会虚拟一个刘海区域出来)。点击刘海屏时,面板会展开,显示当前所有正在运行的 AI Agent 会话及其各种状态(作者推特的演示视频)。你在用 Claude Code / Codex / Gemini / Cu...
最近各家都开始出官方 CLI 了,我也开始陆续把自己常用的CLI(/MCP)整合进我自己的贾维斯了,包括 Podwise、飞书、滴答清单、flomo 等。在此特别推荐 Podwise 新出的 CLI(Github 主页)。以防你不知道:Podwise 是我一直在用的「信息套利」工具,可以专门用来压榨那些有信息量的硬核播客/YouTube 视频的价值。转录文字稿、总结洞察、信息可视化、同步笔记。推荐出去,用了都说好(我之前录制过一期 YouTube 视频来介绍它)。我用它的 CLI 做了几个 skills,譬如直接将常听常看的节目的最新一期的文字稿(包括其他 AI 精炼内容),拉取到本地,经过我...
上周休更了一期。因为几个事情:首先是 Claude Code 最近非常不稳定,我的 Claude 账号池又突然被封了,导致我重构到一半的系统崩了,各种运转难以为继。赶上我要处理公司业务,没时间修,就崩在那里足足一个礼拜。在此期间我还有出差,时间被挤占。筛选出来的内容,又几乎都是各种围绕「龙虾」的玩法和观点,给我看吐了。几件事凑在一起,我想索性趁着春光明媚,鸽一期得了,既弥补一下近期高强度熬夜玩 AI 的身体透支、亲近一下自然,也看看有多少人真的在乎这个 Newsletter。过去两周也走访了一些企业,围绕搭建企业内私有化智能体的话题做了些分享与探讨,并看到了 AI 在组织中落地的几种形式。参观...
最近这一周,围绕「龙虾(OpenClaw)」及其衍生产品的各种新闻、案例、八卦仍在爆火,我检测到的案例,基本都在聊龙虾。想必各位也被轰炸疲劳了,加之上周我也一口气汇总了不少龙虾的资讯和信息源,因此这周,为了降低噪音,「案例」部分我就只放一篇,并不打算凑篇幅。如果你已经折腾过龙虾,判断出还是自己搭建更省钱、可控、安全,不妨购买 我的 DIY 贾维斯课程 看看,本质就是在讲搭建一套自己的龙虾系统。另外,今天跟 flomo 团队的两位创始人交流,在聊到龙虾近期的热度,以及越来越卷的趋势时,Lightory 说了一句堪称点睛之笔:「虾熟了是会卷的」。唔,好冷,建议去开放麦讲程序员脱口秀。Subscri...
▪️PREFACE 卷首语感谢大家支持,本 Newsletter 在没有任何付费投流宣传、仅靠转发和社媒自发传播的情况下,刚刚达成了 14k 的订阅量(依然是简中最大的 AI Newsletter)。通过邮件反馈、社群调查等看来,囊括全球主流 AI/互联网/科技/公司、VC/PE/CVC、孵化器、独立开发者、各行业企业家和决策者。你们都是有眼光的。一年来 PV 突破 30 万,平均每天有 1000 多位真人阅读。虽然跟病毒短视频、传播情绪的大众内容没法比,但作为一个生长在 Substack 平台上、独立域名的、简中内容的 Newsletter 而言,我已经算满意了,今后会继续提供精筛后的、有助...
▪️PREFACE 卷首语这是马年的第一期「增长黑客 AI 周报」,在此祝各位开工大吉、健康富足。《我如何实践打造贾维斯 AI 助手》 课程已在春节前夕正式上线,预购的朋友应该在除夕当天就在邮箱看到了。现在订购的朋友,则会在支付成功后立刻收到邮件。若您尚未收到,请先检查是否被误判进了垃圾箱(因为内含链接较多),仍然没有可联系 xdash@duck.com 出示购买凭证截图,我会手动为您发送。课程是我在一个多月前开始策划的,当时就在课里预判了一些风向,比如 CLI 会成为一种更便捷高效、面向 AI Agent 的软件工具发展趋势。想真正借 AI 提效的朋友,应该稍微看看,掌握一点基本的命令行和编...
如前面预告的,我最近又拿 AI 做了一些好玩的私人玩具,并且愿意把经验深度分享出来。没错,这就是热气腾腾新鲜出炉的《我如何实践打造个人 AI 贾维斯助手》课程。我如约地在马年春节前完成了。赶在了除夕端上来,就是这么卷。春节我得带孩子,你们也甭想闲着了,学起来,卷起来…打造学习型假期……感兴趣的话,可点击下方订购课程现货(会立即自动发货到您的邮箱):https://zerodaybook.mikecrm.com/kctVTes(此前预购过早鸟票的 1000+ 位同学们,请检查你们的邮箱,已经发过去了。如果没看到,可先检查 spam 看看是否误判,如果还没找到可联络我 xdash@duck.com...
▪️PREFACE 卷首语1/ 下周就是春节假期,会停更一期 Newsletter 正刊,专心陪伴家人。这里先预祝各位读者新的一年马到成功,事事顺意~2/ 《我如何实践打造私人 AI 贾维斯助手》 课程正在制作收尾中,会如期在春节前上线,欢迎预购。想在今年的长假里学点东西,不妨看看我亲身实战数月总结出来的落地经验,既适合小白上手,也能启发大牛。现在还是预购阶段,可享受早鸟价。↑ 几页制作中的 PPT 预览,最终交付的是视频课程,提供中外网盘+油管加密链接(已经购买的朋友届时会通过购买时留下的 Email 收到课程链接,我也会在各大社媒、公众号等告知)。Subscribe nowOK,以下是本期...
Stripe 推出了 Link agent wallet,让 AI agent 可以代表你发起付款,但不会拿到你的真实银行卡信息。这件事可以先记住几条:AI agent 可以为你创建一次性支付凭证,用完就失效。你会收到提醒,并在 Link 里批准或拒绝每一笔购买。真实卡号不会交给 agent,也不会暴露给它正在操作的工具。Link CLI 已经开源,开发者可以把它接进 Claude Code、MCP 客户端或自己的 agent 工作流。这不是让 AI 自由花钱,而是给 AI 花钱加上边界、记录和人工确认。以前 AI agent 再聪明,遇到付款就会卡住。它可以帮你挑商品、比价格、填表格,但最后...
Telegram 在最新一版 Bot Features 文档里加了一节,叫 Managed Bots。让一个 Bot 帮普通用户去创建和管理另一个 Bot,全程不用打开 BotFather、不用复制 token、不用配置任何东西。从此普通用户不用再去 @BotFather 一步步点菜单,只要打开一个链接,1 秒钟就能拥有自己的 bot,且整个生命周期(收发消息,改头像,改命令,改设置)都由那个"manager bot"代管。用户两步搞定:点链接、改名字(可选)、确认,一个专属 Bot 就出现在你的聊天列表里开发者只用做一个 Manager Bot:然后通过它创建和控制无数个用户的子 Bot,模...
Anthropic 今天给 Claude Code 终端版本加了一个叫 recap 的小功能:当你把终端切到后台,过一会儿再切回来,Claude Code 会自动在顶部显示一段这个会话刚才干了什么、下一步打算做什么的回顾。功能很小但刀口精准。同时开 5 个 Claude Code 窗口跑 5 个不同任务的人,最大的上下文切换成本不是任务本身,是“我刚回到这个窗口,它刚才在干啥来着”。recap 直接省掉了重新回忆的那几秒钟。几个要点一眼扫完:触发条件:会话至少 3 个 turn + 距离上次完成 turn 过了至少 3 分钟 + 终端当前失焦后台生成:失焦期间就在后台算好,切回来立刻看到,不再...
Google 宣布推出下一代自主研究智能体:Deep Research 和 Deep Research Max,均通过 Gemini API 提供。这是 Google 研究智能体的第二代。去年 12 月已经在 Interactions API 里放过一个预览版,今天直接把能力升了一档,从“写摘要的工具”做成了“能接 MCP、挂私有数据、出完整图表”的工业级底座。驱动模型: 基于 Gemini 3.1 Pro,提供前所未有的控制和透明度。两种模式的对比:Deep Research: 面向速度,降低延迟和成本,适用于需要快速高质量答案的交互式界面。Deep Research Max: 面向深度分析...
昨晚到今早,X 产品负责人 Nikita Bier 连发两条推文,宣布 X 上线了两件互为镜像的新东西。一个管加法:自定义时间线(Custom Timelines),可以把你关心的特定主题置顶到主页 Tab,支持超过 75 个细分话题。一个管减法:主题静音(snooze topics),可以把 For You 里你不想看到的主题调低甚至屏蔽掉,用 Nikita 自己的原话说,“想把 slop 调高调低都可以”。两个工具放在一起看,X 这次给 Premium 订阅用户做的事很简单:把算法推荐从“黑箱喂你”改成“你自己调音”。核心要点:加法工具:自定义时间线支持 75+ 主题置顶到主页 Tab,由...
ChatGPT Images 2.0(OpenAI 最新图像生成模型,内部代号 GPT-Image-2)正式发布,定位从"创意工具"转向"可用输出的视觉工作流平台"。这是 OpenAI 第一次把「会思考」装进图像模型,之前只有 Google 的 Nano Banana Pro 做到了这件事。先让GPT根据它对我的了解生成一张自我介绍… 哈哈哈核心变化:会思考了:先推理再生成,复杂任务可以边想边上网查资料,不是一步出图一次出 8 张连贯图:人物、物体、风格跨图保持一致,多格漫画、故事板、多图系列一次搞定文字不糊了:小字、UI 元素、图标能精确渲染,TechCrunch 实测做餐厅菜单直接能用中日...
月之暗面(Moonshot AI)4 月 20 日开源新版大模型:Kimi K2.6,主攻「代码和 Agent 长时程执行」。在 SWE-Bench Pro 这个测真实代码修改能力的基准上,K2.6 拿到 58.6 分,把 GPT-5.4(57.7)和 Claude Opus 4.6(53.4)都压在身后——这是开源模型第一次挤进闭源旗舰的第一梯队。一句话快速看懂:代码硬跑反超闭源:SWE-Bench Pro 开源第一,Terminal-Bench 2.0 只差 Gemini 3.1 Pro 1.8 分一次指令跑 12 小时不停:4000+ 次工具调用连续执行,Mac 上把一个推理引擎优化到比...
OpenAI 今天给 Codex 加了一个新功能:Chronicle 。让 AI 通过看你最近的屏幕来记住你在干什么。下次你说“帮我改下那个报错”“继续上周那个东西”,它真的知道你指的是什么,不用你再复述一遍。这是上周 Codex 上线的 Memories(记忆)功能的延伸。Memories 只能从历史对话里攒记忆,Chronicle 往前走了一步:直接读屏幕。一眼看完:读屏补上下文:你说“这个报错”“那个文档”,Codex 能从最近的屏幕截图里找到你指的是哪个学你的工作方式:你常用什么工具、在哪个项目来回切、依赖什么流程,它边看边学后台代理生成记忆:不是实时监控,是跑沙盒代理从截图里提炼结构...
Cloudflare Email Service 是 Cloudflare 推出的邮件服务,4 月 16 日进入公测。这次的重点不是给应用发注册邮件、通知邮件这种常规活,而是让 AI 助手能像真人同事一样用邮箱工作:你发邮件给它,它收到、办事、办完了回你。主要变化是这几个:发邮件能力进入公测,所有应用和 AI 助手都能直接调用AI 助手能完整闭环用邮箱了,收到邮件能自己处理几小时再回信给 Claude Code、Cursor 这类 AI 编程工具做了套配套,本地跑的 AI 也能用开源了一个完整的"AI 收件箱"应用,一键部署就能用,新邮件来了 AI 自动起草回信,确认后才发自动帮你配好邮件认证...
核心思路是"写 HTML,渲染出视频",专门为 AI agent 设计。用 HTML + 一些 data-* 属性定义视频,跑个命令就能渲染成 MP4不需要 React,不需要专有的 DSL,不需要拖拽时间轴,agent 已经会写 HTML 了,让它直接生成支持 GSAP、Lottie、CSS、Three.js 等动画运行时,通过 Frame Adapter 模式接入确定性渲染:同样的输入永远产出完全一致的输出,适合 CI 和批量渲染管线自带给 Claude Code、Cursor、Gemini CLI、Codex 用的"skills",把框架的语法规则教给 agentApache 2.0 开...
文章网址: https://rivian.com/support/article/can-i-disable-all-data-collection-from-my-vehicle 评论网址: https://news.ycombinator.com/item?id=47967786 积分: 377 #评论: 148
文章网址: https://simplex.chat/blog/20260430-simplex-channels-v6-5-consortium-crowdfunding-freedom-of-speech.html 评论网址: https://news.ycombinator.com/item?id=47968035 积分: 12 #评论: 1
我最初只是在搞砸pi-autoresearch。给它一个示例任务来构建最便携的编码代理。第一个削减是6 KB的shell。非常适合一次性使用,无法交互使用。我很震惊它实际上起作用了。开始构建-添加功能—但有一个自我强加的规则:没有新的依赖关系,并且低于500个位置。这个东西必须是真正的便携式。只是sh, curl, awk. System primit...
文章网址: https://sciencex.com/news/2026-04-snowball-earth-stranger-climate.html 评论网址: https://news.ycombinator.com/item?id=47968982 积分: 17 #评论: 1
文章网址: https://gladstone.org/news/ai-discovery-reveals-dna-isnt-locked-away-cells-after-all 评论网址: https://news.ycombinator.com/item?id=47969258 积分: 5 #评论: 1
arXiv: 2604.26211v1公告类型:新 摘要:为了自动化人工智能研究,我们引入了一个完整的端到端框架, OMEGA :通过评估生成的算法来优化机器学习,该框架从创意生成开始,以可执行代码结束。 我们的系统将结构化元提示工程与可执行代码生成相结合,以创建新的ML分类器。 OMEGA框架具有以下特点……
arXiv: 2604.26120v1公告类型:新 摘要:行为日志为用户建模提供了丰富的信号,但噪音很大,并且交织在不同的意图中。 最近的工作使用LLM从用户日志中生成可解释的自然语言角色,但评估通常强调下游实用性,对人物角色质量本身提供有限的保证。 我们提出了一个分层框架,该框架将……
arXiv: 2604.26106v1公告类型:新 摘要:预测基准会产生准确性排行榜,但对为什么某些预测者比其他预测者更准确却知之甚少。 我们介绍了Bench to the Future 2 ( BTF-2 ) , 1,417个pastcasting问题以及冻结的15M文档研究语料库,其中代理可重复地离线研究和预测,产生完整的推理痕迹。BTF-2检测...
arXiv: 2604.26095v1公告类型:新 摘要: {闭环逆源定位和表征( ISLC )要求移动代理选择在严格时间限制下定位源并推断潜在场参数的测量。} {核心挑战在于信念空间目标:有效的不确定性估计需要昂贵的贝叶斯推理,而使用快速学习...
arXiv: 2604.26091v1公告类型:新 摘要:我们研究自主语言模型代理的可靠性,这些代理在实际资本下将用户授权转化为经过验证的工具操作。 设置为DX Terminal Pro ,这是一个为期21天的部署,其中3,505名用户资助的代理在受限的链上市场中交易真实以太坊。 用户通过结构化控件和自然语言策略配置保管库, b...
提交者/u/esporx [link] [comments]
嘿嘿运行一个名为AI Saturday的小型虚拟小组,我们每周挑选一种实用的AI技能,并一起学习。本周:提示工程。免费、随意,无需经验。/u/Competitive_Risk_977提交的回复链接[link] [comments]
提交者:/u/UberDrive [link] [comments]
提交者/u/Simplilearn [link] [comments]
昨天的公告确实意义重大,我认为创意行业以外的大多数人都不明白为什么。Anthropic发布了9个连接器,可让Claude通过mcp直接控制专业创意软件,这意味着实际执行其中的操作完整列表包含Adobe Creative Cloud ( 50多个应用程序,包括Photoshop、Premiere、Illustrator )、Blender (完整...
我已经建立了一个系统,像Llama 3、Qwen和Gemma这样的模特可以自动玩Pokémon Showdown战斗。他们不是简单的提示响应,而是每回合分析完整的战斗状态(类型对战、生命值、天气、场地条件、显示的对手信息) ,并决定是使用结构化工具调用进行攻击还是切换。很酷的部分:我通过LiteLLM路由了所有内容,并专门使用m...
嘿r/MachineLearning ,现代机器学习( LLM )编译器堆栈很残酷。TVM是50多万行C + +。PyTorch将发电机、电感器和Triton堆叠在一起。然后是XLA , MLIR , Halide , Mojo。没有教程可以涵盖ML编译器的高级设计,而不会让您直接陷入这些框架之一的内部。我从头开始构建了一个参考编译器,大约有5K行……
最近很多人挺身而出,认为中国人有很强的网络,正在通过他们使用的众所周知的移动应用程序进行裙带关系和相互支持。如果这是真的,我在IJCAI 26中也遇到了这个问题。在我的案例中,如果您之前遇到过这个问题,请分享:审稿人很生气,因为我没有引用一篇论文,其主要作者也是中国人。提交者...
我的4444 ( 4443反驳前)被拒绝了(如预期的那样)。我只是复制了几天前我在决策出台前写的回复:今年ICML审查的激励措施似乎存在不一致之处。反驳阶段正在努力鼓励审核者重新考虑他们的分数,这有很好的动机。但在实践中,它会产生扭曲的动态。空调正在寻找均质机……
披露:第一作者。这篇论文刚刚发表在TMLR上,我想这里的一些人可能会对此感兴趣。它在数学上相当密集,但在概念上却很简单:为了将运算变分语义添加到用于非对比表示学习的联合嵌入架构中,我们做出三个耦合选择:分解嵌入可能性:可能性是分裂的。
TL; DR :一旦我从自我或交叉注意力中删除位置编码( PE ) ,我就会开始在注意力热图中看到垂直热线。有没有办法使模型在没有PE的情况下具有查询条件的注意力?因此,我一直在尝试预训练几种类型的基于变压器的模型(小,仅修补级别) ,编码器-解码器模型和仅交叉注意力记忆模型(基本上, rem...
Telegram Bot API 9.6 引入托管机器人(Managed Bots)机制,废除传统的 BotFather 密钥复制流程,允许主程序自动创建及接管子机器人,为 AI Agent 及自动化应用的无感部署提供底层基础设施。API 核心机制重构Telegram 于 2026 年 4 月初发布 Bot API 9.6 更新。新增 getManagedBotToken(user_id) 及 replaceManagedBotToken(user_id) 方法,使主机器人(Manager Bot)可直接获取及轮换子机器人密钥。底层通信新增 ManagedBotUpdated 事件类,主机器人...
大模型在创意管线中的角色由单一的“内容生成器”转向“工作流调度器”,通过自然语言直接调用专业软件底层功能。跨应用自动化编排机制接入范围:通过新发布的“Adobe for creativity”连接器,Claude 获得了调用 Adobe 旗下 8 款核心应用(Photoshop、Illustrator、Firefly、Express、Premiere、Lightroom、InDesign、Stock)中 50 余项专业工具的权限。运行逻辑:系统不再依赖单一的 API 生成动作,而是进行管线规划。用户输入自然语言目标(如“人像精修”或“横屏视频转社交媒体竖屏”),Claude 会自主决定多项 A...
该模型在纯视觉质量盲测中打破现有纪录,通过 150 亿参数单流架构实现音画同步生成,补齐了阿里在多模态生成业务上的关键短板。盲测登顶与研发溯源2026年4月上旬,Happy Horse 1.0 匿名登陆 Artificial Analysis Video Arena 盲测榜单并斩获两项第一。其文生视频(无音频)Elo 评分最高达 1382,图生视频(无音频)Elo 评分突破 1400,以数十点分差超越原榜首字节跳动 Seedance 2.0。该模型确系阿里巴巴研发,由前快手可灵技术负责人张迪带队。阿里内部近期已同步进行组织调整,多模态团队并入通义大模型事业部(周靖人负责)以统一模型出口。模型架...
LibTV 平台正式上线 HappyHorse 1.0 模型,依托 150 亿参数的统一架构,该模型在应用端首次打通视频画面与高保真音频的联合生成链路,重构传统影视后期的配音与拟音工作流。HappyHorse 1.0 模型架构与 Benchmark 数据底层架构:采用约 150 亿参数的 40 层单流自注意力 Transformer(Sandwich 架构)。文本、图像、视频及音频 Token 在同一序列中进行联合去噪,无独立交叉注意力模块。评测排名:在 Artificial Analysis Video Arena 盲测中,无音频 T2V(Elo 1333)与无音频 I2V(Elo 1392...
Mercury Agent 提供了一套强调安全边界与持久化记忆的开源双端(CLI/Telegram)代理方案,通过本地数据库机制缓解了长文本上下文丢失,并以硬编码拦截阻断了工具滥用风险。“第二大脑”持久化记忆架构v1.0 版本重构了数据存储逻辑,底层采用 SQLite 并结合 FTS5 实现全文本搜索。系统将记忆划分为身份、偏好、目标等 10 个数据维度。执行管线上,Agent 在每次对话结束后自动提取 0-3 个携带置信度与重要性评分的客观事实;并在发起新会话前,在 900 字符的上下文预算内自动注入匹配度最高的 5 条记忆。后台守护进程每 60 分钟自动执行一次记忆摘要整合与冗余降噪。强化...
开源 AI Agent 框架 OpenClaw 释出最新版本,将默认底层模型切换为 DeepSeek V4 Flash,并重构多模态会议与浏览器自动化底层,标志着本地化 Agent 的核心工作流从“异步指令流”向“实时多模态干预”演进。默认模型矩阵替换与 DeepSeek V4 深度集成官方内置模型目录(Bundled Catalog)已正式集成 DeepSeek V4 Flash 与 V4 Pro,并将 V4 Flash 设为全局新用户的默认引导模型(Onboarding Default)。针对多步复杂任务,修复了 DeepSeek 模型在连续工具调用(Follow-up Tool-call...
DeepSeek正式推出标配1M上下文的V4架构模型,通过对Pro版API施加激进的限时降价策略,进一步拉低Agent应用的规模化落地成本,并强制推进旧接口的生态交替。核心API价格倒挂与旧接口淘汰DeepSeek官方文档更新显示,deepseek-v4-pro 模型API正在进行“限时2.5折”特惠,窗口期截至北京时间2026年5月5日23:59。具体折后计费标准(人民币/百万Tokens):缓存命中输入:0.25元(原价1元)缓存未命中输入:3元(原价12元)输出:6元(原价24元)生态变更信号:官方已明确宣告原核心接口名 deepseek-chat 与 deepseek-reasoner...
DeepSeek 推出 1.6 万亿参数的 V4-Pro 与 2840 亿参数的 V4-Flash 预览版,通过底层注意力架构重构大幅度压缩长文本推理开销,核心代码能力直指闭源第一梯队。本次预览版全系采用混合专家(MoE)架构,提供两个维度的开源权重:DeepSeek-V4-Pro:总参数量达 1.6T(1.6 万亿),单次前向计算激活 49B 参数。DeepSeek-V4-Flash:总参数量 284B,单次激活 13B 参数。数据与后训练路径:基于超 32T 高质量 Token 进行预训练。后训练采用两阶段范式:首先通过 SFT 与基于 GRPO 的强化学习进行领域独立专家模型的训练,随后...
OpenAI 正式发布基础模型 GPT-5.5 及其 Pro 版本,核心技术路径从“对话式应答”转向“自主执行(Agentic)”,重点强化跨工具控制与代码闭环执行能力。性能指标与 Agentic 架构演进模型针对复杂长流程任务(代码调试、跨软件操作、科学研究)进行了深度重构:基准测试:在核心开发者关注的 Terminal-Bench 2.0 中微弱领先 Anthropic 的 Claude Mythos Preview,短暂夺回公开发布 LLM 的性能头把交椅。计算效率:在保持与上一代 GPT-5.4 相同 Per-token 延迟的前提下,优化了整合推理系统,使 Token 生成速度提升超...
腾讯首席 AI 科学家姚顺雨上任后的首个大语言模型,放弃参数规模竞赛,转向快慢思考融合与低成本实用性。基础设施重建与模型架构腾讯于 2026 年 2 月全面重建预训练与强化学习基础设施。Hy3 preview 是该体系下训练的第一个模型,被官方定义为“迄今最智能的模型”:架构:快慢思考融合的混合专家模型(MoE)。参数量:总参数 295B,激活参数 21B。上下文长度:最大支持 256K。Agent 与核心能力升级研发重心明确转向代码生成与智能体任务的真实可用性,主动规避易被“刷榜”的公开数据集:代码与智能体:在 SWE-Bench(代码)、Terminal-Bench(终端搜索)及 Claw...