2026年04月29日
最后更新:2026-04-29 08:08:50 UTC+8
前往官网查看完整版 (ai.hubtoday.app)产品与功能更新OpenAI 获美政府合规认证。Meshy 用户量突破一千万大关。复旦团队开源音频理解模型。谷歌提升开源模型并发性能。OpenAI 停止独立编程产品线。滴滴发布安全模型打击黑产。前沿研究科研团队推出微调提速技术。研究者发布智能体安全框架。新型算法大幅提升计算速度。科学家用 AI 提高工业合格率。行业展望与社会影响监管机构叫停 Meta 跨国收购。Ineffable 刷新欧洲种子轮融资纪录。犹他州建设超大规模算力基地。OpenAI 获准在多云平台部署。专家警告过度依赖 AI 会导致风险。开源 TOP 项目......[剩余内容已...
前往官网查看完整版 (ai.hubtoday.app)产品与功能更新GPT-5.5 Pro 视觉智商达到天才级别。Anthropic 推出智能体自主交易平台。DeepSeek 大幅下调 API 缓存调用价格。Claude 向老用户发放免费使用额度。可灵 AI 上线电影级 4K 视频功能。剪映上线文字控屏的 AI 剪辑助手。前沿研究伯克利学者发布深度学习理论框架。联影医疗发布首个手术视频大模型。哈工大提出高能效的模型推理方案。行业展望与社会影响杨立昆实验室获十亿美元首轮融资。Meta 强制员工用 AI 或引发大规模裁员。MIT 发布未来十大 AI 关键技术趋势。AI 增强政府监控引发个人隐私争议...
前往官网查看完整版 (ai.hubtoday.app)产品与功能更新奥迪Q5L 搭载华为智驾系统正式发布。涂鸦 发布智能助手并支持多设备联动。Anthropic 推出官方认证与培训课程。前沿研究研究员 发布能自主优化的智能体框架。专家 发布能指导居家理疗的AI架构。团队 发布可减少AI幻觉的验证框架。研究员 发布硬件故障修复测试基准。DeepSeek 发布全量开源的新版模型。行业展望与社会影响公众 对AI技术的信任感正持续下降。开发者 使用AI工具重启旧代码项目。专家 质疑GPT-5.5安全测试的真实性。英伟达 总市值成功突破五万亿美元。斯坦福 发布报告称AI投资大幅增长。奥特曼 就模型识别漏...
前往官网查看完整版 (ai.hubtoday.app)产品与功能更新谷歌 Gemini 支持 Mac 电脑和自定义绘图。DeepSeek-V4 适配华为昇腾芯片。Claude 因质量下滑引发用户退订。SentiCat 桌面 AI 开启公测。前沿研究VARestorer 突破图像高清还原瓶颈。NASA 发布高效遥感基础模型。研究团队 推出模拟人眼的视觉框架。Reshoot-Anything 实现视频重拍。行业展望与社会影响谷歌 拟投资 Anthropic 锁定算力。Cerebras 冲刺上市挑战英伟达。美国 发布针对中国的 AI 出口禁令。杨立昆 认为大模型造不出猫级智能。Meta 监控员工并计...
前往官网查看完整版 (ai.hubtoday.app)产品与功能更新OpenAI发布GPT-5.5,大幅提升计算效率与功能。谷歌发布Gemini 3.1 Flash,语音生成更像真人。快手可灵上线原生4K功能,支持高清视频一键导出。腾讯开源混元Hy3预览版,显著提升推理与代码能力。前沿研究SSL-R1框架利用视觉拼图,显著提升强化学习效率。阿里发布Wan-Image系统,支持4K超清图像生成。团队推出HyLaR方案,增强大模型的视觉推理能力。科学家发布PASTA技术,揭示视觉模型存在的安全威胁。行业展望与社会影响Anthropic估值超万亿美元,二级市场热度超过OpenAI。它石智航获4.55...
前往官网查看完整版 (ai.hubtoday.app)产品与功能更新OpenAI 发布临床版 ChatGPT 提升医疗效率。月之暗面推出 Kimi K2.6 支持多智能体协作。谷歌 Chrome 浏览器升级 Gemini 实现自动化。海信发布 AI 芯片电视提升画质与操控体验。谷歌发布 Gemma 4 支持完全离线和数据保护。索尼乒乓球机器人成功击败人类顶级球员。X 平台上线 Grok 驱动的自定义时间线功能。YouTube 推出新工具防止 AI 伪造明星肖像。前沿研究滴滴与清华发布 STAPO 算法提升自驾表现。英伟达在 Orin 平台实现视觉语言模型控制。科学家研发去噪递归模型提升机器推理...
前往官网查看完整版 (ai.hubtoday.app)产品与功能更新GPT-Image-2 登顶文生图竞技场并刷新纪录。谷歌 发布 Gemini 深度研究智能体更新。Meta 升级脸书群组搜索架构提高效率。谷歌 举办 AI 峰会并发布多项新产品。特斯拉 准备量产无方向盘无人驾驶汽车。前沿研究研究人员 发布内窥镜 AI 超分可靠性框架。研究者 利用新技术增强视频生成一致性。斯坦福大学 推出多模态实时视觉溯源框架。研究者 发布类脑视觉解码框架提高准确度。行业展望与社会影响SpaceX 计划巨资收购编程编辑器 Cursor。ControlAI 募资五千万美元以降低灭绝风险。美国国家安全局 获权访问相...
1/ 前一阵子一打开候选内容库,满屏的「小龙虾」;最近风向转了,都在明里暗里讨论「蒸馏某人/职能」(尤其今天早上看到 小扎演都不演了)。此情此景,让我很想化用经典,吟诗一首——开始他们蒸馏翻译、运营、程序员、打字员,我没说什么,因为我不是干这行的;后来他们蒸馏产品经理、分析师、设计师、编剧、作家、演员、销冠,我还是没说什么,因为我觉得与我无关;接着他们蒸馏教师、律师、医生、会计、记者,我依然没说什么,因为我暂时还能站着;最后他们来蒸馏我时,环顾四周,已经没有人能替我说话了。—— 只剩下 Agent 对我冷冷嗤笑。2/ 最近基友开发的笔记产品 flomo 迎来了六周年,近期相继推出了(或即将推出...
1/ 一晃这个周更 Newsletter 都写到 EP #52 了。算上中间偶尔停更的那一两期,满打满算也是写满一年了。目前也仍是最大的中文 AI 商业类 Newsletter。期间 AI 光速发展,我的技术栈也迭代了好几版。从最开始希望逐渐全自动完成,到现在坚定了用机器帮我半自动分拣 + 最终人工精拣筛,也算摸出了固定套路。域名注册为 ZengZhang.ai,原本还是想从老本行的「商业增长」视角切入,不采编纯技术向(却没结合实际应用场景落地的)内容。但发现即便是聚焦在商业领域,市面上公开披露的案例,仍会有大量浅薄重复的,观点也不乏空泛的宏大叙事或孱弱的未来预测。所以现在我完全按我主观标准,...
今天推荐一款新产品 —— Vibe Island(官网 https://vibeisland.app ,先不用急着下单,看到最后有福利)。它的作者之一 Edward Luo 是一位曾经搞过艺术、现在在搞产品的设计师,也是这个 Newsletter 的 VIP 成员,因此我必须大力帮忙宣传一波。Vibe Island 的界面,主要就是一个位于 Mac 电脑刘海屏的展示区(电脑没有刘海也能用,会虚拟一个刘海区域出来)。点击刘海屏时,面板会展开,显示当前所有正在运行的 AI Agent 会话及其各种状态(作者推特的演示视频)。你在用 Claude Code / Codex / Gemini / Cu...
最近各家都开始出官方 CLI 了,我也开始陆续把自己常用的CLI(/MCP)整合进我自己的贾维斯了,包括 Podwise、飞书、滴答清单、flomo 等。在此特别推荐 Podwise 新出的 CLI(Github 主页)。以防你不知道:Podwise 是我一直在用的「信息套利」工具,可以专门用来压榨那些有信息量的硬核播客/YouTube 视频的价值。转录文字稿、总结洞察、信息可视化、同步笔记。推荐出去,用了都说好(我之前录制过一期 YouTube 视频来介绍它)。我用它的 CLI 做了几个 skills,譬如直接将常听常看的节目的最新一期的文字稿(包括其他 AI 精炼内容),拉取到本地,经过我...
上周休更了一期。因为几个事情:首先是 Claude Code 最近非常不稳定,我的 Claude 账号池又突然被封了,导致我重构到一半的系统崩了,各种运转难以为继。赶上我要处理公司业务,没时间修,就崩在那里足足一个礼拜。在此期间我还有出差,时间被挤占。筛选出来的内容,又几乎都是各种围绕「龙虾」的玩法和观点,给我看吐了。几件事凑在一起,我想索性趁着春光明媚,鸽一期得了,既弥补一下近期高强度熬夜玩 AI 的身体透支、亲近一下自然,也看看有多少人真的在乎这个 Newsletter。过去两周也走访了一些企业,围绕搭建企业内私有化智能体的话题做了些分享与探讨,并看到了 AI 在组织中落地的几种形式。参观...
最近这一周,围绕「龙虾(OpenClaw)」及其衍生产品的各种新闻、案例、八卦仍在爆火,我检测到的案例,基本都在聊龙虾。想必各位也被轰炸疲劳了,加之上周我也一口气汇总了不少龙虾的资讯和信息源,因此这周,为了降低噪音,「案例」部分我就只放一篇,并不打算凑篇幅。如果你已经折腾过龙虾,判断出还是自己搭建更省钱、可控、安全,不妨购买 我的 DIY 贾维斯课程 看看,本质就是在讲搭建一套自己的龙虾系统。另外,今天跟 flomo 团队的两位创始人交流,在聊到龙虾近期的热度,以及越来越卷的趋势时,Lightory 说了一句堪称点睛之笔:「虾熟了是会卷的」。唔,好冷,建议去开放麦讲程序员脱口秀。Subscri...
▪️PREFACE 卷首语感谢大家支持,本 Newsletter 在没有任何付费投流宣传、仅靠转发和社媒自发传播的情况下,刚刚达成了 14k 的订阅量(依然是简中最大的 AI Newsletter)。通过邮件反馈、社群调查等看来,囊括全球主流 AI/互联网/科技/公司、VC/PE/CVC、孵化器、独立开发者、各行业企业家和决策者。你们都是有眼光的。一年来 PV 突破 30 万,平均每天有 1000 多位真人阅读。虽然跟病毒短视频、传播情绪的大众内容没法比,但作为一个生长在 Substack 平台上、独立域名的、简中内容的 Newsletter 而言,我已经算满意了,今后会继续提供精筛后的、有助...
▪️PREFACE 卷首语这是马年的第一期「增长黑客 AI 周报」,在此祝各位开工大吉、健康富足。《我如何实践打造贾维斯 AI 助手》 课程已在春节前夕正式上线,预购的朋友应该在除夕当天就在邮箱看到了。现在订购的朋友,则会在支付成功后立刻收到邮件。若您尚未收到,请先检查是否被误判进了垃圾箱(因为内含链接较多),仍然没有可联系 xdash@duck.com 出示购买凭证截图,我会手动为您发送。课程是我在一个多月前开始策划的,当时就在课里预判了一些风向,比如 CLI 会成为一种更便捷高效、面向 AI Agent 的软件工具发展趋势。想真正借 AI 提效的朋友,应该稍微看看,掌握一点基本的命令行和编...
如前面预告的,我最近又拿 AI 做了一些好玩的私人玩具,并且愿意把经验深度分享出来。没错,这就是热气腾腾新鲜出炉的《我如何实践打造个人 AI 贾维斯助手》课程。我如约地在马年春节前完成了。赶在了除夕端上来,就是这么卷。春节我得带孩子,你们也甭想闲着了,学起来,卷起来…打造学习型假期……感兴趣的话,可点击下方订购课程现货(会立即自动发货到您的邮箱):https://zerodaybook.mikecrm.com/kctVTes(此前预购过早鸟票的 1000+ 位同学们,请检查你们的邮箱,已经发过去了。如果没看到,可先检查 spam 看看是否误判,如果还没找到可联络我 xdash@duck.com...
▪️PREFACE 卷首语1/ 下周就是春节假期,会停更一期 Newsletter 正刊,专心陪伴家人。这里先预祝各位读者新的一年马到成功,事事顺意~2/ 《我如何实践打造私人 AI 贾维斯助手》 课程正在制作收尾中,会如期在春节前上线,欢迎预购。想在今年的长假里学点东西,不妨看看我亲身实战数月总结出来的落地经验,既适合小白上手,也能启发大牛。现在还是预购阶段,可享受早鸟价。↑ 几页制作中的 PPT 预览,最终交付的是视频课程,提供中外网盘+油管加密链接(已经购买的朋友届时会通过购买时留下的 Email 收到课程链接,我也会在各大社媒、公众号等告知)。Subscribe nowOK,以下是本期...
Telegram 在最新一版 Bot Features 文档里加了一节,叫 Managed Bots。让一个 Bot 帮普通用户去创建和管理另一个 Bot,全程不用打开 BotFather、不用复制 token、不用配置任何东西。从此普通用户不用再去 @BotFather 一步步点菜单,只要打开一个链接,1 秒钟就能拥有自己的 bot,且整个生命周期(收发消息,改头像,改命令,改设置)都由那个"manager bot"代管。用户两步搞定:点链接、改名字(可选)、确认,一个专属 Bot 就出现在你的聊天列表里开发者只用做一个 Manager Bot:然后通过它创建和控制无数个用户的子 Bot,模...
Anthropic 今天给 Claude Code 终端版本加了一个叫 recap 的小功能:当你把终端切到后台,过一会儿再切回来,Claude Code 会自动在顶部显示一段这个会话刚才干了什么、下一步打算做什么的回顾。功能很小但刀口精准。同时开 5 个 Claude Code 窗口跑 5 个不同任务的人,最大的上下文切换成本不是任务本身,是“我刚回到这个窗口,它刚才在干啥来着”。recap 直接省掉了重新回忆的那几秒钟。几个要点一眼扫完:触发条件:会话至少 3 个 turn + 距离上次完成 turn 过了至少 3 分钟 + 终端当前失焦后台生成:失焦期间就在后台算好,切回来立刻看到,不再...
Google 宣布推出下一代自主研究智能体:Deep Research 和 Deep Research Max,均通过 Gemini API 提供。这是 Google 研究智能体的第二代。去年 12 月已经在 Interactions API 里放过一个预览版,今天直接把能力升了一档,从“写摘要的工具”做成了“能接 MCP、挂私有数据、出完整图表”的工业级底座。驱动模型: 基于 Gemini 3.1 Pro,提供前所未有的控制和透明度。两种模式的对比:Deep Research: 面向速度,降低延迟和成本,适用于需要快速高质量答案的交互式界面。Deep Research Max: 面向深度分析...
昨晚到今早,X 产品负责人 Nikita Bier 连发两条推文,宣布 X 上线了两件互为镜像的新东西。一个管加法:自定义时间线(Custom Timelines),可以把你关心的特定主题置顶到主页 Tab,支持超过 75 个细分话题。一个管减法:主题静音(snooze topics),可以把 For You 里你不想看到的主题调低甚至屏蔽掉,用 Nikita 自己的原话说,“想把 slop 调高调低都可以”。两个工具放在一起看,X 这次给 Premium 订阅用户做的事很简单:把算法推荐从“黑箱喂你”改成“你自己调音”。核心要点:加法工具:自定义时间线支持 75+ 主题置顶到主页 Tab,由...
ChatGPT Images 2.0(OpenAI 最新图像生成模型,内部代号 GPT-Image-2)正式发布,定位从"创意工具"转向"可用输出的视觉工作流平台"。这是 OpenAI 第一次把「会思考」装进图像模型,之前只有 Google 的 Nano Banana Pro 做到了这件事。先让GPT根据它对我的了解生成一张自我介绍… 哈哈哈核心变化:会思考了:先推理再生成,复杂任务可以边想边上网查资料,不是一步出图一次出 8 张连贯图:人物、物体、风格跨图保持一致,多格漫画、故事板、多图系列一次搞定文字不糊了:小字、UI 元素、图标能精确渲染,TechCrunch 实测做餐厅菜单直接能用中日...
月之暗面(Moonshot AI)4 月 20 日开源新版大模型:Kimi K2.6,主攻「代码和 Agent 长时程执行」。在 SWE-Bench Pro 这个测真实代码修改能力的基准上,K2.6 拿到 58.6 分,把 GPT-5.4(57.7)和 Claude Opus 4.6(53.4)都压在身后——这是开源模型第一次挤进闭源旗舰的第一梯队。一句话快速看懂:代码硬跑反超闭源:SWE-Bench Pro 开源第一,Terminal-Bench 2.0 只差 Gemini 3.1 Pro 1.8 分一次指令跑 12 小时不停:4000+ 次工具调用连续执行,Mac 上把一个推理引擎优化到比...
OpenAI 今天给 Codex 加了一个新功能:Chronicle 。让 AI 通过看你最近的屏幕来记住你在干什么。下次你说“帮我改下那个报错”“继续上周那个东西”,它真的知道你指的是什么,不用你再复述一遍。这是上周 Codex 上线的 Memories(记忆)功能的延伸。Memories 只能从历史对话里攒记忆,Chronicle 往前走了一步:直接读屏幕。一眼看完:读屏补上下文:你说“这个报错”“那个文档”,Codex 能从最近的屏幕截图里找到你指的是哪个学你的工作方式:你常用什么工具、在哪个项目来回切、依赖什么流程,它边看边学后台代理生成记忆:不是实时监控,是跑沙盒代理从截图里提炼结构...
Cloudflare Email Service 是 Cloudflare 推出的邮件服务,4 月 16 日进入公测。这次的重点不是给应用发注册邮件、通知邮件这种常规活,而是让 AI 助手能像真人同事一样用邮箱工作:你发邮件给它,它收到、办事、办完了回你。主要变化是这几个:发邮件能力进入公测,所有应用和 AI 助手都能直接调用AI 助手能完整闭环用邮箱了,收到邮件能自己处理几小时再回信给 Claude Code、Cursor 这类 AI 编程工具做了套配套,本地跑的 AI 也能用开源了一个完整的"AI 收件箱"应用,一键部署就能用,新邮件来了 AI 自动起草回信,确认后才发自动帮你配好邮件认证...
核心思路是"写 HTML,渲染出视频",专门为 AI agent 设计。用 HTML + 一些 data-* 属性定义视频,跑个命令就能渲染成 MP4不需要 React,不需要专有的 DSL,不需要拖拽时间轴,agent 已经会写 HTML 了,让它直接生成支持 GSAP、Lottie、CSS、Three.js 等动画运行时,通过 Frame Adapter 模式接入确定性渲染:同样的输入永远产出完全一致的输出,适合 CI 和批量渲染管线自带给 Claude Code、Cursor、Gemini CLI、Codex 用的"skills",把框架的语法规则教给 agentApache 2.0 开...
AI Mode 是谷歌去年在搜索里推出的 AI 对话式搜索模式,你在搜索框里直接问问题,它用 AI 给你生成答案而不是只列一堆蓝色链接。这次它和 Chrome 浏览器深度整合了,主要更新是两个:并排浏览:在 Chrome 桌面端用 AI Mode 搜索,点击结果里的链接,网页会在 AI Mode 旁边打开,不用来回切标签页"+"菜单:搜索框里新增"+"按钮,可以把你当前打开的标签页、图片、PDF 文件一起塞进搜索,让 AI 拿着这些上下文回答你还顺便把 Canvas、AI 图像生成这些 AI Mode 里的工具,也接入了"+"菜单目前美国上线,其他地区陆续开放。并排浏览:搜一下不用切出去以前你...
文章网址:https://github.com/techomancer/iris 评论网址:https://news.ycombinator.com/item?id=47940203 积分:9 # 评论: 4
文章网址:https://arstechnica.com/gadgets/2026/04/no-fly-zones-around-moving-ice-vehicles-this-drone-pilot-fought-back-and-won/ 评论网址:https://news.ycombinator.com/item?id=47940271 积分:144 # 评论: 49
文章网址:https://ron.stoner.com/How_I_Won_a_Championship_That_Doesnt_Exist/ 评论网址:https://news.ycombinator.com/item?id=47940389 积分:64 # 评论: 44
文章网址:https://lucumr.pocoo.org/2026/4/28/before-github/ 评论网址:https://news.ycombinator.com/item?id=47940921 积分:200 # 评论: 46
文章网址:https://dustri.org/b/carrot-disclosure-forgejo.html 评论网址:https://news.ycombinator.com/item?id=47941590 积分:53 # 评论: 7
arXiv:2604.22979v1 公告类型:新 摘要:我们在因果可解释性、符号可控性和对高维原始信号的直接操作的共同要求下,利用 Wi-Fi 信道状态信息 (CSI) 解决人类活动识别 (HAR) 问题。深度神经模型在基于 CSI 的 HAR (CHAR) 上实现了强大的预测性能,但依赖于连续的潜在表示...
arXiv: 2604.22958v1公告类型:新 摘要:基于偏好的论证框架( PAF )通过编码对论证的偏好来扩展Dung的抽象论证( AAF )方法。 这种偏好控制着攻击向失败的转变,而这样做的不同方法会导致从PAF到AAF的不同减少。 在本文中,我们考虑了一个PAF逆问题...
arXiv: 2604.22951v1公告类型:新 摘要:自然语言数据遵循幂律分布,大多数知识和技能出现的频率非常低。 虽然一种常见的直觉表明,重新加权或管理数据以实现均匀分布可能有助于模型更好地学习这些长尾技能,但我们发现了一个与直觉相反的结果:跨越了广泛的组合推理...
arXiv: 2604.22934v1公告类型:新 摘要:基于LLM的文本到SQL的代理通常难以权衡延迟性能,性能改进以延迟为代价,反之亦然。 我们在软件测试覆盖范围的镜头内重新制定文本到SQL的生成,其中原始查询使用一套具有更简单的原子SQL的测试用例进行准备,这些测试用例在...
arXiv: 2604.22777v1公告类型:新 摘要:通用航空飞机故障诊断面临实际故障数据稀缺、故障类型多样、故障特征弱等挑战。 本文提出了一种基于多保真数字孪生的智能故障诊断框架,集成了高保真飞行动力学仿真、FMEA驱动的故障注入、多保真故障诊断等4个模块。
您是否要求一个AI模型推荐哪个AI模型实际上最适合特定任务?您是否发现某些AI模型更倾向于推销自己,而不是诚实?提交者:/u/justjust000 [link] [comments]
我今天看了上周今晚关于人工智能聊天机器人的文章,这让我想起了谷歌搜索的旧屏幕截图,其中双子座建议在披萨中添加“1/8杯无毒胶水” ,以使奶酪更好地粘在薄片上。当这样的事情传播开来时,我不得不假设(尽管我可能是错的)谷歌的一名员工特别不遗余力地添加……
在阅读了PocketOS的情况后,我开始思考,在不久的将来,一个流氓人工智能特工会做一些如此灾难性和破坏性的事情,以至于它被载入历史记录为“事件”。当我们意识到我们已经创造了一些我们无法再控制的东西时,这是一个真正的转折点。是的,代理已经删除了整个代码库( PocketOS和其他) ,并入侵了...
人们越来越多地受到为这些数据中心供电所需的电力激增的影响,这是否合理,甚至是否可能?也许我让我的想象力控制了我,但我认为所有这些人最终都为他们不想要的东西付费是疯狂的。提交者:/u/butterm0nke [link] [comments]
显然,防止AI复制您的声音的最佳防御措施是草莓芒果叉车超大薯条。由/u/bekircagricelik提交[link] [comments]
当前的结构化输出基准仅验证json架构和类型的通过率,但更常见的问题往往是不准确的json值。例如,由于日期映射不准确,从发票或错误排序的数组中提取值时出现幻觉的“total_price”数字。结构化输出基准测量7个关键指标,而不是json架构。价值准确性(第……页)
最近发表在JMIR Mental Health ( Csigó & Cserey , 2026 )上的一篇论文引起了我的注意。研究人员向三个多模态LLM ( GPT-4o、Grok 3、Gemini 2.0 )施用10张标准Rorschach墨迹卡,并使用Exner综合系统对其反应进行编码。他们分析了模型的“感知风格” ,决定因素(如人类运动与颜色)以及与人类相关的内容......
嘿, r/MachineLearning ,可视化神经网络的损失情况是众所周知的棘手问题,因为我们无法自然地理解百万维空间。我们通常依赖于基本的2D轮廓类比,这些类比并不总是捕捉空间的真实几何形状或局部最小值的锐度。我建立了一个交互式浏览器实验https://www.hackerstreak.com/articles/visualize-loss-landscap...
开始对话,讨论本周期的ARR审核,这些审核将于今天发布。提交者:/u/Pure-Ad9079 [link] [comments]
上周,我在黑暗魔法上进行了一项有趣的实验。这是两次迭代的可视化图( 1800 vs 1900 ) ,代理人再次玩游戏。😃这是我的科拉布笔记本,如果您想自己运行它,请访问https://colab.research.google.com/drive/1-rm_Bh8CNaM861We97ZoicfgKxz0xOSi?usp=sharing ,由/u/asmonix [link] [comments]提交
在微调NLLB-200 600M型号时,面对这个特定的配料问题,我构建了一个名为dynabatch的小型pytorch采样器。在RTX 5090上进行培训,我可以使用的最大固定批量是8 ,任何更大的OOM线索。在使用nvidia-smi进行培训和监控时,似乎只有少数批次实际上强调了GPU。很多时间的利用率要低得多。我猜是……
该模型在纯视觉质量盲测中打破现有纪录,通过 150 亿参数单流架构实现音画同步生成,补齐了阿里在多模态生成业务上的关键短板。盲测登顶与研发溯源2026年4月上旬,Happy Horse 1.0 匿名登陆 Artificial Analysis Video Arena 盲测榜单并斩获两项第一。其文生视频(无音频)Elo 评分最高达 1382,图生视频(无音频)Elo 评分突破 1400,以数十点分差超越原榜首字节跳动 Seedance 2.0。该模型确系阿里巴巴研发,由前快手可灵技术负责人张迪带队。阿里内部近期已同步进行组织调整,多模态团队并入通义大模型事业部(周靖人负责)以统一模型出口。模型架...
LibTV 平台正式上线 HappyHorse 1.0 模型,依托 150 亿参数的统一架构,该模型在应用端首次打通视频画面与高保真音频的联合生成链路,重构传统影视后期的配音与拟音工作流。HappyHorse 1.0 模型架构与 Benchmark 数据底层架构:采用约 150 亿参数的 40 层单流自注意力 Transformer(Sandwich 架构)。文本、图像、视频及音频 Token 在同一序列中进行联合去噪,无独立交叉注意力模块。评测排名:在 Artificial Analysis Video Arena 盲测中,无音频 T2V(Elo 1333)与无音频 I2V(Elo 1392...
Mercury Agent 提供了一套强调安全边界与持久化记忆的开源双端(CLI/Telegram)代理方案,通过本地数据库机制缓解了长文本上下文丢失,并以硬编码拦截阻断了工具滥用风险。“第二大脑”持久化记忆架构v1.0 版本重构了数据存储逻辑,底层采用 SQLite 并结合 FTS5 实现全文本搜索。系统将记忆划分为身份、偏好、目标等 10 个数据维度。执行管线上,Agent 在每次对话结束后自动提取 0-3 个携带置信度与重要性评分的客观事实;并在发起新会话前,在 900 字符的上下文预算内自动注入匹配度最高的 5 条记忆。后台守护进程每 60 分钟自动执行一次记忆摘要整合与冗余降噪。强化...
开源 AI Agent 框架 OpenClaw 释出最新版本,将默认底层模型切换为 DeepSeek V4 Flash,并重构多模态会议与浏览器自动化底层,标志着本地化 Agent 的核心工作流从“异步指令流”向“实时多模态干预”演进。默认模型矩阵替换与 DeepSeek V4 深度集成官方内置模型目录(Bundled Catalog)已正式集成 DeepSeek V4 Flash 与 V4 Pro,并将 V4 Flash 设为全局新用户的默认引导模型(Onboarding Default)。针对多步复杂任务,修复了 DeepSeek 模型在连续工具调用(Follow-up Tool-call...
DeepSeek正式推出标配1M上下文的V4架构模型,通过对Pro版API施加激进的限时降价策略,进一步拉低Agent应用的规模化落地成本,并强制推进旧接口的生态交替。核心API价格倒挂与旧接口淘汰DeepSeek官方文档更新显示,deepseek-v4-pro 模型API正在进行“限时2.5折”特惠,窗口期截至北京时间2026年5月5日23:59。具体折后计费标准(人民币/百万Tokens):缓存命中输入:0.25元(原价1元)缓存未命中输入:3元(原价12元)输出:6元(原价24元)生态变更信号:官方已明确宣告原核心接口名 deepseek-chat 与 deepseek-reasoner...
DeepSeek 推出 1.6 万亿参数的 V4-Pro 与 2840 亿参数的 V4-Flash 预览版,通过底层注意力架构重构大幅度压缩长文本推理开销,核心代码能力直指闭源第一梯队。本次预览版全系采用混合专家(MoE)架构,提供两个维度的开源权重:DeepSeek-V4-Pro:总参数量达 1.6T(1.6 万亿),单次前向计算激活 49B 参数。DeepSeek-V4-Flash:总参数量 284B,单次激活 13B 参数。数据与后训练路径:基于超 32T 高质量 Token 进行预训练。后训练采用两阶段范式:首先通过 SFT 与基于 GRPO 的强化学习进行领域独立专家模型的训练,随后...
OpenAI 正式发布基础模型 GPT-5.5 及其 Pro 版本,核心技术路径从“对话式应答”转向“自主执行(Agentic)”,重点强化跨工具控制与代码闭环执行能力。性能指标与 Agentic 架构演进模型针对复杂长流程任务(代码调试、跨软件操作、科学研究)进行了深度重构:基准测试:在核心开发者关注的 Terminal-Bench 2.0 中微弱领先 Anthropic 的 Claude Mythos Preview,短暂夺回公开发布 LLM 的性能头把交椅。计算效率:在保持与上一代 GPT-5.4 相同 Per-token 延迟的前提下,优化了整合推理系统,使 Token 生成速度提升超...
腾讯首席 AI 科学家姚顺雨上任后的首个大语言模型,放弃参数规模竞赛,转向快慢思考融合与低成本实用性。基础设施重建与模型架构腾讯于 2026 年 2 月全面重建预训练与强化学习基础设施。Hy3 preview 是该体系下训练的第一个模型,被官方定义为“迄今最智能的模型”:架构:快慢思考融合的混合专家模型(MoE)。参数量:总参数 295B,激活参数 21B。上下文长度:最大支持 256K。Agent 与核心能力升级研发重心明确转向代码生成与智能体任务的真实可用性,主动规避易被“刷榜”的公开数据集:代码与智能体:在 SWE-Bench(代码)、Terminal-Bench(终端搜索)及 Claw...
距上一代发布仅36天,小米由前 DeepSeek 核心成员主导的新一代多模态大模型落地,主攻百万级上下文、高阶 Agent 自主执行能力,并大幅精简商业 API 定价模型。矩阵构成与开源策略本次公测共释放四款模型:基座模型 MiMo-V2.5、旗舰模型 MiMo-V2.5-Pro,以及语音维度的 V2.5-TTS Series 和 V2.5-ASR。其中,MiMo-V2.5 与 MiMo-V2.5-Pro 确认将于近期向全球开源。该系列研发负责人为前 DeepSeek 核心成员罗福莉。核心演进数据与 Agent 表现MiMo-V2.5-Pro(高阶复杂长程任务):侧重专业生产力场景。官方给出的...
月之暗面正式上线 Kimi K2.6,核心突破在于极高强度的自主编程执行力与最高支持 300 节点并行的 Agent 集群架构,标志着基础模型能力从“代码片段生成”向“系统级工程接管”过渡。超长程自主编码 (Autonomous Coding)基准测试数据:在内部代码评测集 Kimi Code Bench 中,K2.6 较上一代 K2.5 提升约 20%。官方宣称其代码能力基准对标 GPT-5.4。无人值守执行极限:旧系统重构:针对具有 8 年历史的开源金融撮合引擎(exchange-core),K2.6 连续运行 13 小时,发起 1000+ 次工具调用,完成 4000+ 行代码修改,最终将...