📰 每日 AI 资讯

2026年05月15日

最后更新:2026-05-15 08:04:02 UTC+8

🔹 Hacker News

关于DS4的几句话

文章网址: https://antirez.com/news/165 评论网址: https://news.ycombinator.com/item?id=48142108 积分: 57 #评论: 15

📅 hu, 14 May 2026 🔗 原文链接

安大略省审计员发现医生的人工智能记录员经常吹嘘基本事实

文章网址: https://www.theregister.com/ai-ml/2026/05/14/ontario-auditors-find-doctors-ai-note-takers-routinely-blow-basic-facts/5240771 评论网址: https://news.ycombinator.com/item?id=48142188 积分: 35 #评论: 5

📅 hu, 14 May 2026 🔗 原文链接

超过一半的美国人面临数十年来最严重的干旱

文章网址: https://news.vt.edu/articles/2026/05/drought-united-states-la-nina-expert.html 评论网址: https://news.ycombinator.com/item?id=48142193 积分: 32 #评论: 4

📅 hu, 14 May 2026 🔗 原文链接

在难民系统中更换Palantir技术,节省“数百万”英镑

文章网址: https://www.bbc.com/news/articles/c2l2j1lxdk5o 评论网址: https://news.ycombinator.com/item?id=48142251 积分: 56 #评论: 15

📅 hu, 14 May 2026 🔗 原文链接

ICLR 2026 –机构隶属关系数据集和分析

文章网址: https://github.com/DmytroLopushanskyy/iclr2026-affiliations 评论网址: https://news.ycombinator.com/item?id=48142312 积分: 4 #评论: 0

📅 hu, 14 May 2026 🔗 原文链接

🔹 arXiv 人工智能

学习人性化决策的可转移潜在用户偏好

arXiv: 2605.12682v1公告类型:新 摘要:大型语言模型( LLM )在许多应用中越来越多地被用作推理模块。 虽然LLM在某些任务中效率很高,但他们通常很难产生与人类一致的解决方案。 以人为本的决策需要同时考虑明确规定的目标和潜在的用户偏好,这些偏好决定了模棱两可的情况应该是多么...

📅 hu, 14 May 2026 🔗 原文链接

揭示VLM的可解释故障模式

arXiv: 2605.12674v1公告类型:新 摘要:视觉语言模型( VLM )由于其广泛的推理能力和以最小的任务特定工程进行泛化的能力,越来越多地用于安全关键应用。 尽管有这些优势,但它们可能在特定的现实世界中表现出灾难性的故障,构成故障模式。 我们推出REVELIO ,一个...

📅 hu, 14 May 2026 🔗 原文链接

机器人梦想打破游戏吗?使用BenchJack系统地审核AI Agent基准

arXiv: 2605.12673v1公告类型:新 摘要:智能体基准已成为衡量前沿人工智能能力的实际尺度,指导模型选择、投资和部署。 然而,奖励黑客,即代理在不执行预期任务的情况下最大化分数,会自发地出现在前沿模型中,而不会过度拟合。 我们认为,基准必须在设计上是安全的。从过去的INCID...

📅 hu, 14 May 2026 🔗 原文链接

通过价值取消遵循基于宏操作的多代理指令

arXiv: 2605.12655v1公告类型:新 摘要:现实用例中的多智能体强化学习( MARL )可能需要适应外部自然语言指令,以中断正在进行的行为并与长期目标冲突。 然而,对指令的调节奖励引入了一种基本的故障模式,因为Bellman更新了指令连续的耦合值估计...

📅 hu, 14 May 2026 🔗 原文链接

三思而后行:验证者引导的针对具体客服代表的行动选择

arXiv: 2605.12620v1公告类型:新 摘要:构建能够解决复杂现实世界任务的通才具体化代理仍然是人工智能的基本挑战。 多模态大型语言模型( MLLM )通过强大的视觉语言知识和思维链( CoT )推理,显着提高了这些代理的推理能力,但在面对...

📅 hu, 14 May 2026 🔗 原文链接

🔹 Reddit 人工智能

[虚拟] AI周六-了解如何设置本地LLM (美国东部时间5月16日下午6点)

大家好本周六,美国东部时间5月16日下午6:00 ,我们将介绍如何设置本地语言模型:在您自己的机器上运行LLM ,而不是私人提供商。请在此处回复: https://www.meetup.com/chillnskill/events/314498136/提交者:/u/Competitive_Risk_977 [link] [comments]

📅 2026-05-14 21:50 🔗 原文链接

Anthropic刚刚发布了一篇相当令人担忧的2028年人工智能场景论文,它与通常意义上的AGI安全无关

Anthropic今天发表了一篇新的研究论文,概述了到2028年全球人工智能领导力的两种可能的未来,它更像是一个地缘政治简报,而不是典型的人工智能安全论文。核心论点:美国目前在前沿人工智能领域领先中国,主要是因为计算(芯片)。美国及其盟国公司(英伟达、台积电、ASML等)在中国打造了简单的技术。

📅 2026-05-14 19:53 🔗 原文链接

我认为“人为循环”可能成为企业人工智能中最大的治理幻想之一

大多数企业目前认为他们拥有人工智能的治理策略: “如果发生风险,人类将对其进行审查。“听起来合理。但我认为,随着人工智能系统从推荐→执行转向更深层次的结构性问题正在出现。因为现代人工智能系统不再只是生成答案。他们也越来越多地:对风险进行分类,估算信心,决定是否……

📅 2026-05-14 16:16 🔗 原文链接

在克劳德在基岩上离家出走后, AWS用户击中了30000美元的钞票

一位AWS用户刚刚盯着一张3万美元的发票,这张$ 30,000美元的发票是在没有护栏的情况下在基岩上冒险的。成本异常检测完全失败,这很重要,因为这是AWS市场上作为失控支出安全网的确切工具。Anthropic现在正在计量和限制API层的编程Claude使用,这是一种供给侧响应,只有在推理成本高时才有意义...

📅 2026-05-14 10:35 🔗 原文链接

人工智能帮助人们在高密码和忘记密码11年后恢复$ 400,000的比特币

提交者/u/IndicaOatmeal [link] [comments]

📅 2026-05-13 19:33 🔗 原文链接

🔹 Reddit 机器学习

遵循均值:参考引导流匹配[R]

遵循均值:参考引导流程匹配: https://www.alphaxiv.org/abs/2605.10302 https://preview.redd.it/5pleq5b4861h1.png?width=1036&format=png&auto=webp&s=805940b079176b65c45bb10e5458ecce140b0044提交者/u/Professional-Ant-117 [link] [comments]

📅 2026-05-14 21:30 🔗 原文链接

2000-2021年的机器学习论文今天还能被接受吗? [D]

我一直听到这样的话: “几年前被接受的论文今天没有机会了。“老实说,对于许多机器学习子领域来说,这听起来并不疯狂。一篇曾经看起来很坚实的论文现在看起来可能被低估了,被低估了,在基线上显得很弱,或者太明显了。因此,也许真正的主张是:多年前被接受的平庸的机器学习论文今天可能会被拒绝。

📅 2026-05-14 11:39 🔗 原文链接

持续利用:自我完善基础代理的在线适应[R]

https://preview.redd.it/p9cd2zmfy01h1.png?width=2000&format=png&auto=webp&s=a8e99bac438c2505d97ed3716983aa731da855f8分享来自GPP和PokeAgent团队的新论文。Gemini Plays Pokémon ( GPP )是第一个在困难模式下完成Pokémon Blue , Yellow Legacy和Crystal的人工智能系统,不会输掉一场战斗。如何?迭代线束开发的早期迹象。在蓝色时代,一个人类观看了……

📅 2026-05-14 03:45 🔗 原文链接

通过机器学习实现人类水平的表现在复杂性理论中*并非*被证明是不可能的[D]

Van Rooij、Guest、de Haan、Adolfi、Kolokolova和Rich声称已经证明,在2024年,通过机器学习实现AGI在计算大脑和行为中是不可能的。其基本思想是尝试将已知的NP难问题简化为从数据中学习人类水平分类器的问题。作者称之为“Ingenia定理”的所谓结果在互联网上引起了一些噪音,包括这里。我的论文显示...

📅 2026-05-13 14:50 🔗 原文链接

🔹 51AllAI

Anthropic 宣布 Claude Code 每周限制临时上调 50%,有效期至 7 月 13 日

Claude Code 的周使用限制上调 50%,叠加此前 5 小时限制翻倍调整,短期缓解开发者的额度瓶颈。调整详情@ClaudeDevs(Anthropic 官方开发者账号)宣布:Claude Code 的每周使用限制上调 50%,即时生效,有效期至 2026 年 7 月 13 日。适用范围覆盖所有 Pro、Max、Team 及按席位计费的 Enterprise 计划。这是 Anthropic 在一个月内第二次调整 Claude Code 的额度。5 月 6 日,Anthropic 在官方博客宣布将 Pro、Max、Team 和 Enterprise 计划的 5 小时速率限制翻倍,并取消了 ...

📅 2026-05-14 12:46 🔗 原文链接

Google 发布Googlebook , Chromebook将被 AI笔记本取代

Google用”从操作系统到智能系统”的定位变化,把Gemini塞进笔记本的每个交互环节,Chromebook 15年品牌正式让位。全新硬件品类:为Gem Intelligence从头构建2026年5月12日,Google在”The Android Show”线上发布会上公布了全新笔记本品类 Googlebook。官方定位:”built from the ground up for Gemini Intelligence”——从底层围绕Gemini AI构建,而非在现有系统上叠加AI功能。Googlebook基于Android技术栈的部分构建,融合了Android、Google Play商店和...

📅 2026-05-13 16:09 🔗 原文链接

长亭开源MonkeyCode:内置多模型的AI工程级开发平台

长亭科技推出内置多模型的 AI 编程平台 MonkeyCode,无需本地安装,浏览器内即可完成代码编写、执行、审查全流程。长亭科技(Chaitin)于 2025 年 12 月底上线 MonkeyCode,定位为”工程级 AI 开发平台”。与 Claude Code、Cursor 等本地 CLI 或 IDE 插件不同,MonkeyCode 把完整的开发环境搬到浏览器里——无需安装,无需连接本地机器,打开网页就能让 AI 写代码、跑命令、做审查。平台开源在 GitHub(chaitin/MonkeyCode),采用 AGPL-3.0 协议,注册即送 200 元免费算力。产品形态:云端开发环境 + ...

📅 2026-05-13 08:39 🔗 原文链接

Claude Code 2.1.139 发布,新增代理视图与/目标 命令

Anthropic 为 Claude Code 推出 Agent View(研究预览)和 /goal 命令,一次解决多会话管理与目标驱动工作流两个高频需求,同时修复 30 余项覆盖认证、MCP、UI 渲染的缺陷。Agent View:统一会话列表(研究预览)新增 claude agents 命令,在一个列表中展示所有 Claude Code 会话——运行中、等待用户输入、已完成。这是此前社区反馈最密集的功能之一:开发者经常同时运行多个 agent(前台编码 + 后台调研 + 子 agent 任务),但缺乏全局视图。该功能标记为”研究预览”,意味着接口和行为可能继续调整。文档同步上线:https...

📅 2026-05-12 12:27 🔗 原文链接

Claude Code 发布 Agent View,一个终端管理所有编码会话

Claude Code 原生内置多任务管理面板,开发者无需再开多个终端或依赖 tmux 来并行调度 AI 编码会话。核心功能:一个列表掌控所有会话Agent View 是 Claude Code 的原生终端面板,以表格形式列出所有后台会话。运行 claude agents 即可打开,按状态分组排列:状态含义动画闪烁 (✽)正在工作,Claude 正在执行工具或生成回复黄色 (✻)需要输入,等待用户回答或权限确认灰色变暗 (∙)空闲,不阻塞具体问题绿色任务完成红色出错终止灰色用户手动停止需要输入和工作中的会话置顶,已完成的老会话自动折叠为”… N more”。打开 PR 的会话和失败会话始终可见...

📅 2026-05-12 06:13 🔗 原文链接

中国移动发布MoMA平台,接入超300款大模型

中国移动以运营商身份切入大模型聚合赛道,用统一网关和Token集约化运营把政企客户的模型采购流程标准化,主战场不是开发者而是政企采购。平台定位:政企模型采购的”中间层”2026年5月8日,中国移动在苏州举行的移动云大会主论坛上发布移动模型服务平台 MoMA(Mobile Model Service Platform)。平台接入超300款AI大模型,包括中国移动自研的”九天”基座大模型,以及 DeepSeek、通义千问、豆包、Kimi、GLM 等第三方模型。统一 API 网关是核心入口——企业一次接入即可调用平台全部模型资源,无需与各模型厂商单独签约。这是 MoMA 对政企客户的核心卖点:把多头...

📅 2026-05-11 12:12 🔗 原文链接

字节跳动开源 UI-TARS-2,多轮强化学习训练 GUI 智能体

字节跳动 Seed 团队开源 UI-TARS-2,通过端到端多轮强化学习训练 GUI 智能体。Online-Mind2Web 得分 88.2,全面超越 Claude、OpenAI CUA 等基线模型,GitHub 31.8k star。UI-TARS-2:多轮强化学习训练 GUI 智能体2025 年 9 月,字节跳动 Seed 团队发布 UI-TARS-2 技术报告(arXiv:2509.02544)。与前代通过监督学习(SFT)+ DPO 的路径不同,UI-TARS-2 采用端到端的多轮强化学习(multi-turn RL)直接训练智能体。训练管线包含四个组件:数据飞轮(data flywh...

📅 2026-05-10 13:14 🔗 原文链接

Claude Code 工程师弃用 Markdown ,转向 HTML 交付

Anthropic 的 Claude Code 团队成员 Thariq Shihipar 公开发布 20 个自包含 HTML 示例,论证 AI Agent 输出 HTML 比 Markdown 更有效。Simon Willison 随即撰文跟进实测。格式之争的底层逻辑:从”人写”到”Agent 生成”的交付范式转移。2026 年 5 月 8 日前后,Claude Code 团队成员 Thariq Shihipar(X: @trq212)发布推文:”HTML is the new markdown. I’ve stopped writing markdown files for almost e...

📅 2026-05-09 16:39 🔗 原文链接

人文在克劳德密码内置/收音机命令,推出克劳德调频 编程电台

Anthropic 在 Claude Code 终端内置 /radio 命令,一键调出 Claude FM lo-fi 编程电台,将 Lofi Girl 式的专注背景音直接嵌入 AI 编程工作流。/radio 命令:Claude Code 终端内的电台开关Claude Code 的官方命令文档中注册了 /radio:在浏览器中打开 Claude FM lo-fi 电台无图形界面的服务器环境下,直接在终端打印流媒体 URL,供外部播放器接入不适用于 Bedrock、Vertex 或 Foundry 部署版本,仅限 Anthropic 直连或付费订阅命令本身没有任何参数。输入 /radio,浏览器...

📅 2026-05-09 16:23 🔗 原文链接

人择禁用:人择禁用户请愿站上线用 封号潮引争议

Anthropic 2026 年持续收紧账号审核,多家企业和个人开发者在无预警、无明确理由的情况下被封禁,申诉渠道仅靠 Google Form 响应。用户自发建立 bannedbyanthropic.com 收集公开案例,要求 Anthropic 建立透明申诉机制。请愿站上线:bannedbyanthropic.com2026 年 4 月 19 日前后,bannedbyanthropic.com 上线。该站包含两个功能:请愿页:呼吁 Anthropic 人工复核封号决定、提供公平申诉流程、恢复合规账号。案例页(/cases):公开记录 Claude 账号封禁、暂停、组织级禁用事件。用户可按公开...

📅 2026-05-09 16:11 🔗 原文链接