2026年05月15日
最后更新:2026-05-15 08:04:02 UTC+8
文章网址: https://antirez.com/news/165 评论网址: https://news.ycombinator.com/item?id=48142108 积分: 57 #评论: 15
文章网址: https://www.theregister.com/ai-ml/2026/05/14/ontario-auditors-find-doctors-ai-note-takers-routinely-blow-basic-facts/5240771 评论网址: https://news.ycombinator.com/item?id=48142188 积分: 35 #评论: 5
文章网址: https://news.vt.edu/articles/2026/05/drought-united-states-la-nina-expert.html 评论网址: https://news.ycombinator.com/item?id=48142193 积分: 32 #评论: 4
文章网址: https://www.bbc.com/news/articles/c2l2j1lxdk5o 评论网址: https://news.ycombinator.com/item?id=48142251 积分: 56 #评论: 15
文章网址: https://github.com/DmytroLopushanskyy/iclr2026-affiliations 评论网址: https://news.ycombinator.com/item?id=48142312 积分: 4 #评论: 0
arXiv: 2605.12682v1公告类型:新 摘要:大型语言模型( LLM )在许多应用中越来越多地被用作推理模块。 虽然LLM在某些任务中效率很高,但他们通常很难产生与人类一致的解决方案。 以人为本的决策需要同时考虑明确规定的目标和潜在的用户偏好,这些偏好决定了模棱两可的情况应该是多么...
arXiv: 2605.12674v1公告类型:新 摘要:视觉语言模型( VLM )由于其广泛的推理能力和以最小的任务特定工程进行泛化的能力,越来越多地用于安全关键应用。 尽管有这些优势,但它们可能在特定的现实世界中表现出灾难性的故障,构成故障模式。 我们推出REVELIO ,一个...
arXiv: 2605.12673v1公告类型:新 摘要:智能体基准已成为衡量前沿人工智能能力的实际尺度,指导模型选择、投资和部署。 然而,奖励黑客,即代理在不执行预期任务的情况下最大化分数,会自发地出现在前沿模型中,而不会过度拟合。 我们认为,基准必须在设计上是安全的。从过去的INCID...
arXiv: 2605.12655v1公告类型:新 摘要:现实用例中的多智能体强化学习( MARL )可能需要适应外部自然语言指令,以中断正在进行的行为并与长期目标冲突。 然而,对指令的调节奖励引入了一种基本的故障模式,因为Bellman更新了指令连续的耦合值估计...
arXiv: 2605.12620v1公告类型:新 摘要:构建能够解决复杂现实世界任务的通才具体化代理仍然是人工智能的基本挑战。 多模态大型语言模型( MLLM )通过强大的视觉语言知识和思维链( CoT )推理,显着提高了这些代理的推理能力,但在面对...
大家好本周六,美国东部时间5月16日下午6:00 ,我们将介绍如何设置本地语言模型:在您自己的机器上运行LLM ,而不是私人提供商。请在此处回复: https://www.meetup.com/chillnskill/events/314498136/提交者:/u/Competitive_Risk_977 [link] [comments]
Anthropic今天发表了一篇新的研究论文,概述了到2028年全球人工智能领导力的两种可能的未来,它更像是一个地缘政治简报,而不是典型的人工智能安全论文。核心论点:美国目前在前沿人工智能领域领先中国,主要是因为计算(芯片)。美国及其盟国公司(英伟达、台积电、ASML等)在中国打造了简单的技术。
大多数企业目前认为他们拥有人工智能的治理策略: “如果发生风险,人类将对其进行审查。“听起来合理。但我认为,随着人工智能系统从推荐→执行转向更深层次的结构性问题正在出现。因为现代人工智能系统不再只是生成答案。他们也越来越多地:对风险进行分类,估算信心,决定是否……
一位AWS用户刚刚盯着一张3万美元的发票,这张$ 30,000美元的发票是在没有护栏的情况下在基岩上冒险的。成本异常检测完全失败,这很重要,因为这是AWS市场上作为失控支出安全网的确切工具。Anthropic现在正在计量和限制API层的编程Claude使用,这是一种供给侧响应,只有在推理成本高时才有意义...
提交者/u/IndicaOatmeal [link] [comments]
遵循均值:参考引导流程匹配: https://www.alphaxiv.org/abs/2605.10302 https://preview.redd.it/5pleq5b4861h1.png?width=1036&format=png&auto=webp&s=805940b079176b65c45bb10e5458ecce140b0044提交者/u/Professional-Ant-117 [link] [comments]
我一直听到这样的话: “几年前被接受的论文今天没有机会了。“老实说,对于许多机器学习子领域来说,这听起来并不疯狂。一篇曾经看起来很坚实的论文现在看起来可能被低估了,被低估了,在基线上显得很弱,或者太明显了。因此,也许真正的主张是:多年前被接受的平庸的机器学习论文今天可能会被拒绝。
https://preview.redd.it/p9cd2zmfy01h1.png?width=2000&format=png&auto=webp&s=a8e99bac438c2505d97ed3716983aa731da855f8分享来自GPP和PokeAgent团队的新论文。Gemini Plays Pokémon ( GPP )是第一个在困难模式下完成Pokémon Blue , Yellow Legacy和Crystal的人工智能系统,不会输掉一场战斗。如何?迭代线束开发的早期迹象。在蓝色时代,一个人类观看了……
Van Rooij、Guest、de Haan、Adolfi、Kolokolova和Rich声称已经证明,在2024年,通过机器学习实现AGI在计算大脑和行为中是不可能的。其基本思想是尝试将已知的NP难问题简化为从数据中学习人类水平分类器的问题。作者称之为“Ingenia定理”的所谓结果在互联网上引起了一些噪音,包括这里。我的论文显示...
Claude Code 的周使用限制上调 50%,叠加此前 5 小时限制翻倍调整,短期缓解开发者的额度瓶颈。调整详情@ClaudeDevs(Anthropic 官方开发者账号)宣布:Claude Code 的每周使用限制上调 50%,即时生效,有效期至 2026 年 7 月 13 日。适用范围覆盖所有 Pro、Max、Team 及按席位计费的 Enterprise 计划。这是 Anthropic 在一个月内第二次调整 Claude Code 的额度。5 月 6 日,Anthropic 在官方博客宣布将 Pro、Max、Team 和 Enterprise 计划的 5 小时速率限制翻倍,并取消了 ...
Google用”从操作系统到智能系统”的定位变化,把Gemini塞进笔记本的每个交互环节,Chromebook 15年品牌正式让位。全新硬件品类:为Gem Intelligence从头构建2026年5月12日,Google在”The Android Show”线上发布会上公布了全新笔记本品类 Googlebook。官方定位:”built from the ground up for Gemini Intelligence”——从底层围绕Gemini AI构建,而非在现有系统上叠加AI功能。Googlebook基于Android技术栈的部分构建,融合了Android、Google Play商店和...
长亭科技推出内置多模型的 AI 编程平台 MonkeyCode,无需本地安装,浏览器内即可完成代码编写、执行、审查全流程。长亭科技(Chaitin)于 2025 年 12 月底上线 MonkeyCode,定位为”工程级 AI 开发平台”。与 Claude Code、Cursor 等本地 CLI 或 IDE 插件不同,MonkeyCode 把完整的开发环境搬到浏览器里——无需安装,无需连接本地机器,打开网页就能让 AI 写代码、跑命令、做审查。平台开源在 GitHub(chaitin/MonkeyCode),采用 AGPL-3.0 协议,注册即送 200 元免费算力。产品形态:云端开发环境 + ...
Anthropic 为 Claude Code 推出 Agent View(研究预览)和 /goal 命令,一次解决多会话管理与目标驱动工作流两个高频需求,同时修复 30 余项覆盖认证、MCP、UI 渲染的缺陷。Agent View:统一会话列表(研究预览)新增 claude agents 命令,在一个列表中展示所有 Claude Code 会话——运行中、等待用户输入、已完成。这是此前社区反馈最密集的功能之一:开发者经常同时运行多个 agent(前台编码 + 后台调研 + 子 agent 任务),但缺乏全局视图。该功能标记为”研究预览”,意味着接口和行为可能继续调整。文档同步上线:https...
Claude Code 原生内置多任务管理面板,开发者无需再开多个终端或依赖 tmux 来并行调度 AI 编码会话。核心功能:一个列表掌控所有会话Agent View 是 Claude Code 的原生终端面板,以表格形式列出所有后台会话。运行 claude agents 即可打开,按状态分组排列:状态含义动画闪烁 (✽)正在工作,Claude 正在执行工具或生成回复黄色 (✻)需要输入,等待用户回答或权限确认灰色变暗 (∙)空闲,不阻塞具体问题绿色任务完成红色出错终止灰色用户手动停止需要输入和工作中的会话置顶,已完成的老会话自动折叠为”… N more”。打开 PR 的会话和失败会话始终可见...
中国移动以运营商身份切入大模型聚合赛道,用统一网关和Token集约化运营把政企客户的模型采购流程标准化,主战场不是开发者而是政企采购。平台定位:政企模型采购的”中间层”2026年5月8日,中国移动在苏州举行的移动云大会主论坛上发布移动模型服务平台 MoMA(Mobile Model Service Platform)。平台接入超300款AI大模型,包括中国移动自研的”九天”基座大模型,以及 DeepSeek、通义千问、豆包、Kimi、GLM 等第三方模型。统一 API 网关是核心入口——企业一次接入即可调用平台全部模型资源,无需与各模型厂商单独签约。这是 MoMA 对政企客户的核心卖点:把多头...
字节跳动 Seed 团队开源 UI-TARS-2,通过端到端多轮强化学习训练 GUI 智能体。Online-Mind2Web 得分 88.2,全面超越 Claude、OpenAI CUA 等基线模型,GitHub 31.8k star。UI-TARS-2:多轮强化学习训练 GUI 智能体2025 年 9 月,字节跳动 Seed 团队发布 UI-TARS-2 技术报告(arXiv:2509.02544)。与前代通过监督学习(SFT)+ DPO 的路径不同,UI-TARS-2 采用端到端的多轮强化学习(multi-turn RL)直接训练智能体。训练管线包含四个组件:数据飞轮(data flywh...
Anthropic 的 Claude Code 团队成员 Thariq Shihipar 公开发布 20 个自包含 HTML 示例,论证 AI Agent 输出 HTML 比 Markdown 更有效。Simon Willison 随即撰文跟进实测。格式之争的底层逻辑:从”人写”到”Agent 生成”的交付范式转移。2026 年 5 月 8 日前后,Claude Code 团队成员 Thariq Shihipar(X: @trq212)发布推文:”HTML is the new markdown. I’ve stopped writing markdown files for almost e...
Anthropic 在 Claude Code 终端内置 /radio 命令,一键调出 Claude FM lo-fi 编程电台,将 Lofi Girl 式的专注背景音直接嵌入 AI 编程工作流。/radio 命令:Claude Code 终端内的电台开关Claude Code 的官方命令文档中注册了 /radio:在浏览器中打开 Claude FM lo-fi 电台无图形界面的服务器环境下,直接在终端打印流媒体 URL,供外部播放器接入不适用于 Bedrock、Vertex 或 Foundry 部署版本,仅限 Anthropic 直连或付费订阅命令本身没有任何参数。输入 /radio,浏览器...
Anthropic 2026 年持续收紧账号审核,多家企业和个人开发者在无预警、无明确理由的情况下被封禁,申诉渠道仅靠 Google Form 响应。用户自发建立 bannedbyanthropic.com 收集公开案例,要求 Anthropic 建立透明申诉机制。请愿站上线:bannedbyanthropic.com2026 年 4 月 19 日前后,bannedbyanthropic.com 上线。该站包含两个功能:请愿页:呼吁 Anthropic 人工复核封号决定、提供公平申诉流程、恢复合规账号。案例页(/cases):公开记录 Claude 账号封禁、暂停、组织级禁用事件。用户可按公开...