2026年05月13日
最后更新:2026-05-13 08:03:32 UTC+8
文章网址: https://arxiv.org/abs/2605.05242 评论网址: https://news.ycombinator.com/item?id=48113518 积分: 34 #评论: 8
文章网址: https://typesetinthefuture.com/2016/02/18/futuristic/ 评论网址: https://news.ycombinator.com/item?id=48113895 积分: 174 #评论: 18
文章网址: https://www.eff.org/deeplinks/2026/05/eff-fourth-circuit-electronic-device-searches-border-require-warrant 评论网址: https://news.ycombinator.com/item?id=48115059 积分: 29 #评论: 2
文章网址: https://github.com/FULU-Foundation/OrcaSlicer-bambulab 评论网址: https://news.ycombinator.com/item?id=48115127 积分: 79 #评论: 26
文章网址: https://www.bbc.com/culture/article/20260511-kraftwerks-radical-1976-track-radioactivity-became-an-anti-nuclear-anthem 评论网址: https://news.ycombinator.com/item?id=48115823 积分: 17 #评论: 0
arXiv: 2605.08368v1公告类型:新 摘要:关于大型语言模型训练后的争论通常将监督微调( SFT )视为模仿和强化学习( RL )作为发现。 但这种区分太粗糙了。 重要的是训练过程是否会增加预训练模型可能已经产生的行为的概率,或者它是否会改变模型的内容。
arXiv: 2605.08360v1公告类型:新 摘要:现代人工智能正在为集体决策打开大门,在这种决策中,参与者以自由形式的文本表达自己的观点,而不是对一组固定的候选人进行投票。 一个自然的想法是将这些观点嵌入到向量空间中,这样就可以将设施位置问题和公平聚类的大量文献带入其中,但标准...
arXiv: 2605.08354v1公告类型:新 摘要:将多模态生成模型与人类偏好对齐,需要尊重人类判断的组成、多维结构的奖励信号。 流行的RLHF方法将这种结构简化为标量或成对标签,将细微的偏好折叠成不透明的参数代理,并暴露漏洞以奖励黑客....
arXiv: 2605.08220v1公告类型:新 摘要:从科学图表中自动提取数据是大规模文献分析的关键任务。 虽然多模态大型语言模型( LLM )显示出前景,但其在非标准化图表上的准确性仍然是一个挑战。 这就提出了一个关键的研究问题:提高模型性能的最有效策略是什么(高层次的
arXiv: 2605.08200v1公告类型:新 摘要:一种普遍的直觉认为,当视觉语言模型( VLM )的注意力地图看起来清晰时,它们是最值得信赖的:集中注意力在被询问的区域应该意味着一个自信、校准的答案。 我们直接测试这个注意力置信度假设。 我们检测了三个开放式VLM系列( LLaVA-1.5、PaliGemma、Qwen2-VL ; 3-7B p...
它的作用:代理收集和整理数据,并发送到支持无线网络的收据打印机(无酚纸)凌晨1点, cron触发所有3个孩子的数据生成(每个孩子的独特数据源(如适用) )。Sidecar Web服务将数据呈现为模板,截图,通过抖动将其转换为1位,并将其保存回代理的线程文件系统。按钮按压(每个孩子一个……
提交者/u/Odd-Onion-6776 [link] [comments]
我认为下一场大型人工智能辩论不会是关于智能的。这将是关于代表性的。目前,大多数人工智能对话都集中在模型上:哪个模型更智能,哪个代理更快/更好,或者哪个人工智能可以自动化更多的工作?但企业/机构不会因为缺乏智慧而失败。它们之所以失败,是因为它们不能很好地代表现实。一家银行可能有成千上万的仪表板……
我昨天有一个工作版的GPT为我做了一个非常简单的电子表格摘要任务。花了5分钟才完成。我大概可以自己在30分钟左右的时间内完成。这项任务的高额补贴代币成本为10美元。这是10倍的补贴。实际计算成本约为100美元。那里有些严重的问题。它会崩溃并严重崩溃。编辑:原因...
提交者/u/esporx [link] [comments]
(免责声明:我不小心删除了此subreddit上的最后一篇帖子,如果这是您第二次看到它,我深表歉意)去年我发布了一篇关于我的steam推荐者的帖子最后一篇很棒,达到了向许多人展示新游戏的目的,但这个新版本功能更强大!我喜欢制作推荐系统,告诉用户为什么会收到推荐。在蒸汽中……
TabPFN-3于今天发布,这是表格基础模型的下一次迭代,最初发表在《自然》杂志上。TabPFN新手的快速回顾: TabPFN在单次转发中预测表格数据-无需训练,无需超参数搜索,无需调整。建立在TabPFN-2.5 ( 2025年11月)和TabPFNv2 ( Nature , 2025年1月)之上,共有3M次下载和200多个已发布的应用程序。什么是...
我使用Lyapunov光谱分析对一些解码器变压器模型进行了分析,发现MLP和注意力光谱规范的比率强烈地表明模型最终是否会在最终层崩溃到1级。我发现光谱比最好保持在0.5–2左右,以便在最终层之前保持模型稳定。Paper/Github repo : https://github.com/yousef-r...
是否有人申请ICML的韩国签证,被要求提供会议的商业登记号码? ICML网站明确表示无法提供BRC ,因此我想询问其他人如何处理/u/No_Cardiologist7609 [link] [comments]提交的此信息
Anthropic 为 Claude Code 推出 Agent View(研究预览)和 /goal 命令,一次解决多会话管理与目标驱动工作流两个高频需求,同时修复 30 余项覆盖认证、MCP、UI 渲染的缺陷。Agent View:统一会话列表(研究预览)新增 claude agents 命令,在一个列表中展示所有 Claude Code 会话——运行中、等待用户输入、已完成。这是此前社区反馈最密集的功能之一:开发者经常同时运行多个 agent(前台编码 + 后台调研 + 子 agent 任务),但缺乏全局视图。该功能标记为”研究预览”,意味着接口和行为可能继续调整。文档同步上线:https...
Claude Code 原生内置多任务管理面板,开发者无需再开多个终端或依赖 tmux 来并行调度 AI 编码会话。核心功能:一个列表掌控所有会话Agent View 是 Claude Code 的原生终端面板,以表格形式列出所有后台会话。运行 claude agents 即可打开,按状态分组排列:状态含义动画闪烁 (✽)正在工作,Claude 正在执行工具或生成回复黄色 (✻)需要输入,等待用户回答或权限确认灰色变暗 (∙)空闲,不阻塞具体问题绿色任务完成红色出错终止灰色用户手动停止需要输入和工作中的会话置顶,已完成的老会话自动折叠为”… N more”。打开 PR 的会话和失败会话始终可见...
中国移动以运营商身份切入大模型聚合赛道,用统一网关和Token集约化运营把政企客户的模型采购流程标准化,主战场不是开发者而是政企采购。平台定位:政企模型采购的”中间层”2026年5月8日,中国移动在苏州举行的移动云大会主论坛上发布移动模型服务平台 MoMA(Mobile Model Service Platform)。平台接入超300款AI大模型,包括中国移动自研的”九天”基座大模型,以及 DeepSeek、通义千问、豆包、Kimi、GLM 等第三方模型。统一 API 网关是核心入口——企业一次接入即可调用平台全部模型资源,无需与各模型厂商单独签约。这是 MoMA 对政企客户的核心卖点:把多头...
字节跳动 Seed 团队开源 UI-TARS-2,通过端到端多轮强化学习训练 GUI 智能体。Online-Mind2Web 得分 88.2,全面超越 Claude、OpenAI CUA 等基线模型,GitHub 31.8k star。UI-TARS-2:多轮强化学习训练 GUI 智能体2025 年 9 月,字节跳动 Seed 团队发布 UI-TARS-2 技术报告(arXiv:2509.02544)。与前代通过监督学习(SFT)+ DPO 的路径不同,UI-TARS-2 采用端到端的多轮强化学习(multi-turn RL)直接训练智能体。训练管线包含四个组件:数据飞轮(data flywh...
Anthropic 的 Claude Code 团队成员 Thariq Shihipar 公开发布 20 个自包含 HTML 示例,论证 AI Agent 输出 HTML 比 Markdown 更有效。Simon Willison 随即撰文跟进实测。格式之争的底层逻辑:从”人写”到”Agent 生成”的交付范式转移。2026 年 5 月 8 日前后,Claude Code 团队成员 Thariq Shihipar(X: @trq212)发布推文:”HTML is the new markdown. I’ve stopped writing markdown files for almost e...
Anthropic 在 Claude Code 终端内置 /radio 命令,一键调出 Claude FM lo-fi 编程电台,将 Lofi Girl 式的专注背景音直接嵌入 AI 编程工作流。/radio 命令:Claude Code 终端内的电台开关Claude Code 的官方命令文档中注册了 /radio:在浏览器中打开 Claude FM lo-fi 电台无图形界面的服务器环境下,直接在终端打印流媒体 URL,供外部播放器接入不适用于 Bedrock、Vertex 或 Foundry 部署版本,仅限 Anthropic 直连或付费订阅命令本身没有任何参数。输入 /radio,浏览器...
Anthropic 2026 年持续收紧账号审核,多家企业和个人开发者在无预警、无明确理由的情况下被封禁,申诉渠道仅靠 Google Form 响应。用户自发建立 bannedbyanthropic.com 收集公开案例,要求 Anthropic 建立透明申诉机制。请愿站上线:bannedbyanthropic.com2026 年 4 月 19 日前后,bannedbyanthropic.com 上线。该站包含两个功能:请愿页:呼吁 Anthropic 人工复核封号决定、提供公平申诉流程、恢复合规账号。案例页(/cases):公开记录 Claude 账号封禁、暂停、组织级禁用事件。用户可按公开...
5月9日,DeepSeek 在网页端和手机 App 大范围开放”识图模式”内测,多数测试账号已可使用。该模式基于 DeepSeek-V4 系列,支持图像理解,是 DeepSeek 首次将原生多模态能力开放给终端用户。上线节奏:4月末灰度 → 5月9日大范围开放识图模式于 2026 年 4 月 29 日启动灰度测试,初期仅部分账号可见。5 月 9 日起,多数测试账号已能在对话界面通过新增入口接入,界面仍标注”图片理解功能内测中”。该模式作为独立入口出现,与已有的”快速模式”、”专家模式”并列。用户需手动切换至识图模式方可上传图片,目前未实现文本与图像模态的无缝切换。技术架构:OCR2 + 视觉因...
RunningHub 将 AI 智能体从”对话外挂”变为”画布原生”,用户用自然语言描述需求即可自动生成完整 ComfyUI 工作流,把视频创作从”盲盒抽卡”推向”导演级掌控”。产品形态:Agent 原生嵌入画布,非外挂RHTV(RunningHub TV)于 2026 年 5 月 7 日上线,官方定位为”原生 AI 智能体全能内容创作平台”。核心差异化在于 Agent 直接嵌入无限画布内部——不是独立聊天窗口,不是侧边栏插件,而是画布上的第一公民。用户输入自然语言描述(如”做一条电商产品宣传片,展示白色运动鞋,背景渐变”),Agent 自动完成以下链路:任务拆解:输出创意大纲、分镜脚本、制作...
OpenAI 将 GPT-5 级推理能力引入实时语音 API,上下文窗口从 32K 扩至 128K,并配套推出实时翻译和语音转录两款辅助模型,首次构建完整的语音 Agent 工具链。GPT-5 级推理进入语音交互GPT-Realtime-2 是 OpenAI 首个在语音对话中集成 GPT-5 级别推理能力的模型。与上一代 GPT-Realtime-1.5 相比,核心升级包括:上下文窗口从 32K 扩至 128K tokens,支持在更长语音会话中维持用户约束、偏好和业务逻辑。支持工具调用(function calling),可在对话过程中实时查询日历、搜索系统等外部工具,并支持 MCP 协议。...