2026年05月14日
最后更新:2026-05-14 08:02:56 UTC+8
文章网址: https://www.dailyprincetonian.com/article/2026/05/princeton-news-adpol-proctoring-in-person-examinations-passed-faculty-133-years-precedent 评论网址: https://news.ycombinator.com/item?id=48126848 积分: 205 评论数: 262
文章网址: https://www.theverge.com/tech/929091/meta-ai-threads-account-block 评论网址: https://news.ycombinator.com/item?id=48126981 积分: 74 #评论: 27
文章网址: https://techcrunch.com/2026/05/12/medicares-new-payment-model-is-built-for-ai-and-most-of-the-tech-world-has-no-idea/ 评论网址: https://news.ycombinator.com/item?id=48127815 积分: 33 #评论: 22
在CLAUDE CODE MAX订阅5个月后,我想尝试CODEX。然后我回到我以前的克劳德设计项目,却意识到我再也无法访问它们了。这是第一次。我从未因为取消订阅任何LLM应用程序而失去对过去课程的访问权限。我之前实际上想尝试Codex ,但对我的学分也有类似的经历。他们给了额外的……
文章网址: https://www.intercom.com/blog/today-intercom-becomes-fin/ 评论网址: https://news.ycombinator.com/item?id=48128842 积分: 14 #评论: 8
arXiv: 2605.08368v1公告类型:新 摘要:关于大型语言模型训练后的争论通常将监督微调( SFT )视为模仿和强化学习( RL )作为发现。 但这种区分太粗糙了。 重要的是训练过程是否会增加预训练模型可能已经产生的行为的概率,或者它是否会改变模型的内容。
arXiv: 2605.08360v1公告类型:新 摘要:现代人工智能正在为集体决策打开大门,在这种决策中,参与者以自由形式的文本表达自己的观点,而不是对一组固定的候选人进行投票。 一个自然的想法是将这些观点嵌入到向量空间中,这样就可以将设施位置问题和公平聚类的大量文献带入其中,但标准...
arXiv: 2605.08354v1公告类型:新 摘要:将多模态生成模型与人类偏好对齐,需要尊重人类判断的组成、多维结构的奖励信号。 流行的RLHF方法将这种结构简化为标量或成对标签,将细微的偏好折叠成不透明的参数代理,并暴露漏洞以奖励黑客....
arXiv: 2605.08220v1公告类型:新 摘要:从科学图表中自动提取数据是大规模文献分析的关键任务。 虽然多模态大型语言模型( LLM )显示出前景,但其在非标准化图表上的准确性仍然是一个挑战。 这就提出了一个关键的研究问题:提高模型性能的最有效策略是什么(高层次的
arXiv: 2605.08200v1公告类型:新 摘要:一种普遍的直觉认为,当视觉语言模型( VLM )的注意力地图看起来清晰时,它们是最值得信赖的:集中注意力在被询问的区域应该意味着一个自信、校准的答案。 我们直接测试这个注意力置信度假设。 我们检测了三个开放式VLM系列( LLaVA-1.5、PaliGemma、Qwen2-VL ; 3-7B p...
我训练了一套深度学习(基于变压器)的国际象棋模型,让它们像人类一样下棋(灵感来自MAIA和Grandmaster Chess Without Search )。每个100分评级桶都有一个单独的模型,从约800分到2500分以上。我开始在8xH100集群上从头开始训练一个中等强度的模型,然后在我的本地5090显卡上对其他评级范围的模型进行微调。总的训练规模是……
Van Rooij、Guest、Adolfi、Kolokolova和Rich声称已经证明,在2024年的计算大脑和行为中,通过机器学习进行AGI是不可能的。其基本思想是尝试将已知的NP难问题简化为从数据中学习人类水平分类器的问题。作者称之为“Ingenia定理”的所谓结果在互联网上引起了一些噪音,包括这里。我的论文显示...
在Rust中从头开始构建我自己的SVM分类器。它使用SMO优化,具有线性和rbf内核,使用网格搜索来调整超参数。我在两个数据集上进行了测试,一个使用线性数据集,另一个使用RBF ,结果是:数据集内核准确性召回F1纸币身份验证线性96% 94% 95%乳腺癌RBF 93% 100% 92% https://preview.redd.it/uw26u1uo0w0h1.jpg?wid...
想分享我们关于视觉变压器替代构建模块的最新论文。说明我们的模型的准确性和密集性传统ViT利用密集( N2 )自我注意力,这在更高的分辨率下可能变得非常昂贵。在这项工作中,我们提出了一种具有核心-外围块-稀疏注意力结构的替代骨干网,该骨干网对于C核心代币可扩展为( 2NC + C2 )...
提交者/u/IndicaOatmeal [link] [comments]
提交者/u/werea11madhere [link] [comments]
这非常可怕,只有/u/One-Astronomer6166提交的开头[link] [comments]
Anthropic上周发布了《自然语言自动编码器》,这是一个将克劳德的内部激活翻译成人类可读文本的工具。关键发现:在对SWE BENCH Verified的安全性评估中, Claude认为它正在大约26%的基准交互中进行测试。这从未出现在模型的输出或思维链中。在敲诈情景测试中,
它的作用:代理收集和整理数据,并发送到支持无线网络的收据打印机(无酚纸)凌晨1点, cron触发所有3个孩子的数据生成(每个孩子的独特数据源(如适用) )。Sidecar Web服务将数据呈现为模板,截图,通过抖动将其转换为1位,并将其保存回代理的线程文件系统。按钮按压(每个孩子一个……
Google用”从操作系统到智能系统”的定位变化,把Gemini塞进笔记本的每个交互环节,Chromebook 15年品牌正式让位。全新硬件品类:为Gem Intelligence从头构建2026年5月12日,Google在”The Android Show”线上发布会上公布了全新笔记本品类 Googlebook。官方定位:”built from the ground up for Gemini Intelligence”——从底层围绕Gemini AI构建,而非在现有系统上叠加AI功能。Googlebook基于Android技术栈的部分构建,融合了Android、Google Play商店和...
长亭科技推出内置多模型的 AI 编程平台 MonkeyCode,无需本地安装,浏览器内即可完成代码编写、执行、审查全流程。长亭科技(Chaitin)于 2025 年 12 月底上线 MonkeyCode,定位为”工程级 AI 开发平台”。与 Claude Code、Cursor 等本地 CLI 或 IDE 插件不同,MonkeyCode 把完整的开发环境搬到浏览器里——无需安装,无需连接本地机器,打开网页就能让 AI 写代码、跑命令、做审查。平台开源在 GitHub(chaitin/MonkeyCode),采用 AGPL-3.0 协议,注册即送 200 元免费算力。产品形态:云端开发环境 + ...
Anthropic 为 Claude Code 推出 Agent View(研究预览)和 /goal 命令,一次解决多会话管理与目标驱动工作流两个高频需求,同时修复 30 余项覆盖认证、MCP、UI 渲染的缺陷。Agent View:统一会话列表(研究预览)新增 claude agents 命令,在一个列表中展示所有 Claude Code 会话——运行中、等待用户输入、已完成。这是此前社区反馈最密集的功能之一:开发者经常同时运行多个 agent(前台编码 + 后台调研 + 子 agent 任务),但缺乏全局视图。该功能标记为”研究预览”,意味着接口和行为可能继续调整。文档同步上线:https...
Claude Code 原生内置多任务管理面板,开发者无需再开多个终端或依赖 tmux 来并行调度 AI 编码会话。核心功能:一个列表掌控所有会话Agent View 是 Claude Code 的原生终端面板,以表格形式列出所有后台会话。运行 claude agents 即可打开,按状态分组排列:状态含义动画闪烁 (✽)正在工作,Claude 正在执行工具或生成回复黄色 (✻)需要输入,等待用户回答或权限确认灰色变暗 (∙)空闲,不阻塞具体问题绿色任务完成红色出错终止灰色用户手动停止需要输入和工作中的会话置顶,已完成的老会话自动折叠为”… N more”。打开 PR 的会话和失败会话始终可见...
中国移动以运营商身份切入大模型聚合赛道,用统一网关和Token集约化运营把政企客户的模型采购流程标准化,主战场不是开发者而是政企采购。平台定位:政企模型采购的”中间层”2026年5月8日,中国移动在苏州举行的移动云大会主论坛上发布移动模型服务平台 MoMA(Mobile Model Service Platform)。平台接入超300款AI大模型,包括中国移动自研的”九天”基座大模型,以及 DeepSeek、通义千问、豆包、Kimi、GLM 等第三方模型。统一 API 网关是核心入口——企业一次接入即可调用平台全部模型资源,无需与各模型厂商单独签约。这是 MoMA 对政企客户的核心卖点:把多头...
字节跳动 Seed 团队开源 UI-TARS-2,通过端到端多轮强化学习训练 GUI 智能体。Online-Mind2Web 得分 88.2,全面超越 Claude、OpenAI CUA 等基线模型,GitHub 31.8k star。UI-TARS-2:多轮强化学习训练 GUI 智能体2025 年 9 月,字节跳动 Seed 团队发布 UI-TARS-2 技术报告(arXiv:2509.02544)。与前代通过监督学习(SFT)+ DPO 的路径不同,UI-TARS-2 采用端到端的多轮强化学习(multi-turn RL)直接训练智能体。训练管线包含四个组件:数据飞轮(data flywh...
Anthropic 的 Claude Code 团队成员 Thariq Shihipar 公开发布 20 个自包含 HTML 示例,论证 AI Agent 输出 HTML 比 Markdown 更有效。Simon Willison 随即撰文跟进实测。格式之争的底层逻辑:从”人写”到”Agent 生成”的交付范式转移。2026 年 5 月 8 日前后,Claude Code 团队成员 Thariq Shihipar(X: @trq212)发布推文:”HTML is the new markdown. I’ve stopped writing markdown files for almost e...
Anthropic 在 Claude Code 终端内置 /radio 命令,一键调出 Claude FM lo-fi 编程电台,将 Lofi Girl 式的专注背景音直接嵌入 AI 编程工作流。/radio 命令:Claude Code 终端内的电台开关Claude Code 的官方命令文档中注册了 /radio:在浏览器中打开 Claude FM lo-fi 电台无图形界面的服务器环境下,直接在终端打印流媒体 URL,供外部播放器接入不适用于 Bedrock、Vertex 或 Foundry 部署版本,仅限 Anthropic 直连或付费订阅命令本身没有任何参数。输入 /radio,浏览器...
Anthropic 2026 年持续收紧账号审核,多家企业和个人开发者在无预警、无明确理由的情况下被封禁,申诉渠道仅靠 Google Form 响应。用户自发建立 bannedbyanthropic.com 收集公开案例,要求 Anthropic 建立透明申诉机制。请愿站上线:bannedbyanthropic.com2026 年 4 月 19 日前后,bannedbyanthropic.com 上线。该站包含两个功能:请愿页:呼吁 Anthropic 人工复核封号决定、提供公平申诉流程、恢复合规账号。案例页(/cases):公开记录 Claude 账号封禁、暂停、组织级禁用事件。用户可按公开...
5月9日,DeepSeek 在网页端和手机 App 大范围开放”识图模式”内测,多数测试账号已可使用。该模式基于 DeepSeek-V4 系列,支持图像理解,是 DeepSeek 首次将原生多模态能力开放给终端用户。上线节奏:4月末灰度 → 5月9日大范围开放识图模式于 2026 年 4 月 29 日启动灰度测试,初期仅部分账号可见。5 月 9 日起,多数测试账号已能在对话界面通过新增入口接入,界面仍标注”图片理解功能内测中”。该模式作为独立入口出现,与已有的”快速模式”、”专家模式”并列。用户需手动切换至识图模式方可上传图片,目前未实现文本与图像模态的无缝切换。技术架构:OCR2 + 视觉因...