📰 每日 AI 资讯

2026年07月02日

最后更新:2026-07-02 08:07:31 UTC+8

🔹 Hacker News

削掉旧块

文章网址:https://www.astralcodexten.com/p/chip-off-the-old-block 评论网址:https://news.ycombinator.com/item?id=48753524 积分:26 # 评论: 1

📅 Wed, 01 Jul 2026 🔗 原文链接

ZCode – GLM-5.2 线束

文章网址:https://zcode.z.ai/en 评论网址:https://news.ycombinator.com/item?id=48753715 积分:134 # 评论: 186

📅 Wed, 01 Jul 2026 🔗 原文链接

开放“零知识证明”技术,促进年龄保障中的隐私

文章网址:https://blog.google/innovation-and-ai/technology/safety-security/opening-up-zero-knowledge-proof-technology-to-promote-privacy-in-age-assurance/ 评论网址:https://news.ycombinator.com/item?id=48753979 积分:16 # 评论: 7

📅 Wed, 01 Jul 2026 🔗 原文链接

卑鄙的C大赛

文章网址:https://underhanded-c.org/ 评论网址:https://news.ycombinator.com/item?id=48754080 积分:19 # 评论: 2

📅 Wed, 01 Jul 2026 🔗 原文链接

健康但久坐的人细胞能量产生早期下降

文章网址:https://news.cuanschutz.edu/news-stories/healthy-but-sedentary-individuals-show-early-decline-in-cellular-energy-Production 评论网址:https://news.ycombinator.com/item?id=48754155 积分:28 # 评论: 13

📅 Wed, 01 Jul 2026 🔗 原文链接

🔹 arXiv 人工智能

学会停止什么时候有帮助?推理模型中早期退出的成本意识研究

arXiv:2606.30852v1 公告类型:新 摘要:推理模型在实例之间花费不同数量的有用计算,但尚不清楚学习的停止规则何时优于简单的置信度或收敛阈值。我们使用 LearnStop 研究这个问题,LearnStop 是一种用于推理语言模型的无隐藏状态检查点停止器。在固定预算检查点,LearnStop 探索了一个...

📅 Wed, 01 Jul 2026 🔗 原文链接

BayesBench:评估多轮证据积累下的 LLM 信念轨迹

arXiv:2606.30850v1 公告类型:新 摘要:大型语言模型(LLM)通常部署在多轮对话中,其中每个轮次都提供新的证据,可以减少环境的认知不确定性。理性行动需要推断控制它的未观察到的数量,并随着证据的积累更新关于它们的信念。然而大多数评价只是...

📅 Wed, 01 Jul 2026 🔗 原文链接

AI 如何找到我的模型?考虑数据格式、嵌入和检索策略的模型寻找实验研究

arXiv:2606.30846v1 公告类型:新 摘要:发现可重用的仿真模型仍然是建模与仿真 (M&S) 领域的一个基本挑战。当许多模型共存时,识别那些符合给定建模意图的模型仍然很困难。人工智能(AI)的最新进展,特别是基于检索的方法,为这种语义操作提供了一条有前途的途径......

📅 Wed, 01 Jul 2026 🔗 原文链接

迭代提示优化的对比反思

arXiv:2606.30840v1 公告类型:新 摘要:LLM 代理人正在成为信息检索的核心:他们发出检索查询、综合答案,并越来越多地充当 IR 评估的法官。改进控制这些代理的提示是一个优化问题,但在应用的 IR 设置中,它通常看起来不像盲目搜索,而更像调试。工程师需要知道什么...

📅 Wed, 01 Jul 2026 🔗 原文链接

是什么推动了反馈的互动改进?

arXiv:2606.30774v1 公告类型:新 摘要:我们研究自然语言反馈何时产生超越仅通过重复尝试获得的收益的改进。在多轮语言代理设置中,更高的最终精度可以反映有用的反馈,但它也可能来自重采样、格式校正或额外的测试时间计算。为了分离这些影响,我们引入了一个控制...

📅 Wed, 01 Jul 2026 🔗 原文链接

🔹 Reddit 机器学习

PyMuPDF 新版本,支持 Markdown [N]

https://pymupdf.io/blog/markdown-in-pymupdf-1-28 PyMuPDF 1.28 版本,引入 Markdown 作为 PyMuPDF 中的一流文档。似乎对各种工作流程都很有用。您可以使用 /u/Remote-Spirit526 提交的 CSS 从 Markdown 文本创建 PDF,并控制外观 [链接] [评论]

📅 2026-07-01 21:15 🔗 原文链接

ACL ARR 2026 年 5 月[D]

大家好。 ACL arr May 2026 评论是在 7 月 2 日发布还是在 7 月 7 日发布? 进入主要或调查结果需要多少钱? 我对此有点陌生。非常感谢大家。 由 /u/Ans human3480 提交 [链接] [评论]

📅 2026-07-01 18:48 🔗 原文链接

P Moth-Retrieval:通过查询时间编排进行无图多跳检索(在 HotpotQA 上击败基于图的系统)[P]

我们刚刚开源了 MOTHRAG,这是一个完全跳过知识图谱的多跳 RAG 框架。我们在构建多跳 RAG 时一直遇到同样的问题:最准确的系统(GraphRAG、HippoRAG、RAPTOR)都依赖于离线构建的知识图,这是一个巨大的数字,直到您的数据发生变化!每一次更新都意味着重新运行繁重的 LLM 索引过程来重建...

📅 2026-07-01 15:26 🔗 原文链接

[D] 简单问题主题

请在此处发布您的问题,而不是创建新线程。鼓励其他为问题创建新帖子的人在此处发帖!该主题将一直保持活动状态,直到下一个主题,因此请在标题中的日期之后继续发布。感谢大家在上一个话题中回答问题! 由 /u/AutoModerator 提交 [链接] [评论]

📅 2026-07-01 15:00 🔗 原文链接

2026 年 7 月 1 日,arXiv 将从过去 25 年的所在地康奈尔大学分拆出来,成为一家独立的非营利组织。来自西蒙斯基金会和施密特的主要资金支持......

arXiv 的下一章:康奈尔大学分拆更新:https://blog.arxiv.org/2026/06/30/arxivs-next-chapter/ 由 /u/Nunki08 提交 [链接] [评论]

📅 2026-07-01 12:07 🔗 原文链接

🔹 51AllAI

Claude Code 被指检测中国用户,后门说法仍缺代码证据

Claude Code“隐藏后门检测中国用户”的说法正在传播,但目前能确认的是访问地区限制、身份验证和源码泄露背景。把地理风控直接等同于后门,证据不够;对中国开发者更现实的风险,是代理和中转服务泄露账号、密钥和提示词。可以确认的是访问限制,不是后门Claude Code 不是一个完全离线的本地二进制。它可以读取代码库、编辑文件、运行命令,但核心能力仍依赖账号、订阅、API 或第三方模型通道。官方安装文档把所在地列为前置要求:用户需要位于支持国家或地区。公开的支持地区列表覆盖 API 和 Claude.ai,两张列表里都没有中国大陆、香港和澳门。这已经足够解释一部分社区现象:同样的客户端,在不同...

📅 2026-07-01 03:51 🔗 原文链接

Anthropic发布Claude Sonnet 5,标准API价格低于Opus 4.8四成

Anthropic 在 2026 年 6 月 30 日发布 Claude Sonnet 5。它的标准 API 价格是每百万输入 3 美元、输出 15 美元,比 Opus 4.8 低 40%;到 8 月 31 日还有每百万输入 2 美元、输出 10 美元的限时价。能力叙事集中在编码、浏览器使用和长链路 Agent,独立复现仍要等真实项目数据。价格:标准价比 Opus 4.8 低 40%Claude Sonnet 5 的 API ID 是 claude-sonnet-5,定位不是旗舰线替代品,而是把更多 Agent 能力放进 Sonnet 价格带。标准价格维持 Sonnet 4.6 水平:每百万输...

📅 2026-07-01 03:37 🔗 原文链接

Google 推出 Gemini Omni Flash,视频生成接入多模态输入

Gemini Omni Flash 的重点不是“又一个视频模型”,而是把文本、图片、视频和音频都纳入同一条生成链路。它先在 Flow、Gemini 和 YouTube Shorts 等产品内落地,API 与第三方长测还没有形成稳定结论。Omni 从视频开始Gemini Omni 是 Google 新开出的生成模型系列,第一款模型叫 Gemini Omni Flash。这个名字容易误读:它不是 Gemini Flash 文本模型的普通小版本更新,而是一个面向生成媒体的 Omni 分支,首个落点是视频。它能把文本、图片、视频、音频作为引用输入,生成一段带画面和声音的视频,或者在已有视频上做多轮编辑...

📅 2026-07-01 02:10 🔗 原文链接

Google发布Nano Banana 2 Lite,1K图像生成定价 0.0336 美元

Nano Banana 2 Lite 已在 Gemini API GA,模型 ID 为 gemini-3.1-flash-lite-image。它只支持 1K 输出,标准调用每张约 0.0336 美元,Batch 约 0.0168 美元,定位不是画质旗舰,而是高频交互和低成本编辑。Lite 把重点放在吞吐和价格Nano Banana 2 Lite 的稳定模型 ID 是 gemini-3.1-flash-lite-image,另有 gemini-3.1-flash-lite-image-preview-06-30 预览别名。它已进入 GA,Gemini API 的生产环境可以直接调用稳定 ID。...

📅 2026-07-01 01:58 🔗 原文链接

DeepSeek V4 正式版计划 7 月中旬上线,API 计费或引入高峰价

DeepSeek V4 正式版被列入 7 月中旬上线窗口,API 计费可能从单一价格切到峰谷价。Pro 版输出在平时为 6 元/百万 tokens,高峰时段为 12 元;Flash 输出从 2 元升到 4 元。公开页面尚未同步这组调整,现阶段只能按 API 用户通知处理。正式版时间窗口落在 7 月中旬DeepSeek V4 预览版已经跑了两个多月。新的 API 用户通知给出下一步安排:V4 正式版计划在 2026 年 7 月中旬上线,更新方向包括功能优化和性能提升,但没有给出新的 benchmark、上下文窗口变化或模型架构细节。这类信息不能写成完整发布。更准确的判断是:DeepSeek 已经...

📅 2026-06-30 01:20 🔗 原文链接

DeepSeek发布DSpark,为V4加入推测解码加速

DeepSeek 把 DSpark 放到了 DeepSeek-V4 的发布链路里:它面向 Pro 和 Flash 两个检查点,核心目标是用推测解码压低生成延迟。这不是新基座模型发布,更接近一次推理系统侧的加速更新。DSpark改的是解码,不是模型定位DSpark 的位置需要先说清楚:它不是 DeepSeek-V4 之外的新一代大模型,而是给 DeepSeek-V4 Pro 和 DeepSeek-V4 Flash 配套的推测解码模块。推测解码的基本思路很直接。先让一个更轻的草稿模块连续猜出若干 token,再由主模型批量校验。猜对的 token 可以一次性通过,猜错就回退到主模型正常生成。理想情...

📅 2026-06-28 08:18 🔗 原文链接

豆包推出专业版,办公任务进入付费额度体系

豆包专业版不只是把聊天助手加上会员入口。付费协议已经把会员、云存储和体系内产品消耗写进同一套规则,办公任务模式更像是把 PPT、文档、数据分析等高算力任务统一纳入额度管理。专业版从灰度测试走向正式付费豆包 iOS 端当前版本为 13.9.0,更新时间是 2026 年 6 月 23 日。App Store 页面已经把付费订阅写进产品描述:基础版免费,标准版连续包月 68 元、连续包年 688 元;加强版连续包月 200 元、连续包年 2048 元;专业版连续包月 500 元、连续包年 5088 元。这和 5 月初的灰度测试相比,变化不在价格,而在产品边界更清楚。豆包付费服务协议在 2026 年 ...

📅 2026-06-24 04:09 🔗 原文链接

字节跳动发布 Seed2.1,强化 Agent、Coding 与多模态生产力

字节跳动发布 Seed2.1 系列,已接入豆包、TRAE 和火山方舟。新版本把重点从静态榜单转向真实工作流:通用 Agent、Coding Agent、多模态理解和模型研发自动化。现阶段关键 benchmark 仍主要来自发布材料,需要等独立评测复现。Seed2.1 已进入豆包、TRAE 和火山方舟字节跳动 Seed 团队发布 Seed2.1 系列模型,定位是面向真实生产力场景的智能体模型。可用渠道已经明确:豆包产品、TRAE Work、TRAE IDE,以及火山方舟体验中心和 API。模型选择里出现的是 Doubao-Seed-2.1-Pro 和 Doubao-Seed-2.1-Turbo。...

📅 2026-06-23 12:41 🔗 原文链接

Codex 推出 Record & Replay,把本地操作录成可复用技能

Codex 的 Record & Replay 不是简单录屏回放,而是把一次本地工作流示范转成可复用 skill。它适合稳定、重复、偏个人偏好的 macOS 操作;当前可用性受地区、Computer Use 开关和组织策略限制。录一次操作,产物是 skillRecord & Replay 的核心产物不是视频,也不是按坐标重放的宏脚本,而是一份 Codex skill。用户先在 Mac 上示范一个已经知道怎么完成的流程。Codex 观察完成任务所需的操作和窗口内容,录制停止后再把这段流程整理成 skill:什么时候触发、需要哪些输入、按什么步骤执行、最后怎么验证结果。这和普通提示词的差别在于,s...

📅 2026-06-19 14:03 🔗 原文链接

OpenAI 放开 Codex 模型供应商,本地工作流可接第三方模型

OpenAI Codex 的模型供应商边界变了:本地工作流可以指向支持 Responses 或 Chat Completions 的模型与供应商。真正需要看清的是限制条件:Chat Completions 兼容已进入弃用路径,云端任务暂时不能改默认模型。Codex 不再只绑定默认 OpenAI 路径Codex 现在把模型选择拆成两层:model 决定调用哪个模型,model_provider 决定请求发往哪个供应商。默认仍是 OpenAI,但本地配置里可以新增供应商,写入 base URL、认证环境变量、请求头,以及线缆协议。这对开发者的实际影响很直接。过去 Codex 更像一个围绕 Open...

📅 2026-06-18 01:54 🔗 原文链接