🤖 AI 每日资讯 LLM 翻译

全球 AI 技术动态 · 每日更新 · 智能翻译

📅 2026 年 04 月 15 日 Wednesday
📱 Reddit ML: 10 📱 Reddit AI: 10 💻 GitHub: 5 📚 arXiv: 10 💬 HN: 2 🤗 HF: 0 总计:37 条

📱 Reddit r/MachineLearning

10 条
1. 通过使用与模型无关的控制层来减少大语言模型的幻觉 [R]
Reducing LLM hallucination by using a model-agnostic control layer [R]
Reddit by /u/99TimesAround 🕐 2026-04-15
2. 您可以将模型分解为图数据库 [N]
You can decompose models into a graph database [N]
Reddit by /u/Educational_Win_2982 🕐 2026-04-14
3. 爪台:AI代理能完成日常在线任务吗?153项任务,144个实时网站,最佳模型准确率为33.3% [R]
ClawBench: Can AI Agents Complete Everyday Online Tasks? 153 tasks, 144 live websites, best model at 33.3% [R]
Reddit by /u/Extreme_Play_8554 🕐 2026-04-14
4. ICML 的 AC 指导是什么?(或者:ICML QQ 群)[D]
What is the AC guidance for ICML? (Or: ICML qq thread) [D]
Reddit by /u/WhiteBear2018 🕐 2026-04-14
5. 我们将TranslateGemma与其他5个大语言模型在6种语言的字幕翻译任务上进行了基准测试。从表面上看,数据讲述了一个清晰的故事,但随后人工质量检查又添加了新的章节。[D]
We benchmarked TranslateGemma against 5 other LLMs on subtitle translation across 6 languages. At first glance the numbers told a clean story, but then human QA added a chapter. [D]
Reddit by /u/ritis88 🕐 2026-04-14
6. “我不知道!”:使用 HALO 损失让神经网络学会避免猜测。[R]
"I don't know!": Teaching neural networks to abstain with the HALO-Loss. [R]
Reddit by /u/4rtemi5 🕐 2026-04-14
7. 我从头开始将一个纯脉冲神经网络(SNN)扩展到了108.8亿个参数。预算用完了,但这是我找到的结果 [R]
I scaled a pure Spiking Neural Network (SNN) to 1.088B parameters from scratch. Ran out of budget, but here is what I found [R]
Reddit by /u/zemondza 🕐 2026-04-13
8. [N] AMA 通告:Max Welling(变分自编码器、图神经网络、AI for Science 与 CuspAI)
[N] AMA Announcement: Max Welling (VAEs, GNNs, AI4Science & CuspAI)
Reddit by /u/Benlus 🕐 2026-04-13
9. [D] 自我推广主题
[D] Self-Promotion Thread
Reddit by /u/AutoModerator 🕐 2026-04-02
10. [D] 每月谁在招聘,谁想被雇佣?
[D] Monthly Who's Hiring and Who wants to be Hired?
Reddit by /u/AutoModerator 🕐 2026-03-31

📱 Reddit r/artificial

10 条
Reddit by /u/happymagtv 🕐 2026-04-15
Reddit by /u/Upbeat_Reporter8244 🕐 2026-04-14
3. LLM Guard 在检测 Crescendo 多轮攻击时得分为 0/8。Arc Sentry 在第三轮将其标记出来。
LLM Guard scored 0/8 detecting a Crescendo multi-turn attack. Arc Sentry flagged it at Turn 3.
Reddit by /u/Turbulent-Tap6723 🕐 2026-04-14
4. 工人让人工智能接管他们的工作
The Workers Letting A.I. Do Their Jobs
Reddit by /u/stvlsn 🕐 2026-04-14
5. 一种新的人工智能工具可能改变我们诊断遗传病的方式
A New AI Tool Could Transform How We Diagnose Genetic Diseases
Reddit by /u/timemagazine 🕐 2026-04-14
6. 美国国税局希望进行更智能的审计,帕拉图可能有助于决定谁会被标记。
The IRS Wants Smarter Audits. Palantir Could Help Decide Who Gets Flagged
Reddit by /u/esporx 🕐 2026-04-14
7. Claude 代码退化:一个有趣且新颖的发现
Claude Code Degradation: An interesting and novel find
Reddit by /u/rivarja82 🕐 2026-04-14
8. “对隐私的严重威胁” 75个组织警告Meta,反对其在智能眼镜中计划实施的人脸识别功能
"A serious threat to privacy" Meta issued warning by 75 orgs over planned facial recognition in smart glasses
Reddit by /u/Tiny-Independent273 🕐 2026-04-14
9. 为什么大语言模型不会在对话中跟踪时间?
Why don't LLMs track time in their conversations?
Reddit by /u/PolyViews 🕐 2026-04-14
10. Claude 和 ChatGPT 走的是同一条道路。我做过测试。
Claude is on the same path as ChatGPT. I measured it.
Reddit by /u/TheArchitectAutopsy 🕐 2026-04-13

💻 GitHub Trending AI

5 个
State-of-the-art ML for PyTorch, TensorFlow, JAX
GitHub ⭐ 120k+
Building applications with LLMs through composability
GitHub ⭐ 85k+
Data framework for LLM applications
GitHub ⭐ 30k+
Enabling Next-Gen LLM Applications via Multi-Agent Conversation
GitHub ⭐ 28k+
High-throughput LLM serving
GitHub ⭐ 25k+

📚 arXiv CS.AI

10 篇
基于深度学习的医学图像分割通常依赖于通过人工标注获得的真值(GT)标签,但这些标签可能容易出现随机错误或系统性偏差。本研究考察了深度学习模型在超声心动图(echo)分割中对这些错误的鲁棒性,并评估了一种在模型训练过程中检测和修复错误标签的新策略。我们使用CAMUS数据集模拟了三种错误类型,然后将基于损失的GT标签错误检测方法与基于梯度方差(VOG)的方法进行比较。我们还提出了一种伪标注方法来修复疑似错误的GT标签。我们在不同错误水平下评估了我们所提出方法的性能。结果表明,在训练过程中,VOG在标记错误的GT标签方面非常有效。然而,标准的U-Net在随机标签错误和中等程度的系统性错误(最高达50%)情况下仍保持了良好的性能。检测和修复方法在高错误条件下显著提高了性能。
arXiv 👥 Iman Islam, Bram Ruijsink, Andrew J. Reader et al.
我们研究了随机特征模型,在这些模型中,从给定的初始化集合中采样的神经网络被冻结,并用作随机特征,只有读出权重被优化。采用统计物理的观点,我们研究了超越均值核近似的训练、测试和泛化误差。由于预测器是所产生随机核的非线性函数,系综平均误差不仅依赖于均值核,还依赖于高阶波动统计量。在有效场论框架内,这些有限宽度贡献自然地作为环状修正出现。我们推导了训练、测试和泛化误差的环状修正,得到了它们的标度定律,并通过实验验证支持该理论。
arXiv 👥 Taeyoung Kim
大型语言模型(LLMs)在大规模网络语料库上进行预训练时,本质上会吸收有害知识、错误信息和个人数据,且没有原生的针对性删除机制。虽然机器遗忘提供了一种合理解决方案,但现有方法以提供商为中心,需要重新训练流程、精心挑选的保留数据集以及模型服务提供商(MSPs)的直接干预,从而将终端用户排除在控制自身数据之外。我们引入了交互式机器遗忘(IMU),这是一种新范式,使用户可以在推理时通过自然语言指令让LLMs忘记特定知识。为了实现IMU,我们提出了RePAIR,这是一个提示感知的模型修复框架,包括(i)一个用于检测遗忘意图的看门人模型,(ii)一个生成修复程序的外科医生模型,以及(iii)一个自主更新参数的患者模型。在RePAIR的核心部分,我们开发了通过伪逆激活操作进行引导(STAMP),一种无需训练、单样本的遗忘方法,它通过闭式伪逆更新将MLP激活引导至拒绝子空间。其低秩变体将计算复杂度从O(d^3)降低到O(r^3 + r^2 * d),使得设备端的高效遗忘成为可能,比基于训练的基线提高了约3倍的速度。在有害知识抑制、错误信息纠正和私人数据擦除方面的广泛实验表明,RePAIR实现了接近零的遗忘分数(Acc_f = 0.00,F-RL = 0.00),同时保持了模型效用(Acc_r高达84.47,R-RL高达0.88),优于六种最先进的基线方法。这些结果确立了RePAIR作为用户驱动模型编辑的有效且实用的框架,推动了对所学知识的透明和设备端控制,并有望扩展到多模态基础模型。
arXiv 👥 Jagadeesh Rachapudi, Pranav Singh, Ritali Vatsi et al.
现有的多模态大语言模型(MLLMs)在处理长文档理解任务时,随着文档长度的增加,性能会显著下降。这源于两个基本挑战:1)信号与噪声比(SNR)低,关键证据被埋藏在无关页面中;2)监督信息稀缺,因为数据集仅提供最终的简短答案,提供的学习信号较弱。在本文中,我们通过提出一种要求模型执行结构化的“\textbf{分析}、\textbf{定位}和\textbf{推理}”工作流程的新范式来解决这些挑战。为了培养这种能力,我们设计了一个两阶段的训练框架:首先,我们在通过高效知识蒸馏策略生成的高质量数据上进行监督微调。随后,我们采用了一种基于证据的组相对策略优化方法,同时优化证据定位和答案准确性。此外,我们引入了一种基于证据引导的分辨率分配策略,以缓解多页文档训练中的内存限制。大量实验表明,DocSeeker在领域内和领域外任务中均表现出优越的性能。我们展示了它能够从短页训练稳健地泛化到超长文档,并且自然地与视觉检索增强生成系统协同工作,为其实施提供了坚实的基础。
arXiv 👥 Hao Yan, Yuliang Liu, Xingchen Liu et al.
通过高阶相互作用,密集关联记忆(Dense Associative Memory, DAM)推广了霍普菲尔德网络,并在适当的模式分离条件下实现了存储容量随$O(N^{n-1})$变化。现有的动态分析主要研究当$N\to\infty$时的热力学极限,使用随机采样的模式,因此无法提供有限大小的保证或明确的收敛速率。 我们开发了一种DAM检索动态的算法分析,在明确且可验证的模式条件下,提供了有限$N$的保证。在分离假设和高负载下的有界干扰条件下,我们证明了异步检索动态的几何收敛性,这意味着一旦轨迹进入吸引子区域,其收敛时间为$O(\log N)$。我们进一步建立了通过显式边界条件表达的对抗鲁棒性边界,该边界量化了每轮扫描中可容忍的损坏位数,并推导出在最坏情况下按$Θ(N^{n-1})$扩展的容量保证,同时恢复了随机模式集合的经典$Θ(N^{n-1})$扩展。最后,我们表明DAM检索动态可以解释为一种势博弈,这确保了在异步更新下收敛到纯纳什均衡。 完整的证明附在附录中,同时还包括初步实验,用于说明预测的收敛性、鲁棒性和容量扩展行为。
arXiv 👥 Madhava Gaikwad
卫星图像修复旨在通过补偿成像系统和采集条件引入的退化(例如噪声和模糊)来提高图像质量。作为一项基础的预处理步骤,修复直接影响地面产品生成和新兴的机载AI应用。基于顺序物理模型的传统修复流程计算量大且速度慢,不适合在机载环境中使用。在本文中,我们介绍了ConvBEERS:一种用于太空的卷积板准备就绪的嵌入式高效修复模型,以研究在模拟卫星数据上训练的轻量级非生成性残差卷积网络是否可以在多种运行条件下达到或超越传统地面处理修复流程。 在模拟数据集和真实Pleiades-HR影像上的实验表明,所提出的方法实现了具有竞争力的图像质量,PSNR提升了+6.9dB。在下游目标检测任务上的评估表明,修复显著提高了性能,mAP@50最高提升了+5.1%。此外,在Xilinx Versal VCK190 FPGA上的成功部署验证了其在卫星机载处理中的实际可行性,与传统流程相比,延迟减少了约41倍。这些结果证明了在应对空间系统中的现实约束的同时,使用轻量级CNN实现具有竞争力的修复质量的相关性。
arXiv 👥 Adrien Dorise, Marjorie Bellizzi, Omar Hlimi
在线广告中自动化出价策略的兴起,为设计和分析高效的拍卖机制带来了新的挑战。在本文中,我们关注自动出价背景下的比例机制,并研究在液体福利目标下纯纳什均衡的效率,特别是无政府状态价格(PoA)。我们首先建立了标准比例机制的紧致PoA界为2。接下来,我们引入了一种具有替代支付方案的改进版本,其PoA界为$1 + \frac{O(1)}{n-1}$,其中$n \geq 2$表示出价代理的数量。这一改进突破了现有的PoA障碍2,并且随着代理数量的增加,逐渐接近完全效率。我们的方法利用了线性和凸优化中的对偶性和Karush-Kuhn-Tucker(KKT)条件。尽管概念上简单,但我们的方法证明是强大的,可能为建立PoA界限提供更广泛的应用。
arXiv 👥 Nguyen Kim Thang
通过流式传输分数块(score tiles)通过片上内存并保持运行最大值和归一化因子,FlashAttention风格的在线softmax能够以线性内存实现精确注意力计算。然而,随着注意力内核在现代加速器上接近张量核心/立方体核心的峰值吞吐量,非矩阵乘法(non-matmul)组件的在线softmax——特别是每个块的行最大值(rowmax)和行求和(rowsum)归约以及重新缩放链——可能成为向量或SIMD受限,并主导延迟。本文重新审视了FlashAttention,并提出了向量缓解的Flash Attention(VFA),这是一种硬件友好的方法,在保留在线softmax结构的同时减少了由行最大值驱动的更新。VFA通过从键块表示中进行廉价近似来初始化运行最大值,重新排序键块遍历以优先处理高影响的sink块和局部块,并冻结剩余块的最大值以避免重复的归约和重新缩放。我们进一步将VFA与块稀疏跳过方法(如BLASST)结合,形成向量缓解的稀疏注意力(VSA),从而减少块数量和每块的开销。值得注意的是,VFA和VSA完全避免了FA4.0中更新阶段使用的条件重新缩放操作。在包括MMLU和MATH500在内的基准测试以及注意力统计方面的广泛评估验证了我们的设计:(i) sink和local重排使运行最大值早期稳定;(ii) 简单的Q和K块摘要由于块内异质性而失败;(iii) 当最大值出现在中间块时需要m初始化。总体而言,VFA和VSA在不损失性能的情况下有效缓解了在线softmax归约瓶颈。与C16V32基线相比,C8V32、C4V32和C4V16在现代硬件上实现了近两倍的速度提升,同时遇到了向量瓶颈。随着即将到来的架构改进,C4V16将通过增强指数容量实现六倍速度提升。
arXiv 👥 Yupeng Sun, Yanzhao Li, Zhiqiang Zou et al.
虽然4位量化对于大型语言模型的高吞吐量部署至关重要,但由于低比特格式的动态范围受限,激活值异常值通常会导致显著的精度下降。在本文中,我们系统地研究了异常值的空间分布,并展示了令牌持久性的结构聚类效应,其中高幅度的异常值在所有令牌中始终占据固定的通道。基于这一洞察,我们提出了OSC,这是一种高效利用硬件的异常值抑制框架。在推理过程中,OSC执行一个双路径计算,包括一个低精度的4位通用矩阵乘法(GEMM)路径和一个高精度的16位分支GEMM路径。具体来说,OSC使用离线分组策略来识别异常值所在的通道,然后进行结构化子张量提取,将这些分散的激活通道在线合并成一个紧凑的密集张量。这种机制通过正则化和高吞吐量的GEMM操作实现异常值保护,与现代4位微缩硬件无缝兼容。此外,对于W2中异常值聚类不明显的输入,我们集成了回退策略到FP8。在Qwen3-8B和Qwen3-30B上的评估分别将平均精度下降限制在2.19和1.12个点。值得注意的是,OSC非常符合硬件特性,在现代AI加速器上相对于W8A8 GEMM基线实现了1.78倍的峰值加速。
arXiv 👥 Zhiyuan Zhang, Yanzhao Li, Zhiqiang Zou et al.
视觉Transformer(ViT)模型在各种视觉任务中取得了显著的性能,当应用于大规模数据集时,其可扩展性是一个关键优势。这种可扩展性使ViT模型表现出强大的泛化能力。然而,随着参数数量的增加,ViT模型对对抗样本的鲁棒性并没有按比例提升。对抗训练(AT)是增强鲁棒性的最有效方法之一,通常需要对整个模型进行微调,导致计算成本极高,尤其是对于大型ViT架构而言。在本文中,我们旨在仅对一小部分参数进行鲁棒性微调,以实现与标准AT相当的鲁棒性。为此,我们引入了一种名为CAAT(关键性感知对抗训练)的新方法,该方法能够自适应地将资源分配给最关键影响鲁棒性的参数,并仅微调选定的模块。具体来说,CAAT高效地识别出对对抗鲁棒性贡献最大的参数。然后,它利用参数高效的微调(PEFT)来稳健地调整权重矩阵,当关键参数的数量超过预定义阈值时。当扩展到更大的视觉Transformer架构时,CAAT展现出良好的泛化能力,可能为大规模对抗训练铺平道路。例如,与普通的对抗训练相比,CAAT在调整其约6%的参数时,仅导致4.3%的对抗鲁棒性下降。在三个广泛使用的对抗学习数据集上的大量实验表明,CAAT在使用更少可训练参数的情况下,优于最先进的轻量级AT方法。
arXiv 👥 Wenyun Li, Zheng Zhang, Dongmei Jiang et al.

💬 Hacker News

2 条

🤗 Hugging Face

0 篇
暂无数据