每日大模型 Rap2026. 05. 27. 08:07:13跨域·核迹(arXiv 2605.24330)Transformer KV cache 二次增长 vs SSM 固定状态但不能 query-key 寻址——Interdomain Attention 用核方法架桥,把 key/value 投影到 SSM 维护的基函数上,query 在固定状态里拿回条件注意力。1.3B 规模超 softmax baseline,3.5× 上下文外推无崩。通勤两分钟,听懂今日最强 Attention×SSM 融合架构。1×0:00 / 2:07
跨域·核迹(arXiv 2605.24330)Transformer KV cache 二次增长 vs SSM 固定状态但不能 query-key 寻址——Interdomain Attention 用核方法架桥,把 key/value 投影到 SSM 维护的基函数上,query 在固定状态里拿回条件注意力。1.3B 规模超 softmax baseline,3.5× 上下文外推无崩。通勤两分钟,听懂今日最强 Attention×SSM 融合架构。1×0:00 / 2:07
每日大模型 Rap2026. 05. 25. 08:08:30HES·熵选(arXiv 2605.22389)推理数据 80% 可能是废料——HES 只看熵最高那 0.5% token,无需训练,统一 SFT/RFT/RL 三范式数据选择。前 20% 数据跑出全量效果,低熵训练反而性能下降。通勤两分钟,听懂今日最强推理数据选择方法论。1×0:00 / 2:00
HES·熵选(arXiv 2605.22389)推理数据 80% 可能是废料——HES 只看熵最高那 0.5% token,无需训练,统一 SFT/RFT/RL 三范式数据选择。前 20% 数据跑出全量效果,低熵训练反而性能下降。通勤两分钟,听懂今日最强推理数据选择方法论。1×0:00 / 2:00
每日大模型 Rap2026. 05. 24. 08:06:48EntmaxKV·零尾(arXiv 2605.21649)softmax 的稠密尾巴是 KV cache 内存墙的原罪——EntmaxKV 用 α-entmax 的精确零值把稀疏解码从「带误差的近似」变成「可证明的精确支撑集恢复」,1M 上下文最高 5.43× 加速,语言建模基准与全缓存几乎无差距。通勤两分钟,听懂今日最强 KV 稀疏解码论文。1×0:00 / 2:05
EntmaxKV·零尾(arXiv 2605.21649)softmax 的稠密尾巴是 KV cache 内存墙的原罪——EntmaxKV 用 α-entmax 的精确零值把稀疏解码从「带误差的近似」变成「可证明的精确支撑集恢复」,1M 上下文最高 5.43× 加速,语言建模基准与全缓存几乎无差距。通勤两分钟,听懂今日最强 KV 稀疏解码论文。1×0:00 / 2:05