120 万奖金池里,有一块没人抢的肥肉:RWKV-7 × transformers 训练适配 📅 发布时间:2026/7/4 3:03:45 👁️ 浏览次数: RWKV-7 “Goose” 出来一阵子了100% RNN、无 KV cache、constant-space、linear-timestate 比同档 Qwen3.5 小三倍多——BlinkDL 那边单卡 fp16 decode 已经跑到 13000 tok/s 的量级。问题是vLLM / SGLang / transformers / llama.cpp 四个方向的适配目前都还没到生产级。于是有了这笔120 万奖金池按贡献打分分配四个方向可分开认领、可重叠拿分。 重点来了四个方向里transformers 这一块几乎是空的而且和其他三个零重叠——独立计分。为什么是 transformers 方向值得冲BlinkDL 原话“transformers 的适配需要能正常用各种常见的基于 transformers 的 PEFT 和 RL 库等等训练。”而 HF 官方transformers目前只合了 RWKV-v5 / v6v7 是 gap。谁能先把 v7 在 transformers 上跑通训练栈PEFT / DPO / GRPO / SFT / DeepSpeed谁就拿下了这个方向的 baseline 后续优化空间。更关键的是不重叠方向社区进度与别人重叠生态价值vLLM有人在做 PR高state cache / chunked prefill 三家都要推理 servingSGLang空白较多高推理 servingtransformers本项~空这个 repo 在填无PEFT / LoRA / DPO / GRPO / SFT 全训练生态llama.cpp有人在摸低边缘训练方向做好了下游 PEFT / TRL / 各种 RL 库直接能用——这是 vLLM/SGLang 两个推理方向吃不到的红利。dfytensor/transformers-rwkv7 已经做到哪了这个 repo 就是冲着RWKV-7 × transformers 训练适配去的作者已经把地基打完了而且全栈可验证核心能力已绿✅ Pure-PyTorch forwardparallel训练/ RNNdecode双模数值对齐官方 demorel dev ~8e-7argmax 100% 一致✅ backward 通 → 训练就绪✅ 加载官方 checkpoint0.1B / 0.4B / 1.5B / 2.9B / 7.2B / 13.3B 同结构✅AutoModelForCausalLM.from_pretrained()零代码加载auto-register✅ PEFT / LoRAget_peft_model0.69% trainablegrad 通✅ HF TrainerSFT、TRL DPOTrainer、TRL GRPOTrainer —— 全跑通✅ padding mask、DeepSpeed ZeRO-2/3 config、transformers 5.x compat_is_hf_initializedguard⚡加速三档fla chunk kernelflash-linear-attention Triton / triton-windowsRTX 4090 上52–145×纯 PyTorchbsz1/T2048 → 47859 tok/s增强 CUDA WKV kerneldtype-templated fp16/bf16 出 statenvcc JIT失败静默 fallbackPure-PyTorch loop 保底CPU/GPU/任意 dtype正确性参照测试覆盖smoke / alignment / autoload / peft / trl / dpo / grpo / fla / cuda_kernel / grad_checkpoint / padding / deepspeedWindows CPU Windows CUDA 全绿11/14 项无 GPU 也能跑——光Windows 原生能跑这一点就把很多推理引擎方向卡死的平台问题绕过去了。那还能提什么 PR这才是重点地基有了但 120w 评分是按改进程度来的能加分的活还很多随便列几个作者 roadmap 里和周边能啃的把 fla / CUDA kernel 再推一档——对齐 Albatross 里 BlinkDL 新写的 sm120 kernelfaster3a_2605/rwkv7_fast_v3a.py看能不能在 transformers 路径里复现那个 decode 13000 / prefill 17000 的水准量化推理接入——w8 / w4目标是 llama.cpp 的Q*_K_M精度档老卡也要快于 w16TP / PP 训练侧验证——DeepSpeed ZeRO-3 config 已有但需要 Linux 多卡 runtime 验证 可能修边角投机解码 draft 用小 RWKV——DFlash 类后续项目先搭骨架autotune 选 kernel——纯 PyTorch / fla / CUDA 三档运行时按 shapedtypedevice 自动挑这块目前是硬编码优先级更多模型尺寸的全流程验真——0.1B / 0.4B 验过1.5B 的 PEFT/DPO 跑通能加分文档 example——examples/ 目录刚建SFT / DPO / GRPO 的端到端脚本是 contributor 友好入口⚠️ 奖金是按多个强 AI 评分 写明贡献分配的所以PR 描述里写清楚你改了什么、对标 Albatross 哪个 kernel、测了多少 tok/s、哪些测试新加的——这比闷头写代码更重要。怎么上手5 分钟能跑gitclone https://github.com/dfytensor/transformers-rwkv7cdtransformers-rwkv7 pipinstall-e.[peft,trl]# 转 checkpoint官方 .pth → HF 目录python-mtransformers_rwkv7.convert_checkpoint\--srcrwkv7-g1d-0.1b-xxxx.pth\--dst./rwkv7-0.1b-hf\--vocabrwkv_vocab_v20230424.txt# 验一遍官方对齐python tests/test_alignment.pyWindows Python 3.12 RTX 4090 是作者主环境triton-windows 3.7.1 绕过 CUDA 13.1 cudafe 崩Linux 当然也能跑fla 在 Linux 原生 Triton 更稳。最后说句实在的120w 摊到四个方向transformers 这块竞争最小、生态杠杆最大——vLLM/SGLang 那边已经有几个人在卷 state cache 和 chunked prefill 了transformers 训练栈这边dfytensor/transformers-rwkv7目前是唯一一个把 PEFTTRLDeepSpeed5.x 全打通的 repo但离Albatross 级别的生产性能还有距离。BlinkDL 给的参考 kernel、给的 NumPy 参考实现、给的 Qwen3.5 对照——材料都铺好了。缺的是人把 transformers 这条路径推到和 Albatross 同一个量级的 tok/s。PR 地址放这了https://github.com/dfytensor/transformers-rwkv7 奖金公告在这https://mp.weixin.qq.com/s/vFWC2kAzstLMb99sia-usQ冲不冲# 120 万奖金池里有一块没人抢的肥肉RWKV-7 × transformers 训练适配RWKV-7 “Goose” 出来一阵子了——100% RNN、无 KV cache、constant-space、linear-timestate 比同档 Qwen3.5 小三倍多。BlinkDL 那边单卡 fp16 decode 已经跑到13000 tok/s、prefill 17000 tok/sPro 60005090 略低但更大 bsz 反超。问题是vLLM / SGLang / transformers / llama.cpp 四个方向的适配目前都还没到生产级。于是有了这笔120 万奖金池按贡献打分分配四个方向可分开认领、可重叠拿分。 重点来了四个方向里transformers 这一块几乎是空的而且和其他三个零重叠——独立计分干净可分。为什么 transformers 方向值得冲BlinkDL 原话“transformers 的适配需要能正常用各种常见的基于 transformers 的 PEFT 和 RL 库等等训练。”而 HFtransformers官方目前只合了 RWKV-v5 / v6v7 是 gap。谁能先把 v7 在 transformers 上跑通完整训练栈PEFT / DPO / GRPO / SFT / DeepSpeed谁就拿下这个方向的 baseline 后续优化空间。更关键的是不重叠——这张表是奖金分配时的关键判断方向社区进度与别人重叠生态价值vLLM有人 PR #157514 在飞高state cache / chunked prefill 三家都要推理 servingSGLang空白较多高推理 servingtransformers本项~空dfytensor 这个 repo 在填无PEFT / LoRA / DPO / GRPO / SFT 全训练生态llama.cpp有人在摸低边缘 / 移动训练方向做好了下游 PEFT / TRL / 各种 RL 库直接能用——这是 vLLM/SGLang 两个推理方向吃不到的红利。dfytensor/transformers-rwkv7 已经做到哪了这个 repo 就是冲着RWKV-7 × transformers 训练适配去的作者把地基打完了全栈可验证核心能力测试全绿✅ Pure-PyTorch forwardparallel训练/ RNNdecode双模数值对齐官方 demorel dev ~8e-7argmax 100% 一致✅ backward 通 → 训练就绪✅ 加载官方 checkpoint0.1B / 0.4B / 1.5B / 2.9B / 7.2B / 13.3B 同结构dim 自动推断✅AutoModelForCausalLM.from_pretrained()零代码加载auto-register✅ PEFT / LoRAget_peft_model0.69% trainablegrad 流通✅ HF TrainerSFT、TRL DPOTrainer、TRL GRPOTrainer —— 全跑通✅ padding mask、DeepSpeed ZeRO-2/3 config、transformers 5.x compat_is_hf_initializedguard 防权重覆写⚡加速三档自动选择fla chunk kernelflash-linear-attention Triton / triton-windowsRTX 4090 上52–145×纯 PyTorchbsz1/T2048 →47859 tok/s增强 CUDA WKV kerneldtype-templated fp16/bf16 出 statenvcc JIT失败静默 fallback 到纯 PyTorchPure-PyTorch loop 保底CPU/GPU/任意 dtype正确性参照测试覆盖smoke / alignment / autoload / peft / trl / dpo / grpo / fla / cuda_kernel / grad_checkpoint / padding / deepspeedWindows CPU Windows CUDA 全绿11/14 项无 GPU 也能跑——光Windows 原生能跑这一点就把推理引擎方向卡死的平台问题绕过去了。那还能提什么 PR这才是重点地基有了但 120w 是按改进程度由多个强 AI 评分分配的能加分的活还很多。结合作者 roadmap BlinkDL 给的参考随手列几个有分量的方向把 fla / CUDA kernel 再推一档——对齐 Albatross 里 BlinkDL 新写的 sm120 kernelfaster3a_2605/rwkv7_fast_v3a.py看能不能在 transformers 路径里复现 decode 13000 / prefill 17000 的水准量化推理接入——w8 / w4目标 llama.cpp 的Q*_K_M精度档老卡也要快于 w16Pascal 起都要能跑TP / PP 训练侧验证——DeepSpeed ZeRO-3 config 已有但需要 Linux 多卡 runtime 验证 边角修补投机解码 draft 用小 RWKV——DFlash 类后续项目先搭骨架autotune 选 kernel——纯 PyTorch / fla / CUDA 三档按 shapedtypedevice 自动挑目前是硬编码优先级更多尺寸全流程验真——0.1B / 0.4B 验过1.5B 的 PEFT/DPO 跑通能加分文档 example——examples/目录刚建SFT / DPO / GRPO 端到端脚本是 contributor 友好入口⚠️ 奖金分配规则参加者写明自己贡献多个强 AI 评分公平分配。所以 PR 描述里写清楚——改了什么、对标 Albatross 哪个 kernel、测了多少 tok/s、新增/修了哪些测试——这比闷头写代码更重要。5 分钟上手gitclone https://github.com/dfytensor/transformers-rwkv7cdtransformers-rwkv7 pipinstall-e.[peft,trl]# 官方 .pth → HF 目录一行命令python-mtransformers_rwkv7.convert_checkpoint\--srcrwkv7-g1d-0.1b-20260129-ctx8192.pth\--dst./rwkv7-0.1b-hf\--vocabrwkv_vocab_v20230424.txt# 验官方数值对齐rel dev ~1e-6 量级python tests/test_alignment.pyWindows Python 3.12 RTX 4090 是作者主环境triton-windows 3.7.1 绕过 CUDA 13.1 cudafe 崩Linux 原生 Triton 更稳CPU 也能全绿跑测试。最后说句实在的120w 摊到四个方向transformers 这块竞争最小、生态杠杆最大——vLLM/SGLang 那边已经有人卷 state cache 和 chunked prefill 了transformers 训练栈这边dfytensor/transformers-rwkv7目前是唯一把 PEFTTRLDeepSpeed5.x 全打通的 repo但离Albatross 级别的生产性能还有距离。BlinkDL 给的参考 kernel、NumPy 参考实现、Qwen3.5 对照——材料都铺好了。缺的是人把 transformers 这条路径推到和 Albatross 同一个量级的 tok/s。项目地址https://github.com/dfytensor/transformers-rwkv7奖金公告https://mp.weixin.qq.com/s/vFWC2kAzstLMb99sia-usQQQ 群社区579490404冲不冲你定但这个方向独立计分 零重叠光这条在 120w 池子里就已经值回票价了。
从零开始学Python开发:三个月入门到实战经验分享 别再幻想着“21天精通Python”这种鬼话了,那都是用来收割你焦虑感的智商税。三个月,从零基础到能独立完成一个像样的实战项目,这不是神话,这需要你褪去所有幻想,用最野蛮、最直接的方式,跟代码死磕。这条路… 2026/7/4 2:59:44
影刀RPA新手教程:读取文字完全指南——让影刀把网页上的文字读出来存到变量里 影刀RPA新手教程:读取文字完全指南——让影刀把网页上的文字读出来存到变量里 大家好,我是林焱。 今天教你让影刀把网页上的文字读出来,存到变量里。这是数据采集的基础。 先搞懂:什么是"读取文字" 你平时上网&… 2026/7/4 2:59:44
一套正版、免费、强大的 Visual Studio 2012 IDE 作为开发软件的程序员,应在力所能及的情况下使用正版软件。最近一直在用VisualStudio 2012 Express Desktop/Web 版本开发项目。VisualStudio 2012 Express 是免费的,功能基本上够用,但是还是有很多不足,如: … 2026/7/4 2:57:44
动态 Prompt 和静态 Prompt 有什么区别?上下文是如何动态组装的? 摘要:「上下文怎么组装的」是 AI Agent 面试的高频题,区分「背过面经」和「真做过 Agent」的关键知识点。静态 Prompt 是写死的指令,动态 Prompt 是在运行态根据用户输入、历史对话、环境状态实时拼接的。大多数 Agent 的 Bug 根本原因不是模… 2026/7/4 4:22:09
010-伟大的解释者 费曼学习法系列 第010篇 伟大的解释者——费曼教学哲学的核心 导言:比诺贝尔奖更珍贵的称号 1965年,理查德费曼因量子电动力学的研究获得诺贝尔物理学奖。然而,在全世界无数学生和普通人的心中,他最珍贵的称号却不是"诺贝尔奖得主",而是"伟大的解释者&… 2026/7/4 4:22:09
永磁同步电机模糊PI控制与SVPWM技术详解 1. 永磁同步电机控制基础与挑战永磁同步电机(Permanent Magnet Synchronous Motor, PMSM)作为现代工业驱动领域的核心部件,其高效节能的特性使其在电动汽车、数控机床等高精度应用场景中占据主导地位。与传统异步电机相比,PMSM的转… 2026/7/4 4:18:08
HardFault 怎么定位?不用仿真器也能找到死机位置 前言写 STM32 程序一定会遇到这种情况:程序跑着跑着就卡死了,或者进入了某个中断出不来了。最常见的结果就是进入 HardFault_Handler——一个死循环。void HardFault_Handler(void) {// CubeMX 生成的默认处理while (1); }大部分人的反应是注释掉 while(… 2026/7/4 4:18:08
ComfyUI IPAdapter plus高级配置实战:5大策略深度解析多模型协同工作流 ComfyUI IPAdapter plus高级配置实战:5大策略深度解析多模型协同工作流 【免费下载链接】ComfyUI_IPAdapter_plus 项目地址: https://gitcode.com/gh_mirrors/co/ComfyUI_IPAdapter_plus ComfyUI IPAdapter plus作为ComfyUI中IPAdapter模型的参考实现&#… 2026/7/4 4:14:07
Agent 流程架构三大核心运行机制 现在做大模型相关应用,比拼的核心早就不是模型参数量多大、或是写得多精巧的提示词,真正拉开差距的关键,是你给大模型搭出来的整套运行流程好不好。Agent是依托大语言模型(LLM)搭建的智能系统框架,属于能完… 2026/7/4 4:14:07
STM32F745VG与MC6470 IMU的高性能姿态控制系统设计 1. MC6470与STM32F745VG的黄金组合解析在工业自动化和机器人控制领域,传感器与微控制器的协同工作能力直接决定了系统的响应速度和定位精度。MC6470作为一款6自由度惯性测量单元(6DOF IMU),与STM32F745VG这款基于ARM Cortex-M7内核的高性能微控制器组合&… 2026/7/4 0:00:28
Playwright自动化测试实战:从零搭建现代Web测试框架 1. 项目概述:为什么是 Playwright?如果你正在为现代 Web 应用的自动化测试头疼,尤其是面对那些充斥着动态加载、复杂交互的单页应用(SPA),那么 Playwright 的出现,很可能就是你的解药。我接触过… 2026/7/4 0:00:28
终极指南:如何将JSXBIN二进制文件转换为可读JSX源代码 终极指南:如何将JSXBIN二进制文件转换为可读JSX源代码 【免费下载链接】jsxbin-to-jsx-converter JSXBin to JSX Converter written in C# 项目地址: https://gitcode.com/gh_mirrors/js/jsxbin-to-jsx-converter 你是否曾经面对过Adobe产品的JSXBIN文件感到… 2026/7/4 0:02:28