把团队规范也教给本地 Qwen3.5：让代码知识库同时懂“代码”和“规矩”（Ollama + RAG 进阶）

📅 发布时间：2026/7/5 3:32:05 👁️ 浏览次数：

一、为什么要把“团队规范”也塞进 RAG现在你的本地 AI 能做到按仓库问代码实现RAG Ollama Embedding Qwen 3.5在网页里做 Code Review基于 git diff支持多项目、多仓库切换。但现实里真正决定“代码好不好”的往往不是「语法对不对」而是是否符合团队统一的日志规范、错误处理规范是否踩过历史线上事故的“老坑”比如少打关键监控、随手吞异常是否遵守你们安全规范敏感信息脱敏、鉴权校验、参数校验等。如果这些规范没有进到 AI 的“知识库”里它的判断标准永远是抽象的“通用最佳实践”而不是“你们团队真正关心的那套规矩”。所以这一篇的目标是在已有的代码 RAG 体系上加一个**“团队规范知识库层”**让 Qwen 3.5 在回答和 Code Review 时一边看代码一边主动对照你们的规范历史踩坑记录输出的建议不再是空泛的“建议加日志”而是变成“根据《服务异常处理规范 v2》中第 3 条这里缺少… 建议按 XXX 模式补上。”二、整体设计代码库规范库两层 RAG你当前结构可以简单理解为代码仓库 → CodeRAGEmbeddingChroma → Qwen 3.5 回答 / Review现在我们加一层┌── 代码知识库按项目用户问题/差异 ──┤└── 规范知识库团队级全项目共享│合并成统一 Prompt│Qwen 3.5关键改动点再建一个“规范向量库”可以是单独一个 Chroma Collection 或单独一个 DB 目录所有团队规范 / 历史事故复盘 / 最佳实践文档都当成“文档”统一 Embedding在ask()/review_diff()时多做一次“规范检索”把规范片段一并塞进 PromptPrompt 模板中明确提示“请优先对照下面的团队规范和历史问题案例给出建议。”三、准备「团队规范历史踩坑」原始材料建议在仓库外单独建一个目录比如team_knowledge/里面放/specs/团队编码规范日志、异常处理、API 设计、数据库访问、缓存、鉴权等/incidents/线上事故复盘、事后总结文档重点是“以后不要怎么写应该怎么写”/best_practices/你们内部沉淀的一些最佳实践如“幂等接口写法”、“重试策略模板”、“鉴权中间件模板”/checklists/上线自查清单、PR 自查清单。这些文件可以是Markdown (.md)文本文件 (.txt)简单的.rst / .docx转成.md再放进来四、实现一个 TeamSpecRAG团队规范 RAG新建team_spec_rag.py# team_spec_rag.py import os import glob from typing import List, Dict import chromadb import ollama class TeamSpecRAG: 团队规范 / 历史踩坑知识库 - 专门存团队级文档不跟代码库混在一起 def __init__( self, base_dir: str ./team_knowledge, db_path: str ./team_spec_db, embedding_model: str nomic-embed-text, ): self.base_dir os.path.abspath(base_dir) self.db_path db_path self.embedding_model embedding_model self.client chromadb.PersistentClient(pathdb_path) self.collection self.client.get_or_create_collection( nameteam_spec_collection, metadata{hnsw:space: cosine}, ) def _iter_files(self) - List[str]: exts [*.md, *.txt] files [] for ext in exts: files.extend(glob.glob(os.path.join(self.base_dir, **, ext), recursiveTrue)) return files def _read_file(self, path: str) - str: try: with open(path, r, encodingutf-8) as f: return f.read() except Exception as e: print(f读取失败 {path}: {e}) return def build_index(self): 全量重建团队规范索引 files self._iter_files() print(f发现团队规范文档 {len(files)} 个) all_ids, all_docs, all_metas [], [], [] for path in files: rel os.path.relpath(path, self.base_dir) content self._read_file(path) if not content.strip(): continue doc_id rel # 这里每个文件一个向量简单版本 all_ids.append(doc_id) all_docs.append(content) all_metas.append({file_path: rel}) if not all_docs: print(没有可索引的团队规范文档) return # 清空旧索引 existing self.collection.get() if existing.get(ids): self.collection.delete(idsexisting[ids]) # 向量化 print(开始向量化团队规范文档...) resp ollama.embeddings(modelself.embedding_model, promptall_docs) embeddings resp[embeddings] if embeddings in resp else resp self.collection.add( idsall_ids, documentsall_docs, metadatasall_metas, embeddingsembeddings, ) print(团队规范索引构建完成) def query(self, query_text: str, top_k: int 5) - List[Dict]: 检索与某段描述/问题最相关的团队规范片段 resp ollama.embeddings(modelself.embedding_model, promptquery_text) if embedding in resp: q_vec resp[embedding] else: q_vec resp[embeddings][0] res self.collection.query( query_embeddings[q_vec], n_resultstop_k, ) docs res[documents][0] metas res[metadatas][0] scores res[distances][0] return [ {text: d, meta: m, score: s} for d, m, s in zip(docs, metas, scores) ]这样你就有了一个独立的“团队规范 RAG”和代码层完全解耦。五、在 Code Review 里接入团队规范接下来我们改造CodeReviewRAG.review_diff()在构造 Prompt 时多做一步从 diff 文件路径中抽取“关键描述”比如“异常处理”、“日志”、“鉴权”等用它去TeamSpecRAG.query()一次拿到几条相关规范 / 历史事故把这几条规范塞进 Prompt 的「【团队规范与历史案例】」区块要求 Qwen 3.5 必须参考这部分给意见。伪代码示例重点是思路具体你可以按前面的CodeReviewRAG整合# 在 code_review_rag.py 里增加一个 team_spec_rag 参数 from team_spec_rag import TeamSpecRAG class CodeReviewRAG(IncrementalCodeRAG): def __init__(self, repo_path: str, team_spec_rag: TeamSpecRAG None, **kwargs): super().__init__(repo_path, **kwargs) self.team_spec_rag team_spec_rag def review_diff(...): # 1. 原有逻辑获取 diff_by_file contexts ... # 2. 提取一个摘要作为“规范查询 key” summary_for_spec .join(list(diff_by_file.keys()))[:300] spec_snippets [] if self.team_spec_rag: spec_snippets self.team_spec_rag.query(summary_for_spec, top_k3) # 3. 构造“团队规范”区块文本 spec_section for i, s in enumerate(spec_snippets, 1): spec_section f\n\n--- 规范 / 案例 {i}文件: {s[meta][file_path]}---\n{s[text]} # 4. 在原来的 Prompt 里加一段 prompt f 【团队规范与历史问题案例】 {spec_section or 当前没有检索到相关团队规范可仅从通用最佳实践角度审查。} 请在给出审查意见时尽量引用上述规范/案例中的关键点例如 - “根据《XXX 规范》第Y条这里的做法存在……” - “历史故障《YYY》提到过类似问题这里需要避免……” # 5. 继续调用 Qwen 3.5 生成报告 ...这样生成出来的 Code Review 报告就天然带有“我们团队自己的规矩”。六、在「问代码仓库」网页里增加“规范视角”同样的思路也可以用在普通问答上。比如在ask()时用户问「登录模块的异常处理是否符合规范」代码 RAG 找到登录模块的代码片段规范 RAG 找到「异常处理规范」、「登录安全规范」Prompt 一起塞给 Qwen 3.5让它在回答里自动引用规范内容。你在 Streamlit 里可以增加一个开关「启用团队规范增强」开启后main.py中调用的是“带 TeamSpecRAG 的 ask()”版本返回内容中会有明显的“引用规范”的小节方便团队成员对齐理解。

相关新闻

最新新闻

日新闻

周新闻

月新闻