Hunyuan-MT Pro部署教程：Slurm集群中批量提交Hunyuan-MT Pro推理任务

📅 发布时间：2026/7/3 5:08:19 👁️ 浏览次数：

Hunyuan-MT Pro部署教程Slurm集群中批量提交Hunyuan-MT Pro推理任务1. 学习目标与环境准备Hunyuan-MT Pro是基于腾讯混元大模型构建的专业级多语言翻译工具支持33种语言的互译功能。本教程将指导您在Slurm高性能计算集群中批量部署和运行Hunyuan-MT Pro翻译任务实现大规模翻译作业的自动化处理。前置知识要求基本Linux操作经验、了解Python环境配置、熟悉Slurm作业提交系统的基本命令。无需深度学习专业知识我们将一步步带您完成整个部署过程。环境要求Slurm集群节点配备NVIDIA GPU建议RTX 3090/A100或更高CUDA 11.7 和 cuDNN 8.0Python 3.9 环境至少20GB GPU显存50GB可用磁盘空间2. 项目结构与核心组件在开始部署前我们先了解Hunyuan-MT Pro的核心文件结构hunyuan-mt-pro/ ├── app.py # Streamlit Web界面主程序 ├── batch_inference.py # 批量推理脚本新增 ├── slurm_job_template.sh # Slurm作业提交模板 ├── requirements.txt # Python依赖包列表 ├── config/ # 配置文件目录 │ └── model_config.yaml # 模型参数配置 └── data/ # 数据目录 ├── input/ # 待翻译文本文件 └── output/ # 翻译结果输出关键组件说明app.py提供交互式Web界面适合单次翻译batch_inference.py专为批量处理设计的无界面推理脚本slurm_job_template.shSlurm作业提交模板支持参数化配置3. 环境配置与依赖安装3.1 创建Python虚拟环境首先在您的用户目录下创建专用环境# 登录到Slurm集群的登录节点 ssh your_usernamecluster.login.node # 创建项目目录 mkdir -p ~/hunyuan-mt-pro/{config,data/{input,output}} cd ~/hunyuan-mt-pro # 创建Python虚拟环境 module load python/3.9 python -m venv venv source venv/bin/activate3.2 安装依赖包上传或创建requirements.txt文件包含以下内容torch2.0.1cu117 transformers4.31.0 accelerate0.21.0 streamlit1.24.0 sentencepiece0.1.99 protobuf3.20.3 numpy1.24.3 pandas2.0.3 pyyaml6.0使用pip安装依赖# 安装PyTorch根据集群CUDA版本调整 pip install torch2.0.1cu117 --extra-index-url https://download.pytorch.org/whl/cu117 # 安装其他依赖 pip install -r requirements.txt4. 模型下载与配置4.1 下载Hunyuan-MT-7B模型由于模型文件较大约14GB建议在提交作业前预先下载到共享存储# 在登录节点下载模型使用huggingface-hub pip install huggingface-hub huggingface-cli download Tencent/Hunyuan-MT-7B --local-dir ./model --local-dir-use-symlinks False # 或者使用git lfs如果集群已安装 git lfs install git clone https://huggingface.co/Tencent/Hunyuan-MT-7B ./model4.2 创建配置文件在config/model_config.yaml中配置模型参数model: path: ./model dtype: bfloat16 device: cuda max_memory: 15GB generation: temperature: 0.3 top_p: 0.9 max_new_tokens: 512 do_sample: true batch: size: 4 timeout: 3005. 批量推理脚本编写创建batch_inference.py脚本用于无界面批量处理#!/usr/bin/env python3 Hunyuan-MT Pro批量推理脚本适用于Slurm集群批量作业提交 import os import yaml import torch from transformers import AutoTokenizer, AutoModelForCausalSeq2Seq from accelerate import init_empty_weights, load_checkpoint_and_dispatch import pandas as pd from pathlib import Path def load_config(config_pathconfig/model_config.yaml): 加载配置文件 with open(config_path, r, encodingutf-8) as f: return yaml.safe_load(f) def load_model_and_tokenizer(config): 加载模型和分词器 print(正在加载模型...) tokenizer AutoTokenizer.from_pretrained( config[model][path], trust_remote_codeTrue ) model AutoModelForCausalSeq2Seq.from_pretrained( config[model][path], torch_dtypetorch.bfloat16, device_mapauto, trust_remote_codeTrue ) print(模型加载完成!) return model, tokenizer def process_batch(input_files, output_dir, config): 处理批量翻译任务 model, tokenizer load_model_and_tokenizer(config) for input_file in input_files: print(f处理文件: {input_file}) # 读取输入文件 with open(input_file, r, encodingutf-8) as f: texts [line.strip() for line in f if line.strip()] results [] for text in texts: if not text: continue # 执行翻译 with torch.no_grad(): inputs tokenizer(text, return_tensorspt).to(model.device) outputs model.generate( **inputs, max_new_tokensconfig[generation][max_new_tokens], temperatureconfig[generation][temperature], top_pconfig[generation][top_p], do_sampleconfig[generation][do_sample] ) translated tokenizer.decode(outputs[0], skip_special_tokensTrue) results.append({ original: text, translated: translated }) # 保存结果 output_file Path(output_dir) / f{Path(input_file).stem}_translated.csv pd.DataFrame(results).to_csv(output_file, indexFalse, encodingutf-8) print(f结果已保存至: {output_file}) if __name__ __main__: config load_config() # 设置输入输出路径 input_dir data/input output_dir data/output # 获取所有输入文件 input_files [os.path.join(input_dir, f) for f in os.listdir(input_dir) if f.endswith((.txt, .csv))] if not input_files: print(未找到输入文件请在 data/input/ 目录下放置待翻译文件) else: process_batch(input_files, output_dir, config)6. Slurm作业提交配置创建Slurm作业提交脚本slurm_job_template.sh#!/bin/bash #SBATCH --job-namehunyuan-mt-batch #SBATCH --partitiongpu #SBATCH --gresgpu:2 #SBATCH --nodes1 #SBATCH --ntasks-per-node1 #SBATCH --cpus-per-task8 #SBATCH --mem32G #SBATCH --time04:00:00 #SBATCH --outputlogs/slurm-%j.out #SBATCH --errorlogs/slurm-%j.err #SBATCH --mail-typeALL #SBATCH --mail-useryour.emailexample.com # 加载模块 module purge module load cuda/11.7 module load python/3.9 # 设置项目目录 PROJECT_DIR/path/to/your/hunyuan-mt-pro cd $PROJECT_DIR # 激活Python环境 source venv/bin/activate # 创建日志目录 mkdir -p logs # 运行批量推理脚本 echo 开始处理作业 $SLURM_JOB_ID echo 开始时间: $(date) python batch_inference.py echo 作业完成: $SLURM_JOB_ID echo 结束时间: $(date)7. 批量作业提交与管理7.1 准备输入数据将待翻译的文本文件放入data/input/目录支持.txt和.csv格式# 示例创建测试文件 echo 这是需要翻译的中文文本 data/input/test1.txt echo Another English text needs translation data/input/test2.txt7.2 提交Slurm作业# 给提交脚本添加执行权限 chmod x slurm_job_template.sh # 提交作业到Slurm集群 sbatch slurm_job_template.sh # 查看作业状态 squeue -u $USER # 查看具体作业信息 scontrol show job job_id7.3 多任务批量提交如果需要处理多个不同的任务集合可以创建提交脚本#!/bin/bash # 批量提交多个翻译任务 TASK_FILES( task1.txt task2.txt task3.txt ) for task in ${TASK_FILES[]}; do # 复制任务文件到输入目录 cp path/to/your/tasks/${task} data/input/ # 提交作业 sbatch slurm_job_template.sh # 等待一段时间再提交下一个避免资源冲突 sleep 60 done8. 结果处理与验证8.1 检查输出结果作业完成后结果将保存在data/output/目录# 查看输出文件 ls -la data/output/ # 查看翻译结果示例 head -n 5 data/output/test1_translated.csv8.2 验证翻译质量创建简单的质量检查脚本# quality_check.py import pandas as pd from pathlib import Path def check_translation_quality(output_dir): 检查翻译质量 output_files list(Path(output_dir).glob(*_translated.csv)) for file in output_files: df pd.read_csv(file) print(f\n检查文件: {file.name}) print(f总翻译条数: {len(df)}) # 检查空值 empty_translations df[translated].isna().sum() print(f空翻译数量: {empty_translations}) # 显示样本 for i, row in df.head(3).iterrows(): print(f\n原文: {row[original]}) print(f译文: {row[translated]}) print(- * 50) if __name__ __main__: check_translation_quality(data/output)9. 常见问题与解决方案9.1 显存不足问题问题现象作业失败提示CUDA out of memory解决方案减少批量大小在配置文件中调整batch.size使用梯度检查点在模型加载时添加use_reentrantFalse申请更多GPU资源修改Slurm脚本中的--gresgpu:参数9.2 模型加载缓慢问题现象作业长时间停留在模型加载阶段解决方案使用本地模型副本确保模型文件在高速存储上预加载模型在作业开始前预先加载到内存使用模型并行将大模型分布到多个GPU9.3 作业排队时间长问题现象作业长时间处于PDpending状态解决方案调整资源请求适当减少GPU或内存请求选择非高峰时段提交避开工作时间提交作业使用更低优先级队列如有配置10. 性能优化建议10.1 资源利用优化# 修改Slurm脚本中的资源请求 #SBATCH --gresgpu:2 # 根据实际需要调整GPU数量 #SBATCH --cpus-per-task12 # 增加CPU核心数加速数据预处理 #SBATCH --mem64G # 增加内存处理大文件10.2 模型推理优化在batch_inference.py中添加性能优化代码# 启用TensorFloat-32精度A100及以上GPU torch.backends.cuda.matmul.allow_tf32 True torch.backends.cudnn.allow_tf32 True # 使用更快的推理配置 model AutoModelForCausalSeq2Seq.from_pretrained( config[model][path], torch_dtypetorch.bfloat16, device_mapauto, trust_remote_codeTrue, use_cacheTrue, # 启用缓存加速 )10.3 批量处理优化对于大量小文件可以先合并再处理def merge_input_files(input_dir, output_file): 合并多个输入文件 all_texts [] for file in Path(input_dir).glob(*.txt): with open(file, r, encodingutf-8) as f: all_texts.extend([line.strip() for line in f if line.strip()]) with open(output_file, w, encodingutf-8) as f: for text in all_texts: f.write(text \n) return output_file11. 总结与下一步建议通过本教程您已经学会了在Slurm集群中批量部署和运行Hunyuan-MT Pro翻译任务。关键要点包括环境配置正确设置Python环境和模型路径批量处理使用无界面脚本处理大量翻译任务作业管理通过Slurm高效管理计算资源性能优化调整参数获得最佳性价比下一步学习建议尝试处理更大规模的数据集测试系统极限性能探索模型微调针对特定领域优化翻译质量集成到自动化流水线中实现端到端的翻译工作流监控系统性能建立资源使用预警机制实用建议定期清理临时文件和日志避免磁盘空间不足建立作业模板库快速适配不同规模的翻译任务使用版本控制管理配置文件和脚本变更通过这套方案您可以在Slurm集群上稳定高效地运行大规模多语言翻译任务充分发挥Hunyuan-MT Pro的强大能力。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

相关新闻

最新新闻

日新闻

周新闻

月新闻