保姆级教程：用CAT_pack和IMG/VR4数据库搞定宏基因组contig物种分类（附蛋白ID与TaxID映射实战）

张

张建站

2026/6/3 9:25:36

10分钟阅读

保姆级教程：用CAT_pack和IMG/VR4数据库搞定宏基因组contig物种分类（附蛋白ID与TaxID映射实战）

宏基因组contig分类实战基于CAT_pack与自定义数据库的精准物种鉴定指南在宏基因组研究中contig的物种分类一直是数据分析的关键环节。传统的基于16S rRNA的方法在分辨率上存在局限而全基因组比对又面临计算资源消耗大的问题。CAT_pack工具结合蛋白数据库的分类方法为这一难题提供了平衡精度与效率的解决方案。本文将手把手带你完成从环境搭建到结果解析的全流程特别针对非标准数据库如IMG/VR4的处理进行详细拆解。1. 环境准备与工具安装工欲善其事必先利其器。在开始之前我们需要搭建一个稳定且高效的分析环境。推荐使用Mamba作为包管理工具它比传统的conda具有更快的依赖解析速度特别适合生物信息学工具链的复杂环境。mamba create -n CAT python3.10 diamond prodigal -c bioconda -c conda-forge mamba activate CAT安装完成后我们需要获取CAT_pack的最新版本。直接从GitHub克隆仓库可以确保获得最新功能和修复git clone https://github.com/MGXlab/CAT_pack chmod 755 -R CAT_pack/关键组件说明DIAMOND用于高速蛋白序列比对Prodigal基因预测工具用于从contig中识别开放阅读框CAT_pack核心分类工具套件提示如果遇到权限问题可以尝试使用sudo或联系系统管理员。生产环境中建议在用户目录下安装避免全局权限冲突。2. 自定义数据库的构建与优化官方提供的标准数据库可能无法满足特定研究需求这时使用自定义数据库就显得尤为重要。以IMG/VR4病毒蛋白数据库为例我们需要解决两个核心问题数据库格式转换和蛋白ID与TaxID的映射。2.1 数据库文件准备首先下载IMG/VR4的高置信度蛋白序列文件IMGVR_all_proteins-high_confidence.faa。同时需要准备NCBI分类学文件├── taxonomy/ │ ├── names.dmp │ └── nodes.dmp └── protein_taxid.txt文件来源说明names.dmp和nodes.dmp可从Kraken2的标准数据库中获得protein_taxid.txt需要自行构建格式为protein_accession\ttaxid2.2 数据库预处理运行CAT_pack的prepare命令进行数据库格式化~/CAT_pack/CAT_pack/CAT_pack prepare \ --db_fasta IMGVR_all_proteins-high_confidence.faa \ --names taxonomy/names.dmp \ --nodes taxonomy/nodes.dmp \ --acc2tax protein_taxid.txt \ --db_dir IMG_faa_CAT这个过程可能会消耗较长时间取决于数据库大小和服务器性能。完成后会生成以下目录结构IMG_faa_CAT/ ├── db/ │ ├── db.fasta │ ├── db.dmnd │ └── db.sqlite3 └── tax/ ├── names.dmp ├── nodes.dmp └── protid2taxid.map注意对于大型数据库如完整NR库建议在高性能计算节点上运行并预留足够磁盘空间至少是原始FASTA文件的3-5倍。3. 蛋白ID与TaxID映射的实战技巧自定义数据库最大的挑战之一就是建立蛋白ID与TaxID之间的准确对应关系。以下是几种实用的解决方案3.1 从数据库元数据提取许多专业数据库如IMG/VR会提供元数据表格通常包含以下关键字段蛋白ID基因组ID分类ID物种名称IMGVR_1330000123410239HerpesviridaeIMGVR_2330000567810407Retroviridae使用awk或Python脚本可以快速提取对应关系import pandas as pd metadata pd.read_csv(IMGVR_metadata.tsv, sep\t) metadata[[protein_id, tax_id]].to_csv(protein_taxid.txt, sep\t, indexFalse, headerFalse)3.2 基于序列标识符解析对于某些数据库TaxID可能直接编码在蛋白ID中。例如IMGVR_10239_1 MSTVDEQ...这里的10239就是TaxID。可以用正则表达式提取grep IMGVR_all_proteins-high_confidence.faa | \ awk -F _ {print $1_$2\t$2} protein_taxid.txt3.3 使用NCBI的accession2taxid对于来源于NCBI的序列可以直接下载官方的accession2taxid映射文件wget ftp://ftp.ncbi.nlm.nih.gov/pub/taxonomy/accession2taxid/prot.accession2taxid.gz gunzip prot.accession2taxid.gz然后筛选出自己数据库中的蛋白IDawk NRFNR{a[$1];next} $1 in a (grep db.fasta | cut -d -f1 | tr -d ) prot.accession2taxid protein_taxid.txt4. contig分类全流程实操准备好数据库后就可以开始对宏基因组contig进行分类了。整个过程分为三个主要步骤基因预测、蛋白比对和分类分配。4.1 基因预测与ORF识别~/CAT_pack/CAT_pack/CAT_pack contigs \ -c sample_contigs.fasta \ -d IMG_faa_CAT/db \ -t IMG_faa_CAT/tax \ -o output_dir \ -n 16参数说明-c输入的contig文件-d格式化后的蛋白数据库目录-t分类学文件目录-o输出目录-n使用的CPU线程数4.2 结果解读与可视化运行完成后会生成多个结果文件output_dir/ ├── sample_contigs.fasta.ORF2LCA.txt ├── sample_contigs.fasta.ORF2LCA.parsed.txt └── sample_contigs.fasta.ORF2LCA.log其中.ORF2LCA.txt是核心结果文件包含每个ORF的分类信息。可以使用R或Python进行进一步分析和可视化library(tidyverse) classification - read_tsv(sample_contigs.fasta.ORF2LCA.txt) classification %% count(tax_id, sort TRUE) %% top_n(20) %% ggplot(aes(x reorder(tax_id, n), y n)) geom_col() coord_flip() labs(x Taxonomic ID, y Count)4.3 添加物种名称原始结果只包含TaxID为了可读性我们需要添加物种名称~/CAT_pack/CAT_pack/CAT_pack add_names \ -i output_dir/sample_contigs.fasta.ORF2LCA.txt \ -o sample_contigs.classification.txt \ -t IMG_faa_CAT/tax \ --only_official最终文件格式示例contigORFtaxidspeciesgenusfamilycontig1ORF110239Human alphaherpesvirus 1SimplexvirusHerpesviridaecontig2ORF110407Human immunodeficiency virus 1LentivirusRetroviridae5. 性能优化与疑难解答在实际使用中可能会遇到各种性能问题和错误情况。以下是一些常见问题的解决方案5.1 内存不足问题对于大型数据库DIAMOND可能需要大量内存。可以通过以下方式优化~/CAT_pack/CAT_pack/CAT_pack contigs \ --block_size 4.0 \ --index_chunks 1 \ --tmpdir /path/to/large/tmp \ ...优化参数--block_size减少内存使用单位GB--index_chunks控制索引分块数--tmpdir指定大容量临时目录5.2 分类精度调整如果分类结果过于宽泛或过于严格可以调整以下参数参数默认值作用调整建议-r / --range0.3比对分数范围增大提高特异性减小提高灵敏度--top11考虑的最佳比对数增大提高分类分辨率--f0.5ORF覆盖度阈值增大过滤更多低质量ORF5.3 并行处理加速对于大规模数据分析可以使用GNU parallel实现样本级并行ls *.fasta | parallel -j 4 ~/CAT_pack/CAT_pack/CAT_pack contigs -c {} -d IMG_faa_CAT/db -t IMG_faa_CAT/tax -o {/.}_out这个命令会同时处理4个样本显著提高吞吐量。