【生信实战】从QTL定位到GWAS:解析复杂性状的遗传密码
1. 为什么我们需要QTL和GWAS第一次接触数量性状遗传分析时我和大多数新手一样困惑为什么不能用简单的孟德尔遗传规律来解释像身高、血压这样的性状直到实验室的师兄给我看了一组数据——同一批玉米在相同环境下株高差异竟然呈现完美的正态分布这才明白数量性状的复杂性。数量性状就像调色盘里的渐变色没有明确的分界线。比如人的身高你找不到高和矮的绝对标准只有连续的变化。这类性状通常由多个基因共同控制多基因遗传每个基因贡献一小部分效应再加上环境因素的影响最终形成我们看到的连续分布。传统遗传学方法在这里完全失效这就是QTL定位和GWAS大显身手的地方。记得我刚开始做水稻耐盐性研究时用QTL定位找到了3个关键染色体区域后来通过GWAS进一步将候选基因范围缩小到5个最终通过实验验证了其中两个基因的功能。这种从宏观到微观的组合拳正是解析复杂性状的黄金标准。2. 从分子标记到基因定位2.1 分子标记的进化史做实验最崩溃的莫过于花了三个月时间最后发现用的分子标记方法已经过时。我吃过这个亏所以特别整理了分子标记的发展历程RFLP1980年代就像用剪刀剪DNA再通过 Southern blot 找差异。优点是结果稳定但需要大量高质量DNA。曾经为了提取足够的DNA我连续一周每天处理200个样本最后连做梦都在跑胶。SSR1990年代基于PCR的微卫星标记通量提高了但开发引物是个技术活。记得有次为了找到一个多态性好的SSR位点我测试了上百对引物。SNP21世纪现在的绝对主流人类基因组中约有300-1000万个SNP。去年我们用GBS技术一天就获得了上百万个SNP位点这在十年前简直不可想象。2.2 QTL定位实战要点构建作图群体是QTL定位的关键第一步。根据我的经验有几点特别容易踩坑亲本选择表型差异要足够大但也不能太大。有次我用两个极端表型亲本杂交结果F1代完全不育整个项目差点夭折。群体大小至少200个个体以上。曾为了省钱只做了150个结果LOD值死活达不到显著阈值。表型数据一定要有重复有次因为季节限制只做了一次表型测定后来发现数据波动太大不得不重做。实际操作中我习惯用R语言的qtl包进行分析。下面是个简单的代码框架library(qtl) data - read.cross(csv, filepheno_geno_data.csv) data - calc.genoprob(data, step1) out.scan - scanone(data, methodhk) plot(out.scan)3. GWAS全流程解析3.1 群体结构这个隐形杀手刚开始做GWAS时我的曼哈顿图上总是出现假阳性信号直到导师提醒我检查群体结构。现在我的标准流程一定会包括PCA分析用plink软件先跑一遍plink --bfile mydata --pca 10 --out mypca亲缘关系矩阵用GEMMA计算混合线性模型把前10个PC作为协变量有次分析一个3000份材料的水稻群体没考虑群体结构结果几乎每条染色体都有显著信号——这显然是不可能的。加入PCA校正后假阳性立刻消失了。3.2 曼哈顿图的正确打开方式看曼哈顿图有几个经验法则不要只看最显著的几个点要注意山峰的整体形状不同性状的显著性阈值可能不同染色体末端的信号要特别小心可能是端粒效应我有个血淋淋的教训曾经因为一个非常显著的SNP兴奋不已结果发现它位于着丝粒区域后续验证发现是假阳性。现在我会特别关注基因密集区域的中等强度信号这些往往才是真正的候选。4. 从数据到生物学意义4.1 候选基因筛选技巧拿到GWAS或QTL结果后如何从海量数据中挖出真正的金子我的三步筛选法很实用功能注释优先优先关注已知功能基因附近的信号。有次我在一个QTL区间内发现了个编码离子转运蛋白的基因正好解释了我们研究的耐盐性状。表达模式验证用公开的转录组数据检查候选基因在目标组织中的表达。推荐使用NCBI的GEO数据库。共定位分析比较不同研究的结果。比如我做小麦穗粒数研究时发现一个QTL与已报道的开花期QTL重叠这提示可能存在多效性。4.2 实验验证的实用建议生物信息学分析再完美最终还是要回到实验室验证。几点实用建议CRISPR优先现在基因编辑这么方便比转基因快多了。我们实验室常规3个月就能完成从设计到表型分析。表型检测自动化考虑用高光谱成像或RGB图像分析减少人为误差。去年我们开发了一套自动测量株高的系统效率提高了10倍。多环境测试一定要在不同条件下验证很多基因的功能具有环境特异性。记得有次我花了半年验证一个候选基因结果发现它只在特定氮素水平下才影响产量。这个教训让我明白实验室条件越接近田间实际情况结果越可靠。