基因筛选方法

我对于基因和遗传这方面了解很少,小高考考的生物也早就还给了老师。这次看2016年的建模题,其中B题是基因相关的,长了不少见识。虽然不知道现在看的以后有没有用处,但学了就记录一下,免得忘了。
今天看的是两种基因的筛选方法,通常在预处理阶段完成。方法比较简单,编程也不难。

最小等位基因频率

等位基因频率常用于表示种群内基因的多样性,计算方法如下:
$$等位基因频率=\frac{特定等位基因数量}{特定基因座数量}$$
最小等位基因频率,简称MAF(Minor Allele Frequency),通常被用于复杂疾病的全基因组关联研究。我们通常认为,较小的MAF会使得统计性能下降,从而出现假阴性(以为错误,但是实际正确)的情况。通常,在$MAF>0.05$时,我们才认为这个基因具有一定的可靠性(commmon SNP)。
假设基因对中$T=0.64$,$C=0.36$,则$MAF=0.36$。

Hardy-Weinberg平衡定律

Hardy-Weinberg平衡定律,也称为哈迪-温伯格平衡定律。该定律认为在理想状态下,等位基因的频率和等位基因的基因型频率稳定不变,即具有一定的基因平衡性。
假设基因A的频率为$p$,基因a的频率为$q=1-p$,则各种组合的基因型频率如下所示:

  • AA:$p^2$
  • Aa:$2pq$
  • aa:$q^2$

在使用Hardy-Weinberg平衡定律计算出理想频率之后,可计算出理想频数,对比理想频数和实际频数之间相似度,计算出自由度和卡方值,并得到相应的P值。当P小于阈值(0.01或0.05)时,则认为该基因不符合Hardy-Weinberg平衡定律,可靠性较低。