【直播】我的基因组57：最简陋的祖源分析

这……可能是最简陋的祖源分析了吧，没有之一。

前面我们学习了千人基因组的人群分布情况，也简单的看了看我自己的基因型在那2504个人的距离情况，但是只能定位到我是东亚人，没办法细分人种，是因为我挑的SNP位点不够好。所以我查阅了一些文献，找到了一篇文章，https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4784403/。

文章的作者精选了2318 SNPs能够最大化European, African and Asian 人种的差异，据作者所说，是非常适合做祖源分析的！

当然，并不是一定需要两千多的位点的，也有文章就挑选了30 ancestry informative markers (AIMs) 就可以了，from 282 SNPs screened from 30 phenotype-related genes based on the genotyping data of 658 samples from nine populations in the HapMap database.

https://www.ncbi.nlm.nih.gov/pubmed/25143275

FastPop软件： https://sourceforge.net/projects/fastpop/files/

cd ~/biosoft# https://www.cog-genomics.org/plink2/data#merge_listmkdir fastpop && cd fastpopwget https://sourceforge.net/projects/fastpop/files/FastPop.tar.gwget https://jaist.dl.sourceforge.net/project/fastpop/FastPop_Instruction.pdftar zxvf FastPop.tar.gz

就是几个R脚本，对我来说，其实重点反而是作者精选的那2318 SNPs位点。

这个脚本比较考验shell能力，而且运行非常慢，因为千人基因组计划的数据太多了！

ls ~/annotation/variation/human/1000genomes/GRCh38/*gz |while read iddoecho $id zcat $id |perl -alne 'BEGIN{open FH,"/home/jianmingzeng/biosoft/fastpop/FastPop/snp.txt";while(<FH>){chomp;$h{$_}=1};close FH}{print join("t",$F[2],@F[9..$#F]) if exists $h{$F[2]}}'>>choose.genotype donecat ~/biosoft/fastpop/FastPop/snp.txt my.dbsnp.vcf |perl -alne '{$h{$_}=1;next unless exists $h{$F[2]};@tmp=split/:/,$F[9];print "$F[2]t$tmp[0]"}'>fastpop.my.genotype

这样就做出了下面所示的数据文件，后台回复祖源分析可以获取这些文件，当然，我的基因型是不可能给你的啦，你可以去下载一个vcf(改名为my.dbsnp.vcf 就可以运行上面的代码了)即可。

用前面的PCA分析，结果如下:

很明显，这次的人群分开效果较好，虽然前两个的主成分作用力还是有限！

同样的，我还是把504个东亚人群拿出来单独看看：

前两个的主成分作用力更低了，但是已经比第一次只从千人基因组计划里面挑选1000个allele frequency为0.5的位点要好很多了！而且这次很明显可以看到日本人跟其余的东亚人距离比较远，应该是由于他们是在一个小岛上，比较封闭的原因吧。西双版纳的傣族人跟越南人也远离了南方汉族和北方汉族，但是中间的界限并不是那么的绝对！

很明显，我跟北方汉族和南方汉族更接近，仔细看起来，更偏南方一点！

但是呢，千人基因组计划里面对每个样本的信息记录是有限的，并没有跟我基因型非常近的那些人的信息信息，不然我倒是想打个电话过去问问 NA18637是哪里人！

当然，真正的祖缘分析要比这更复杂，比如国内大名鼎鼎的wegene的基因检测产品的祖源分析报告如下：

上面的分析，跟我用PCA分析千人基因组计划应该原理上是差不多的，但是下面的分析我还没弄懂，看起来是专门针对性染色体的起源追踪。但是我搜索了一些资料，如果有空的话，我还会在后面分享的。

PS;我毕竟是一个人在做分析，比不上公司一个团队，而且我是业余时间玩一下自己的基因而已，比不上人家五天八小时的辛勤搜索总结和学习。尤其是本次的祖源分析系列和后面的GWAS解读系列，我相信公司在这一块会做的更好，毕竟，这个可是他们的饭碗！

【直播】我的基因组55：简单的PCA分析千人基因组的人群分布

【直播】我的基因组56：探索遗传起源

所以我已经预定了wegene的基因检测试剂盒，因为他们的检测原始数据可以拿到，我会专门抽出4讲来说明芯片做的基因检测和全基因组二代测序做的基因检测结果的一致性问题。敬请期待~~~~~~~~~

★

人类的Y染色体拥有约0.58亿个碱基对（DNA基本结构），约占人类男性体细胞中DNA的2%[35]。人类Y染色体上有86个基因，这些基因只编码了23种不同的蛋白质。只有拥有Y染色体才能可能继承的性状被称为雄性性状。

人类的Y染色体除了在端粒上的拟常染色体区的少部分片段（只占有染色体长度约5%）能与相应的X染色体发生重组，其外都不能发生重组。这些片区是由原本X染色体与Y染色体同源的片段遗留下来的。Y染色体中不能发生重组的其他部分被称为“NRY区”（non-recombining region，非重组区）。这个区域中的单核苷酸多态性被用于父系祖先的追溯。https://en.wikipedia.org/wiki/Y_chromosome

★

参考文献：

Ensembl Human MapView release 43. February 2007 [2007-04-14].
ScienceDaily.com Apr. 3, 2008

文：Jimmy

图文编辑：吃瓜群众