生物信息 awk 用法进阶

时间:2022-06-22
本文章向大家介绍生物信息 awk 用法进阶,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

全文6,829字(含代码),阅读18分钟。配图来源:《The AWK Programming Language》

----/ START /----

在掌握了上一篇文章中 awk 基础用法的之后,这一篇文章我们来进一步深入地理解和应用 awk。

(长按听文章)

理解AWK的工作原理

首先,第一个应该加深理解的地方就是 awk 的工作原理(或者说是执行流程)。理解了其工作原理本身,也有助于我们写出更好的 awk 。下面这个图来自 runoob.com 上一篇关于 awk 的文章,它非常清楚明白地描述出了 awk 的工作原理和执行流程,可以说理解 awk 的原理看这一张图几乎就足够了(下图)。

图源:runoob.com

总的来说,awk 的执行流程可以分成三个大的部分:

  • 读输入文件之前需要执行的代码段,由 BEGIN 关键字所标识;
  • BODY块,这里是自动循环并处理输入文件的代码段,也是我们处理数据的核心之处,默认情况下,我们编写的 awk 其实都是BODY块
  • 读取并处理了全部输入文件的内容之后才执行的代码段,由 END 关键字所标识。

命令的结构如下:

$ awk 'BEGIN{动作} pattern{动作} END{动作}'

这里的 pattern 属于BODY块,你可以写上一些正则表达式或者条件判断语句,虽然这些语句也可以在 大括号{} 里正式的BODY块中完成,但是写在外面可以使整个命令看起来更加清爽。如:

$ awk 'BEGIN{OFS="t";print "#CHROMtPOStINFO"} $1!~/^#/ && $6>40 {print $1,$2,$8}' demo.vcf
#CHROM POS INFO
chr22 17662679 CMDB_AF=0.030044,CMDB_AC=420,CMDB_AN=13442
chr22 17662699 CMDB_AF=0.031047,CMDB_AC=441,CMDB_AN=13553
chr22 17662699 CMDB_AF=0.031047,CMDB_AC=441,CMDB_AN=13553
chr22 17662793 CMDB_AF=0.050419,CMDB_AC=842,CMDB_AN=16135
chr22 17662793 CMDB_AF=0.050419,CMDB_AC=842,CMDB_AN=16135
chr22 17663076 CMDB_AF=0.053564,CMDB_AC=534,CMDB_AN=9525

上面的语句就是这样的一个例子,BEGIN 中设定了输出内容的表头和输出分隔符,然后是 pattern,接着是BODY块的主程序。

所以,awk 的工作原理和执行流程是这样的:

  • 1. 在所有处理操作之前,先读取 BEGIN 关键字标识起来的代码段,并执行之,给一些预设变量赋值或者输出表头信息;
  • 2. 然后执行 BODY 块,一行一行往下完成文本的处理;
  • 3. 在 BODY 执行过程中,对每一行,按照指定的分隔符,把当前整行的内容进行切分,并填充到 awk 内置的数据域中,如 $0 标示所有数据域(也就是原来的行内容),$1 表示第一个域,$n 表示第 n 个域;
  • 4. 如果 BODY 前有 pattern 匹配和条件判断语句,那么在依次执行时,只有符合 pattern 条件的才会执行 BODY 中的动作;
  • 5. 循环读取到整个文件结束之后,就完成了 BODY 块的执行;
  • 6. 执行 END 代码段,在 END 块中完成最终结果的输出。

自定义变量

在看过上一篇文章之后,我想大家一定还多少还记得 awk 的内置变量(比如 NF,FS,OFS等),它们可以帮助我们完成很多的事情。但是内置的变量毕竟是固定的,缺乏灵活性,有些操作它们就不能够胜任了,特别是当我们需要从外部传入参数的时候,它们就通通都不好使了。这个时候我们就需要有一个能够自定义变量的方式,-v 参数在 awk 中就是用于补足这一个需求的,它是这样使用的:

$ awk -v 变量名字和赋值 '{动作}' 文件名

来一个实际的例子:

$ awk -v qual=40 '$1!~/^#/ && $6>qual {print $1,$2,$8}' demo.vcf
chr22 17662679 CMDB_AF=0.030044,CMDB_AC=420,CMDB_AN=13442
chr22 17662699 CMDB_AF=0.031047,CMDB_AC=441,CMDB_AN=13553
chr22 17662699 CMDB_AF=0.031047,CMDB_AC=441,CMDB_AN=13553
chr22 17662793 CMDB_AF=0.050419,CMDB_AC=842,CMDB_AN=16135
chr22 17662793 CMDB_AF=0.050419,CMDB_AC=842,CMDB_AN=16135
chr22 17663076 CMDB_AF=0.053564,CMDB_AC=534,CMDB_AN=9525

在上面这个例子里,我们通过 -v 参数设置一个自定义变量 qual 并给它赋值为 40, 然后在BODY主程序中 qual 被用于一个条件判断语句,把符合这个条件的 demo.vcf 内容输出出来,非常方便。而且对于自定义变量来说,最大的一个好处是,让 awk 可以和外部进行充分交互,通过接受外部参数,完成内部动作

而且 -v 还可以多重设置,把多个变量输入到 awk 执行代码段之中,这真的是一个很有用功能。如:

$ awk -v qual=40 -v pos=17662793 '$1!~/^#/ && $6>qual && $2>pos {print $1,$2,$8}' demo.vcf
chr22 17663076 CMDB_AF=0.053564,CMDB_AC=534,CMDB_AN=9525

在上面这个命令里面,我不但通过自定义参数要求 $6 > qual,还同时要求只输出那些 $2 > pos 的结果。你如果有更多的需要,可以不断往后加上 -v 设置变量。

数组

awk 中也有数组的概念和数据组织形式,不过与其说是数组,不如说更像是哈希表,原因是它的数组索引可以不必像通常我们所知的那样。

首先,它的数组语法格式这样的:

array_name[index] = value

其中:

  • array_name 是数组的名称;
  • index是数组的索引,这个索引可以是数字下标也可以是字符下标;
  • value是数组中元素的值

接下来,我们先看一下应该如何创建和访问数组中的元素:

$ awk 'BEGIN{sites["chrom"]="chr22"; sites["pos"]=17662679; print sites["chrom"], sites["pos"]}'

这个命令执行之后,print出来的结果是:

chr22 17662679

在上面代码中,我定义了一个名字为 sites 的数组,这个数组的索引下标我不是用通常的数字,而是字符——后面再举例子讲数字下标,这个做法与哈希表如出一辙(或者说,就是哈希)。用字符索引代替数字索引的好处是,可以用名称来获得对应的 value,建立起索引和 value 之间的一个映射关系,甚至可以像哈希表那样通过 index 进行信息查找。

这个方式还可以 “人为地” 制造出多维数组。只需要你把索引的命名按照多维数组那样的形式来进行就可以。比如,以一个二维数组为例,我们可以用 array_name["0,0"]、array_name["0,1"]、 array_name["1,0"]、array_name["1,1"]分别代表一个 2×2 数组中的各个元素,这里就不额外举例子了。

以上是字符下标的数组,接着我举一个数字下标的数组例子:

$ echo "this is a variant in vcf file" | awk '{split($0, array, " "); for(i=1; i<=length(array); i++){print array[i]} }'
this
is
a
variant
in
vcf
file

在这个例子里面,我想你也可以看出来,数字下标的数组一般都是通过文本处理而产生的,比如这里我就是通过 split 函数,把 “this is a variant in vcf file” 这一个字符串,按照空格,将它切分为一个数组,数组中的元素为这字符串中的每一个单词。然后,再写一个循环语句将其输出(循环语句中 length函数,可以获取到该数组的长度),值得注意的一个地方是,awk 数组的第一个元素下标是 1 而不是 0

另外,如果要删除掉数组中的某个元素,只需要通过 delete 语句就可以实现,语法:

delete array_name[index]

这样就可以随意把任意一个 index 索引的元素删除掉。

其实,awk 的数组功能,我们在生物信息数据分析的场景中用的不多,就算真要用到,这个分析任务的复杂性也往往不是在 awk 仅用数组就可以解决的,这个时候可能也是需要写成脚本的时候了。但不管如何,数组的创建和使用方法还是值得在这里描述清楚的。特别是在数组上也可以有更多的操作,比如,还可以用 asort 对数据元素进行排序,或者使用 asorti 对数组索引进行排序。

再谈条件判断与循环语句

awk 虽然是一个 文本文件处理程序,但其实它也像是一个编程语言,所以在常见编程语言中该有的功能和语法表达形式,其实它也照样有。比如,之前提到的 if - else 语句,这里我还要再说上一说,同时也把循环语句补充上来。

先说 if 的语法:

if (条件) {
  动作
}

中间的执行动作,都括在大括号里。由于之前(见上一篇文章)已经给过不少例子了,所以这里我想偷个懒,只要大家能够看明白的,就不多举例子了。

除了 if 语句,紧接着的就是 if-else 语句,它的语法结构是:

if (条件) {
  动作
} else {
  动作
}

if 中的判断条件符合了,就执行 if 中的动作,否则执行 else 中的动作,这是一个比较常用的语句功能。

除了上面两种之外,其实 awk 也有 if-else-if 语句,我们可以用它来创建多个 if-else 组合,实现多条件判断。

if (条件1){
  动作
} else if (条件2) {
  动作
} else if (条件3) {
  动作
} else {
  动作
}

关于 awk 的 if 语句就在这里都补充完成了。接下来说一说,awk 中的另一个重要语句:循环。

循环也是常规编程语言用有的核心语法,在 awk 中也不例外。虽然,awk 在处理文本数据的时候,BODY 语句会自动循环执行的,但是它的循环是在文本文件中一行行往下进行的循环。如果我们需要在每一行文本处理中都做出一些其他的循环操作,那么就需要使用 awk 提供出来的循环语句。

awk 的循环语句有两种:for 和 while 。

对于 for 循环来说,它的语法是这样的:

for (起始条件初始化; 终止条件; 迭代起始条件) {
  动作
}

对于有过编程基础的朋友来说,应该对这种结构非常熟悉,几乎所有常见的编程语言,都是类似的for循环结构。它在执行的时候,先初始化起始条件,然后与终止条件比较,如果条件为真,那么执行 for 循环中的动作——也就是执行循环体,然后执行第三部分“迭代起始条件”——这个迭代一般是递增或者递减操作,然后再继续和终止条件进行比较,只要比较结果为真,就一直循环下去;直到条件为假,才终止 for 循环并退出这个执行语句。下面就是一个简单的循环输出数字的 awk 语句:

$ awk 'BEGIN{ for(i=0; i<4; i++){print i} }'
1
2
3

之所以把这个语句中用在 BEGIN 里,目的其实就是想省下对具体文件的处理,方便作为例子。至于在具体的项目中,还应该按照具体的文件处理需求来执行。

对于 while 循环来说,它的语法结构为:

while (终止条件) {
  动作
}

相比于 for 循环语句,while 语句要简单得多。它只检查 while 后面的条件是否为真,如果是真,那么执行,如果为假,那么结束循环。这里用数字输出作为例子:

$ awk 'BEGIN{i=1; while(i<4){print i; ++i;} }'
1
2
3

在 for 或者 while 循环中,并不是只有等到终止条件为假的时候,才可以退出循环。有时在执行的过程中,我们也可以强制中断循环体或者跳过某一次循环。能够完成这两个功能的是 awk 循环中提供的 break 和 continue 语句,而且这两个都是只在循环体(执行动作的语句)中使用的语句。

break 语句可以让我们在碰到某个条件的时候就强制退出循环,而 continue 语句则可以让在碰到某个条件之后,直接忽略在 continue 之下的执行动作,直接回到循环头进入下一次循环迭代。比如,我们用 continue 举个例子,输出所有 1-10 之间的奇数:

$ awk 'BEGIN{ for(i=1; i<=10; i++){ if(i % 2 > 0){print i;} else { continue; }} }'
1
3
5
7
9

自定义函数

awk 中自定义函数的语句是 function ,使用这个语句,就越来越像是在编程了,虽然能够做的事情更多了,但代价是整个 awk 也会因此变得更加复杂。

函数的好处,除了功能模块化之外,就是提高代码的复用性。在 awk 中我们自定义函数的语法是:

function function_name(参数1,参数2,参数3,...){
  动作
}

其实跟前面的语句有类似之处,都是关键字+名称+参数(或者判断条件)+动作的模式。这里函数前面的 function 关键字是必须,它规定了这是一个自定义的函数。其中:

  • function_name 是函数名字;
  • 大括号括起来的一系列执行动作是该函数所要完成的具体功能

另外,函数的定义一般要在其它 awk 操作之前完成。我自己没有合适的例子,就借用网上的一个 awk 函数来举例吧。下面代码定义了两个功能很简单的函数,它们分别用于数字比较之后,返回数据中的最小值和最大值,然后还定义了一个 main 函数作为主函数来调用它们。而且,一般来说,当需要自定义函数时,代码都会比较长,已经不适合在一行命令中写下,所以会写成一份真正的 awk 脚本文件,这个文件的后缀用 .awk,比如这里我们就可以将其命名为 function_demo.awk ,其中的所有 awk 代码如下:

# 返回最小值
function find_min(num1, num2){
   if (num1 < num2)
     return num1
   return num2
}# 返回最大值function find_max(num1, num2){  if (num1 > num2) {
     return num1  } else {
     return num2  }
}

# 主函数
function main(num1, num2){
   # 查找最小值
   result = find_min(num1, num2)
  print "Minimum =", result

   # 查找最大值
  result = find_max(num1, num2)
   print "Maximum =", result
}

# 整个脚本还是从这里开始执行
BEGIN {
  main(30, 20)
}

这时,通过 awk -f 执行这个脚本,我们就可以得到如下结果:

$ awk -f function_demo.awk
Minimum = 20
Maximum = 30

要再提醒大家的是,这个脚本里只定义了 BEGIN 代码段,这是为了可以在不用有任何文件输入时也能执行。但在实际使用的时候,我们是需要定义 BODY 代码段的,甚至还有 END 代码段的,并且在最后还要有一份待处理的文件作为输入。

还能同时处理多个文件?

其实从 awk 本来的设计理念来看,它最适合的场景是一次只处理一份文件。但如果在某些情况下,我们非要同时处理多个文件,awk 也能做到,只是这个情况用的很少,而且也相对费劲一些。我自己从未如此使用过,它也不是本文的重点,所以这里我也不打算进一步展开,只是想告诉大家 awk 是有能力这样做的,大家真有需要了,再从网上或者它的手册中找到它的具体用法吧。

小结

这篇文章就在这里结束吧。如无意外这应该也是最近两篇 awk 文章中的最后一篇,四千五百多字(不含代码)。看完这一篇,再加上上一篇的 awk 基础用法,我们其实已经可以用 awk 来实现很多工作了,包括很复杂的文本处理,都完全可以通过 awk 实现。但是,我觉得要提醒一下大家,awk 是动态语言,执行效率并不是很高,处理一些比较小的文件,确实没有什么问题。但,如果要处理大型的文件,比如 BAM 之类的,那么不建议用 awk 。而且,awk 的功能毕竟还是比较单一,在处理多文件处理方面也不是很灵活,也不能很好地与其他代码进行交互,更加没有什么基于 awk 开发的包来支持更多的分析,它本身是一把精致的匕首,我们就不要过多地将其它当大刀来使。任何工具或者编程语言都应该是用在它最合适的地方上才好,用不着因为手里拿着一个锤子,所以就要把世界都当成了钉子。对我来说,使用 awk 主要还是图它在基本文本处理方面的简单、方便和快捷,可以只用一行命令就搞定很多事情,如果复杂了我也不一定要用 awk 了

还是为你推荐这本书:

参考链接

http://www.runoob.com/w3cnote/awk-work-principle.html http://www.runoob.com/w3cnote/awk-user-defined-functions.html

----/ END /----

※ ※ ※

你还可以读