什么是 awk？

在日常工作中，无论是在处理服务器日志、分析数据报表，还是清洗文本数据，awk 都是绝对值得我们掌握的一把利器。它轻量、强大、高效，被誉为 Linux 世界里最灵活的文本处理工具之一。

什么是 awk？

awk 是一种编程语言，专门用于文本和数据的处理。它的名字来源于三位创始人的姓氏首字母：Aho、Weinberger 和 Kernighan。awk 特别擅长处理结构化的文本数据，比如：

• 日志文件
• CSV/TSV 表格
• 报表输出
• 程序生成的文本数据

基本语法

awk 的基本语法非常简洁：

awk 'pattern { action }' filename

其中，pattern 是匹配模式，action 是要执行的操作。如果省略 pattern，则对所有行执行操作；如果省略 action，则默认打印匹配的行。

简单描述这个过程就是：读取每一行 → 匹配模式 → 执行动作。

核心概念：字段（Field）与内置变量

awk 自动把每行按分隔符拆成字段：

• $0：整行内容
• $1：第一列
• $2：第二列
• NF：字段个数（Number of Fields）
• NR：行号（Number of Record）
• FS：输入分隔符（Field Separator）
• OFS：输出分隔符（Output Field Separator）

例如：

张三 25 技术部 15000

• $1 = 张三
• $2 = 25
• $4 = 15000
• $NF = $4 = 15000

实用案例详解

1. 打印特定列

假设我们有一个用户信息文件，每行包含姓名、年龄和职业，用空格分隔：

# 打印第一列（姓名）awk '{ print $1 }' users.txt# 打印第一列和第三列awk '{ print $1, $3 }' users.txt# $0 表示整行awk '{ print $0 }' users.txt

2. 使用自定义分隔符

当数据使用逗号或其他字符分隔时，可以使用-F选项指定分隔符：

# 处理CSV文件awk -F',' '{ print $1, $3 }' data.csv# 使用冒号分隔（如/etc/passwd文件）awk -F':' '{ print $1 }' /etc/passwd

3. 条件过滤

awk支持强大的条件判断：

# 打印第二列大于30的行awk '$2 > 30' users.txt# 打印第三列等于"engineer"的行awk '$3 == "engineer"' users.txt# 使用正则表达式匹配awk '/John/ { print $0 }' users.txt# 组合条件awk '$2 > 25 && $3 == "developer"' users.txt

4. 内置变量的使用

awk提供了许多实用的内置变量：

# NR：当前行号awk '{ print NR, $0 }' file.txt# NF：当前行的字段数量awk '{ print NF }' file.txt# 打印每行最后一个字段awk '{ print $NF }' file.txt

5. BEGIN 和 END 块

BEGIN 块在处理任何输入之前执行，END 块在处理完所有输入后执行：

# 添加表头和统计awk 'BEGIN { print "姓名\t年龄" }      { print $1, $2 }      END { print "总计:", NR, "条记录" }' users.txt# 计算总和awk 'BEGIN { sum = 0 }      { sum += $2 }      END { print "平均年龄:", sum/NR }' users.txt

6. 格式化输出

使用 printf 可以实现更精确的格式控制：

# 格式化数字输出awk '{ printf "%-10s %5d\n", $1, $2 }' users.txt# 保留小数位awk '{ printf "%.2f\n", $1 }' numbers.txt

7. 统计和计算

awk 在数据统计方面非常出色：

# 统计文件行数awk 'END { print NR }' file.txt# 计算某列的总和awk '{ sum += $2 } END { print sum }' data.txt# 找出最大值awk 'BEGIN { max = 0 }      { if ($2 > max) max = $2 }      END { print "最大值:", max }' numbers.txt

8. 数组的使用

awk 支持关联数组，非常适合分组统计：

# 统计每个职业的人数awk '{ count[$3]++ }      END { for (job in count) print job, count[job] }' users.txt# 按部门统计工资总和awk -F',' '{ dept[$2] += $3 }      END { for (d in dept) print d, dept[d] }' salary.csv

实战场景

日志分析

# 统计访问 IP 的次数awk '{ ip[$1]++ } END { for (i in ip) print ip[i], i }' access.log | sort -rn# 统计 HTTP 状态码awk '{ print $9 }' access.log | sort | uniq -c

数据清洗

# 去除空行awk 'NF > 0' file.txt# 去除重复行（保持顺序）awk '!seen[$0]++' file.txt

CSV 处理

# 计算 CSV 文件某列的平均值awk -F',' '{ sum += $2; count++ } END { print sum/count }' data.csv# 转换 CSV 为制表符分隔awk -F',' '{ print $1"\t"$2"\t"$3 }' input.csv > output.txt

高级技巧

多文件处理

# 处理多个文件并标识来源awk '{ print FILENAME, $0 }' file1.txt file2.txt

字段运算

# 计算两列的和awk '{ print $1 + $2 }' numbers.txt# 字符串拼接awk '{ print $1"-"$2 }' data.txt

使用函数

# 使用内置函数awk '{ print toupper($1) }' file.txt  # 转大写awk '{ print length($1) }' file.txt   # 字符串长度awk '{ print substr($1, 1, 3) }' file.txt  # 截取子串

常见问题和注意事项

1. 字段从1开始计数：$1 是第一个字段，$0 是整行
2. 默认分隔符是空格和制表符：连续的空格被视为一个分隔符
3. 数值和字符串：awk 会自动根据上下文转换类型
4. 正则表达式使用斜杠：/pattern/用于匹配
5. 变量无需声明：直接使用即可，默认值为 0 或空字符串

写在最后

awk 是一个功能强大、语法简洁的文本处理工具。无论是简单的列提取，还是复杂的数据统计和分析，awk 都能胜任。掌握 awk，能让你的 Linux 命令行操作效率大大提升。

建议从简单的打印、过滤开始练习，逐步掌握条件判断、数组、函数等高级特性。多动手实践，你会发现 awk 的魅力所在！

至此，Linux 文本三剑客我们已经全部认识了。实际工作中，它们往往不是单独作战，而是需要根据任务特点轮番上阵，甚至组合使用、相互配合，各自发挥所长。从快速查找、精准替换，到复杂的文本统计与格式化输出，它们几乎可以应对所有与文本处理有关的场景。只有真正理解它们各自擅长的领域和典型应用方式，才能在需要时信手拈来，做到既高效又优雅，让你的工作事半功倍。