如何利用多核CPU来加速你的Linux命令(GNU Parallel)

你是否曾经有过要计算一个非常大的数据(几百GB)的需求?或在里面搜索,或其它操作——一些无法并行的操作。数据专家们,我是在对你们说。你可能有一个4核或更多核的CPU,但我们合适的工具,例如 grep, bzip2, wc, awk, sed 等等,都是单线程的,只能使用一个CPU内核。

借用卡通人物Cartman的话,“如何我能使用这些内核”?

要想让Linux命令使用所有的CPU内核,我们需要用到GNU Parallel命令,它让我们所有的CPU内核在单机内做神奇的map-reduce操作,当然,这还要借助很少用到的–pipes 参数(也叫做–spreadstdin)。这样,你的负载就会平均分配到各CPU上,真的。

BZIP2

bzip2是比gzip更好的压缩工具,但它很慢!别折腾了,我们有办法解决这问题。

以前的做法:

cat bigfile.bin | bzip2 --best > compressedfile.bz2 

现在这样:

cat bigfile.bin | parallel --pipe --recend '' -k bzip2 --best > compressedfile.bz2 

尤其是针对bzip2,GNU parallel在多核CPU上是超级的快。你一不留神,它就执行完成了。

GREP

如果你有一个非常大的文本文件,以前你可能会这样:

grep pattern bigfile.txt 

现在你可以这样:

cat bigfile.txt | parallel --pipe grep 'pattern' 

或者这样:

cat bigfile.txt | parallel --block 10M --pipe grep 'pattern' 

这第二种用法使用了 –block 10M参数,这是说每个内核处理1千万行——你可以用这个参数来调整每个CUP内核处理多少行数据。

AWK

下面是一个用awk命令计算一个非常大的数据文件的例子。

常规用法:

cat rands20M.txt | awk '{s+=$1} END {print s}' 

现在这样:

cat rands20M.txt | parallel --pipe awk \'{s+=\$1} END {print s}\' | awk '{s+=$1} END {print s}' 

这个有点复杂:parallel命令中的–pipe参数将cat输出分成多个块分派给awk调用,形成了很多子计算操作。这些子计算经过第二个管道进入了同一个awk命令,从而输出最终结果。第一个awk有三个反斜杠,这是GNU parallel调用awk的需要。

WC

想要最快的速度计算一个文件的行数吗?

传统做法:

wc -l bigfile.txt 

现在你应该这样:

cat bigfile.txt | parallel --pipe wc -l | awk '{s+=$1} END {print s}' 

非常的巧妙,先使用parallel命令‘mapping'出大量的wc -l调用,形成子计算,最后通过管道发送给awk进行汇总。

SED

想在一个巨大的文件里使用sed命令做大量的替换操作吗?

常规做法:

sed s^old^new^g bigfile.txt 

现在你可以:

cat bigfile.txt | parallel --pipe sed s^old^new^g 

…然后你可以使用管道把输出存储到指定的文件里。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我们。

(0)

相关推荐

  • 15分钟并行神器gnu parallel入门指南

    GNU Parallel是一个shell工具,为了在一台或多台计算机上并行的执行计算任务.本文简要介绍GNU Parallel的使用. 这个cpu是多核的. 一般两核是这样工作的的: 四核是这样工作的: 16核是这样工作的: 好了不黑了.再黑intel要打我了. 在某个周末的早上百无聊赖之际,花了半天时间过了一遍gnu parallel的man page和tutorial.哈哈,我得说这半天时间花的应该挺值,因为感觉以后它能为我节省的时间不止半天吧. 本文并不会尝试去翻译gnu parallel

  • 如何利用多核CPU来加速你的Linux命令(GNU Parallel)

    你是否曾经有过要计算一个非常大的数据(几百GB)的需求?或在里面搜索,或其它操作--一些无法并行的操作.数据专家们,我是在对你们说.你可能有一个4核或更多核的CPU,但我们合适的工具,例如 grep, bzip2, wc, awk, sed 等等,都是单线程的,只能使用一个CPU内核. 借用卡通人物Cartman的话,"如何我能使用这些内核"? 要想让Linux命令使用所有的CPU内核,我们需要用到GNU Parallel命令,它让我们所有的CPU内核在单机内做神奇的map-reduc

  • Nginx服务器进程数设置和利用多核CPU的方法

    Nginx 配置文件 nginx.conf 首先需要找到 Nginx 的配置文件 nginx.conf 才能进行下面的操作,在LNMP一键安装包默认配置下,nginx.conf 存放在 /usr/local/nginx/conf/nginx.conf 至于其他环境下安装 Nginx 可以用 find / -name nginx.conf 来查找配置文件的存放路径. Nginx worker_processes进程数设置 Nginx 的配置文档 nginx.conf 中可以设置 worker_pr

  • 利用shell编程实现DOS风格的Linux命令行

    如果你是习惯于Windows命令提示符的IT人,当你第一次使用Linux命令行时,一定会感到无所适从.你所熟悉的DOS命令再Linux中基本不存在.摆在你面前的是一大堆要记背的命令. 一种替代方案是利用强大的Linux外壳命令编写shell脚本,让你在Linux下也能用DOS命令.下面告诉你怎么做. shell脚本编写基础    从定时备份到执行简单命令,Linux的shell脚本可以执行各种功能.几乎所有的程序都可以用shell脚本来运行.在脚本中甚至可以包含一些简单的条件选择.shell脚本

  • python多线程对多核cpu的利用解析

    目录 引言 引言 我们经常听到"因为GIL的存在,python的多线程不能利用多核CPU",现在我们暂且不提GIL,python能不能利用多核cpu,今天我做了一个实验,代码很简单如下所示 while 1: pass 没有运行这段代码前,cpu状态如下 下面两张图是运行之后的状态,当然这只是两张比较有代表性的图,截图间隔有十几秒的样子 根据第一张图我们发现cpu1.cpu3的负载有明显增长,我们可以得出python线程是可以利用多核cpu的结论,之前一直以为python运行后会绑定cp

  • node.js如何充分利用多核cpu

    概述 Nodejs是基于chrome浏览器的V8引擎构建的,也就说明它的模型与浏览器是类似的.我们的JavaScript会运行在单个进程的单个线程上. 但是V8引擎的单进程单线程并不是完美的结构,现如今CPU基本上都是多核的.真正的服务器往往有好几个CPU(像我们的线上物理机有12个核),所以,这就将抛出Nodejs实际应用中的一个问题:"如何充分利用多核CPU服务器?" 从严格意义上来讲,Node其实并不是真正的单线程架构,因为Node自身还有I/O线程存在(网络I/O.磁盘I/O)

  • Linux命令行查看cpu(lm_sensors)和显卡温度(nvidia-smi)的操作方法

    Linux命令行如何查看cpu和显卡温度 lm_sensors,是一款基于linux系统的硬件监控的软件.可以监控主板,CPU的工作电压,温度等数据. 实际上sensors命令只是读取了/sys/class/hwmon/目录下关于CPU等传感器温度参数并直观的展示给我们,我们不安装lm_sensors模块下也可以查看CPU温度. 在Linux下可以通过lm_sensors来查看CPU的温度(当然你的硬件首先要支持),且使用这个功能要有内核相关模块(比如I2C)的支持 默认情况下,Ubuntu L

  • Shell脚本实现把进程负载均衡到多核CPU中

    有时候,由于架构设计或其他业务本身特点原因,导致有些应用使用CPU很不均衡,所以业务处理集中在一个CPU上,而其它CPU闲得在睡觉.这里有个简单的优化方案实现将各个线程绑定到到多个CPU,从而实现性能的提高. 虽然CPU是一个不错的思路,但是不是杀手锏,其性能能提高多少依赖于各个线程的性能分布是否均匀:所以最好的办法是优化你的程序架构. 在这里分享一个Shell脚本(脚本名为bindcpu2p.sh),通过该脚本可将该进程均匀负载到各个CPU上. 复制代码 代码如下: #!/bin/sh pid

  • 批处理利用HOSTS文件(屏蔽,加速)网站的代码

    复制代码 代码如下: @echo off&setlocal&cls echo/&echo\&echo=&echo]&echo[&echo+ :start set/p a=选择模式(1:屏蔽网站 2:加速访问 3:删除被屏蔽的网站 4:退出): if not defined a goto start if %a% equ 1 (echo/&goto a) if %a% equ 2 (echo/&goto b) if %a% equ 3

  • 利用Golang如何调用Linux命令详解

    本文介绍的是Golang使用 os/exec 来执行 Linux 命令,分享出来供大家参考学习,下面来看看详细的介绍: 下面是一个简单的示例: package main import ( "fmt" "io/ioutil" "os/exec" ) func main() { cmd := exec.Command("/bin/bash", "-c", `df -lh`) //创建获取命令输出管道 stdou

  • centos7利用yum安装lnmp的教程(linux+nginx+php7.1+mysql5.7)

    前言 本文主要介绍的是基于centos7进行yum安装lnmp(linux+nginx+php7.1+mysql5.7)的相关教程,文中将一步步介绍的非常详细,下面话不多说了,来一起看看详细的介绍吧. 步骤如下: yum的安装 yum update yum安装nginx 安装nginx最新源 yum localinstall http://nginx.org/packages/centos/7/noarch/RPMS/nginx-release-centos-7-0.el7.ngx.noarch

随机推荐