linux中使用split命令分割大文件使用方法

😂 这篇文章最后更新于1220天前,您需要注意相关的内容是否还可用。
目录导航
  • 实例
    • 实例一
    • 实例二
  • 其他
    • dd命令
    • /dev/null和/dev/zero的区别
  • 功能:使用 shellsplit 可以将一个大文件分割成很多个小文件,有时文件太大处理起来不方便就需要使用到了。

    在默认情况下将按照每1000行切割成一个小文件。

    语法

    split [-<行数>][-b][-c][-l] file.txt

    参数说明

    split [-bl] file [prefix] -a 5 -d
    -b -- bytes=size 对file进行切分 每个小文件大小为size 可以指定单位b,k,m
    -l -- lines=number 对file进行切分 每个文件都有number行
    -a 5 后缀长度
    -d 数字后缀
    -c <字节> : 与参数"-b"相似,但是在切割时将尽量维持每行的完整性
    prefix 分割后产生的文件名前缀

    例如如下就是将文件xxx.txt以50M分割 以三位数字为后缀生成小文件

    split -C 50M xxx.txt -d -a 3 file_

    实例

    实例一

    使用指令 split 将文件 file.txt 每6行切割为一个文件,输入:

    split -6 file.txt
    -rw-r--r-- 1 root root 27 Nov 13 09:32 file.txt
    -rw-r--r-- 1 root root 12 Nov 13 09:32 xaa
    -rw-r--r-- 1 root root 15 Nov 13 09:32 xab

    实例二

    假设要切分的文件为 file.txt 大小为 109M 3192043行。

    1. 按行数切割
    split -l 1000000 file.txt ## 按每个文件一百万行进行切割
    -rw-r--r-- 1 root root 113209645 Sep  2 11:04 file.txt
    -rw-r--r-- 1 root root  35466488 Sep  2 15:46 xaa
    -rw-r--r-- 1 root root  35465970 Sep  2 15:46 xab
    -rw-r--r-- 1 root root  35465632 Sep  2 15:46 xac
    -rw-r--r-- 1 root root   6811555 Sep  2 15:46 xad

    生成xaa、xab、xac、xad等4个文件。

    1. 按大小切割
    split -b 20m file.txt ## 按每个文件20m的大小进行切割
    -rw-r--r-- 1 root root 113209645 Sep  2 11:04 file.txt
    -rw-r--r-- 1 root root  20971520 Sep  2 15:47 xaa
    -rw-r--r-- 1 root root  20971520 Sep  2 15:47 xab
    -rw-r--r-- 1 root root  20971520 Sep  2 15:47 xac
    -rw-r--r-- 1 root root  20971520 Sep  2 15:47 xad
    -rw-r--r-- 1 root root  20971520 Sep  2 15:47 xae
    -rw-r--r-- 1 root root   8352045 Sep  2 15:47 xaf

    生成多个文件,每个大小为20M。

    1. 添加前缀切割
    split -b 50m file.txt example
    -rw-r--r-- 1 root root  52428800 Sep  2 15:49 exampleaa
    -rw-r--r-- 1 root root  52428800 Sep  2 15:49 exampleab
    -rw-r--r-- 1 root root   8352045 Sep  2 15:49 exampleac
    1. 更改命名
    split -l 1000000 file.txt -d -a 3 url_
    -rw-r--r-- 1 root root  35466488 Sep  2 16:11 url_000
    -rw-r--r-- 1 root root  35465970 Sep  2 16:11 url_001
    -rw-r--r-- 1 root root  35465632 Sep  2 16:11 url_002
    -rw-r--r-- 1 root root   6811555 Sep  2 16:11 url_003

    说明:

    • -l 按行分割
    • -d 添加数字后缀
    • -a 3 表示用3位数来顺序命名 后缀长度
    • url_ 分割后文件的前缀
    1. 添加拓展名
    split -l 4 file.txt -d -a 3 url_ && ls | grep url_ | xargs -n1 -i {} {}.txt

    说明:

    • && 将2个命令连接起来一起执行
    • 查找url_开头的文件,逐个重命名为xxx.txt
    1. 使用 cat 命令合并数据
    cat url_*.txt > url.txt

    其他

    dd命令

    生成一个大小为100kb的测试文件:

    dd if=/dev/zero bs=100k count=1 of=data.file
    1+0 records in
    1+0 records out
    102400 bytes (102 kB) copied, 0.000258 seconds, 397 MB/s
    # count=1指仅拷贝一个块
    # bs=100k 指块大小为100k个字节

    dd命令用指定大小的块拷贝一个文件,并在拷贝的同时进行指定的转换。

    • if=文件名:输入文件名,缺省为标准输入。即指定源文件。< if=input file >
    • of=文件名:输出文件名,缺省为标准输出。即指定目的文件。< of=output file >
    • ibs=bytes:一次读入bytes个字节,即指定一个块大小为bytes个字节。
      obs=bytes:一次输出bytes个字节,即指定一个块大小为bytes个字节。
      bs=bytes:同时设置读入/输出的块大小为bytes个字节。
    • cbs=bytes:一次转换bytes个字节,即指定转换缓冲区大小。
    • skip=blocks:从输入文件开头跳过blocks个块后再开始复制。
    • seek=blocks:从输出文件开头跳过blocks个块后再开始复制。
      注意:通常只用当输出文件是磁盘或磁带时才有效,即备份到磁盘或磁带时才有效。
    • count=blocks:仅拷贝blocks个块,块大小等于ibs指定的字节数。
    • conv=conversion:用指定的参数转换文件。

    /dev/null和/dev/zero的区别

    • /dev/null,外号叫无底洞,你可以向它输出任何数据,它通吃,并且不会撑着!
    • /dev/zero,是一个输入设备,你可你用它来初始化文件。该设备无穷尽地提供0,可以使用任何你需要的数目——设备提供的要多的多。他可以用于向设备或文件写入字符串0。
    • /dev/null——它是空设备,也称为位桶(bit bucket)。任何写入它的输出都会被抛弃。如果不想让消息以标准输出显示或写入文件,那么可以将消息重定向到位桶。
    • 像/dev/null一样, /dev/zero也是一个伪文件, 但它实际上产生连续不断的null的流(二进制的零流,而不是ASCII型的)。 写入它的输出会丢失不见, 而从/dev/zero读出一连串的null也比较困难, 虽然这也能通过od或一个十六进制编辑器来做到。
    • /dev/zero主要的用处是用来创建一个指定长度用于初始化的空文件,就像临时交换文件。
    • 关于 /dev/zero 的另一个应用是为特定的目的而用零去填充一个指定大小的文件, 如挂载一个文件系统到环回设备 (loopback device)或”安全地” 删除一个文件。

    参考链接1:Linux:split命令详解

    参考链接2:linux命令总结dd命令详解