Jansiel Notes

随便写写之js的二进制处理

前言

在JavaScript中,无论是前端还是后端都有很多与二进制相关的概念,例如 BufferArrayBufferBlobStream 等等。那么这些概念彼此之间的关系是什么?各自的使用场景是什么?

  • Blob: 用于前端的一个专门支持文件操作的二进制对象
  • ArrayBuffer:前端的一个通用的二进制缓冲区,类似数组
  • Buffer:Node.js中提供的一个二进制缓冲区,常用来处理I/O操作
  • Stream:在Node.js中用于顺序的数据处理,比如文件读写、网络数据传输、端到端的数据交换等

Blob

Blob是用来支持文件操作的。简单的说:在JS中,有两个构造函数 FileBlob, 而File继承了所有Blob的属性。所以在我们看来, File对象可以看作一种特殊的Blob对象。在前端工程中,我们可以通过以下操作获得File对象:

  1. <input/> 标签中选择文件
  2. 拖拽生成的 DataTransfer 对象

File对象既然是一种特殊的 Blob,那么就可以直接调用Blob对象的方法。Blob具体方法如下:

1. 文件下载

通过window.URL.createObjectURL方法可以把一个blob转化为一个 Blob URL,并且用做文件下载或者图片显示的链接。如下例子中生成了一个 Blob URL 的例子: blob:null/e3eba36d-a3d9-4d10-8cce-c452ae47d58b,可以和冗长的Base64格式的 Data URL 相比, Blob URL 的长度显然不能够存储足够的信息,这也就意味着它只是类似于一个浏览器内部的“引用“,指向了内存中真实缓存的文件。

 1<a id="content">点此进行下载</a>
 2
 3<script>
 4  const blob = new Blob(["Hello World"]);
 5  const url = window.URL.createObjectURL(blob);
 6  console.log(url) // blob:null/e3eba36d-a3d9-4d10-8cce-c452ae47d58b
 7  let a = document.getElementById("content");
 8  a.download = "helloworld.txt";
 9  a.href = url;
10</script>
11

(需要注意的是:download属性不兼容IE, 对IE可通过window.navigator.msSaveBlob方法或其他进行优化)

2. Blob实现图片本地显示

window.URL.createObjectURL生成的 Blob URL 还可以赋给 img.src,从而实现图片的显示:

 1<input type="file" id='file' />
 2<img id='img' style="width: 200px;height:200px;" />
 3
 4<script>
 5  document.getElementById('file').addEventListener('change', function (e) {
 6    const file = this.files[0];
 7    const img = document.getElementById('img');
 8    const url = window.URL.createObjectURL(file);
 9    img.src = url;
10    img.onload = function () {
11        // 释放一个之前通过调用 URL.createObjectURL创建的 URL 对象
12        window.URL.revokeObjectURL(url);
13    }
14  }, false);
15</script>
16

3. Blob实现文件分片上传

  • 通过Blob.slice(start,end)可以分割大 Blob 为多个小 Blob
  • xhr.send是可以直接发送Blob对象的

如下例子所示,我们本地上传一个文本文件,在前端设置切割限制大小为 20 字节,最后会在 node 端批量打印文本内容。

前端代码如下:

 1<input type="file" id='file' />
 2
 3<script>
 4function upload(blob) {
 5    const xhr = new XMLHttpRequest();
 6    xhr.open('POST', '/ajax', true);
 7    xhr.setRequestHeader('Content-Type', 'text/plain')
 8    xhr.send(blob);
 9}
10
11document.getElementById('file').addEventListener('change', function (e) {
12    cont blob = this.files[0];
13    const CHUNK_SIZE = 20; .
14    const SIZE = blob.size;
15    let start = 0;
16    let end = CHUNK_SIZE;
17    while (start < SIZE) {
18        upload(blob.slice(start, end));
19        start = end;
20        end = start + CHUNK_SIZE;
21    }
22}, false);
23</script>
24

Node端(koa)代码如下:

 1app.use(async (ctx, next) => {
 2    await next();
 3    if (ctx.path === '/ajax') {
 4        const req = ctx.req;
 5        const body = await parse(req);
 6        ctx.status = 200;
 7        console.log(body);
 8    }
 9});
10

4. 本地读取文件内容

如果想要读取 Blob 或者 File 并转化为其他格式的数据,可以借助FileReader对象的API进行操作:

  • FileReader.readAsText(Blob) :将Blob转化为文本字符串
  • FileReader.readAsArrayBuffer(Blob) : 将Blob转为ArrayBuffer格式数据
  • FileReader.readAsDataURL() : 将Blob转化为Base64格式的Data URL

下面我们尝试把一个文件的内容通过字符串的方式读取出来

 1<input type="file" id='file' />
 2<script>
 3  document.getElementById('file').addEventListener('change', function (e) {
 4    const file = this.files[0];
 5    const reader = new FileReader();
 6    reader.onload = function () {
 7        const content = reader.result;
 8        console.log(content);
 9    }
10    reader.readAsText(file);
11  }, false);
12</script>
13

ArrayBuffer

Blob是针对文件的,或者可以说它就是一个文件对象。但是Blob欠缺对二进制数据的细节操作能力,如果要具体修改某一部分的二进制数据,Blob显然就不够用了,而这种细粒度的功能则可以由下面介绍的 ArrayBuffer 来完成。
ArrayBuffer的主要功能如下:

  • 读取:通过 FileReader 方法( FileReader.readAsArrayBuffer(Blob))将文件转化为ArrayBuffer格式数据:
  • 写入:通过 TypeArrayDataView 对ArrayBuffer 进行写操作

这里需要区分一下 ArrayBufferArray:

  1. ArrayBuffer 初始化后大小是固定的; Array 可以自由增减;
  2. ArrayBuffer 数据在栈中; Array 数据在堆中;
  3. ArrayBuffer 没有push/pop 等数组操作方法的;
  4. ArrayBuffer 只能读不能写,如果要写只能通过 TypeArrayDataView 实现。

1. 可以通过ArrayBuffer的格式读取本地数据:

 1document.getElementById('file').addEventListener('change', function (e) {
 2  const file = this.files[0];
 3  const fileReader = new FileReader();
 4  fileReader.onload = function () {
 5    const result = fileReader.result;
 6    console.log(result)
 7  }
 8  fileReader.readAsArrayBuffer(file);
 9}, false);
10

2.可以通过ArrayBuffer的格式读取Ajax请求数据

  • 通过xhr.responseType = "arraybuffer" 指定响应数据类型
  • 在onload回调里打印 xhr.response

前端

1const xhr = new XMLHttpRequest();
2xhr.open("GET", "ajax", true);
3xhr.responseType = "arraybuffer";
4xhr.onload = function () {
5    console.log(xhr.response)
6}
7xhr.send();
8

Node端

1const app = new Koa();
2app.use(async (ctx) => {
3  if (pathname = '/ajax') {
4    ctx.body = 'hello world';
5    ctx.status = 200;
6  }
7}).listen(3000)
8

3.可以通过TypeArray对ArrayBuffer进行写操作

 1const typedArray1 = new Int8Array(8);
 2typedArray1[0] = 100;
 3
 4const typedArray2 = new Int8Array(typedArray1);
 5typedArray2[1] = 200;
 6
 7console.log(typedArray1);
 8//  output: Int8Array [100, 0, 0, 0, 0, 0, 0, 0]
 9
10console.log(typedArray2);
11//  output: Int8Array [200, 42, 0, 0, 0, 0, 0, 0]
12

4.可以通过DataView对ArrayBuffer进行写操作

1const buffer = new ArrayBuffer(16);
2const view = new DataView(buffer);
3view.setInt8(2, 100);
4
5console.log(view.getInt8(2));
6// 输出: 100
7

Buffer

Buffer 是Node.js提供的对象,前端是没有的。它一般应用于IO操作,例如接收前端请求数据时候,可以通过Buffer的API对接收到的前端数据进行整合

前端

1const xhr = new XMLHttpRequest();
2xhr.open("POST", "ajax", true);
3xhr.setRequestHeader('Content-Type', 'text/plain')
4xhr.send("hello world");
5

Node端(Koa)

 1const app = new Koa();
 2app.use(async (ctx, next) => {
 3    if (ctx.path === '/ajax') {
 4        const chunks = [];
 5        const req = ctx.req;
 6        req.on('data', buf => {
 7            chunks.push(buf);
 8        })
 9        req.on('end', () => {
10            let buffer = Buffer.concat(chunks);
11            console.log(buffer.toString())
12        })
13    }
14});
15app.listen(3000)
16

运行结果

1// Node端输出
2hello world
3

Stream

流(stream)在 Node.js 中是处理流数据的抽象接口(abstract interface)。 我们需要 Node.js 中的流来处理和操作流数据,例如视频、大文件等。Node.js 中的 stream 模块用于管理所有流。流是一个抽象接口,用于与 Node.js 中的流数据一起工作。Node.js 提供了许多流对象。例如 HTTP请求process.stdout 就都是流的实例。流可以是可读的、可写的,或是可读写的。所有的流都是 EventEmitter 的实例。

流在处理数据时与传统方式有所不同, 它不是把数据作为一个整体进行处理(传统方式),而是把数据分割成一块一块的进行处理。文件读取时,流并不是把文件的所有内容都读取到内存中,而是只读取一块数据,等待这块数据处理完毕,比如把这块数据写入到另外一个文件中,再读取另一块数据,循环往复,直到文件读取完毕。 读取一块数据,处理一块数据,流不会让数据一直在内存中,因此使用流处理数据,可以高效的使用内存,更有可能来处理大文件

以网络数据传输(网上看视频)为例,并不是把整个电影都从服务器上下载下来才开始播放,而是一块一块地下载,下载一块,播放一块。服务器一块一块地写数据,浏览器一块一块的读数据。用流处理数据,时间上也比较高效。

Node.js 中有四种基本的流类型:

  • Writable:可以写入数据的流(例如,fs.createWriteStream())
  • Readable:可以从中读取数据的流(例如fs.createReadStream())
  • Duplex:既是Writable又是Readable 的流(例如,net.Socket)
  • Transform:Duplex可以在写入和读取数据时修改或转换数据的流(例如,zlib.createDeflate())
 1import { createReadStream, createWriteStream } from 'fs'
 2const [,, src, dest] = process.argv
 3
 4// 创建源流
 5const srcStream = createReadStream(src)
 6
 7// 创建目标流
 8const destStream = createWriteStream(dest)
 9
10// 当源流上有数据时,将其写入目标流
11srcStream.on('data', (chunk) => destStream.write(chunk))
12

本质上,我们用 createReadStreamcreateWriteStream 替换 readFilewriteFile。然后使用它们创建两个流实例 srcStreamdestStream。这些对象分别是一个 ReadableStream(输入) 和一个 WritableStream(输出) 的实例。

他们不会一次性读取所有数据。数据以块、小部分数据的形式读取。一旦块通过 data 事件可用,我们就知道源流中有新的数据块可用,立即将其写入目标流。这样,我们就不必将所有文件内容保存在内存中。

1. 可读流

 1const fs = require('fs');
 2
 3const readableStream = fs.createReadStream('./article.md', {
 4    highWaterMark: 10
 5});
 6
 7readableStream.on('readable', () => {
 8    process.stdout.write(`[${readableStream.read()}]`);
 9});
10
11readableStream.on('end', () => {
12    console.log('DONE');
13});
14

2. 可写流

1const fs = require('fs');
2const file = fs.createWriteStream('file.txt');
3for (let i = 0; i < 10000; i++) {
4   file.write('Hello world ' + i);
5}
6file.end();
7

3. 双工流 —— 该流用于创建同时可读和可写的流

 1const server = http.createServer((req, res) => {
 2    let body = '';
 3    req.setEncoding('utf8');
 4    req.on('data', (chunk) => {
 5        body += chunk;
 6    });
 7    req.on('end', () => {
 8        console.log(body);
 9        try {
10            res.write('Hello World');
11            res.end();
12        } catch (er) {
13            res.statusCode = 400;
14            return res.end(`error: ${er.message}`);
15        }
16    });
17});
18