什么是流式传输？

站长

2023年07月24日 07:09 · 阅读数 95

当下 chatGPT 是最热门的一款型语言模型，可以用于自然语言处理任务，如对话生成、文本摘要、机器翻译等。ChatGPT的特点是可以根据输入文本动态生成输出，因此采用流式传输的方式，一边生成一边输出结果，无需等待结果的生成。

什么是流式传输？

流式传输是一种处理数据的有效方式，它可以实现高效的数据处理和传输，特别适用于大型数据或网络通信场景。

在流式传输中，数据可以被视为连续的数据流，而不是一个完整的数据集，在不等待整个数据集加载完毕的情况下可以对数据进行处理或传输。每个数据块都可以立即进行处理，并且在处理一个数据块时，不需要等待前面或后面的数据块。

将数据分成小块并逐个处理，从而实现较低的内存消耗和更快的处理速度，且无需一次性加载整个数据集到内存中。

流式传输的使用场景：

大型数据处理：当处理大型数据集时，流式传输可以避免将整个数据集加载到内存中，从而减少内存占用并提高性能。
网络通信：在网络通信中，流式传输可以逐个块地发送和接收数据，从而提供更高的响应速度和更好的带宽利用率。
实时数据处理：对于实时数据流，流式传输可以立即处理新到达的数据块，并实时输出结果，无需等待数据的完整响应，例如聊天应用程序、股票报价等。
文件传输：在文件传输中，流式传输可以逐个块地读取和写入文件，而不需要一次性加载整个文件到内存中，从而适用于处理大型文件。

流式传输的优点：

内存效率：流式传输允许逐个块地处理数据，无需一次性加载整个数据集到内存中。这对于处理大型文件或网络通信非常有用。
响应速度：数据块在流式传输期间可以即时处理，而不需要等待整个数据集加载完毕。这使得能够更快地响应请求或处理数据。
可扩展性：由于流式传输以块的形式处理数据，因此可以轻松地处理任意大小的数据。无论数据有多大，都不会受到内存限制的影响。

node 中的流式传输

在 node.js 中，流式传输是一种处理数据的有效方式，它可以实现高效的数据处理和传输，特别适用于大型数据或网络通信场景。通过使用流（Stream），你可以逐个块地处理数据，而无需一次性加载整个数据集到内存中。

node 为我们提供了四种类型的流：

可读流 Readable Stream：用于从数据源（如文件、接口请求等）读取数据。
可写流 Writable Stream：用于向目标（如文件、网络响应等）写入数据。
双工流 Duplex Stream：既可以读取数据，也可以写入数据。
转换流 Transform：可以在读取和写入数据时对数据进行转换或修改。

这些流可以通过使用 node.js 内置的模块（如 fs、http、stream 等）进行创建和操作。

在这些流对象中，数据是通过事件驱动的方式进行处理的，所有的流对象都用 on绑定事件，并触发。当数据源产生新的数据时，流对象会触发相应的事件，并执行绑定在该事件上的回调函数来处理数据。

当流对象接收到新的数据时会触发 data 事件
当数据源没有数据时触发 end 事件，此时表示数据流已经结束
当在数据流中发生错误时触发 error
当流对象被关闭时会触发 close 事件
如果想要控制读取的速度，可以用 pause 事件暂停，而 resume 事件可以用于恢复数据的读取

流式文件读写

const fs = require('fs');

// 创建可读流读取文件
const readableStream = fs.createReadStream('input.txt');

// 创建可写流将内容写入文件
const writableStream = fs.createWriteStream('output.txt');

// 监听可读流的 'data' 事件，读取数据块并写入到可写流中
readableStream.on('data', (chunk) => {
  writableStream.write(chunk);
});

// 监听可读流的 'end' 事件，表示文件读取完成
readableStream.on('end', () => {
  writableStream.end();
});

通过监听可读流的 'data' 事件，可以获取到每个数据块（chunk），然后将其写入到可写流中。

这样，文件的读取和写入操作就是以数据块为单位逐个进行的，而不是一次性加载整个文件

在实际的应用中，你可以根据需求使用流来进行数据处理、转换、过滤等操作。你还可以使用流来处理网络通信、处理大型文件、实现数据流水线等场景，以提高性能和效率。

流不仅仅支持文件的读写，还可以通过流式传输完成接口请求数据的传输。

请求的流式响应

当我们在使用 node 作为服务器时，也可以通过流式传输完成接口的响应，这种方式被称为流式响应或流式输出。

使用流式响应可以提供更高的响应速度和更低的内存占用，在请求接口时，服务端不会一次性将完整的内容发送给客户端，而是将数据分块生成，并逐个块地发送。

以下是一个 node 示例，展示了如何使用流式响应来输出数据：

import express from "express";
const app = express();
//  node 服务端接口路径
app.post("/chatStream", async (request, response) => {
  console.log(request.body)
  // 设置返回的响应头为流式传输
  response.setHeader('Content-type', 'application/octet-stream');
  
  const data = '你好啊';
  const interval = setInterval(() => {
    response.write(data);
  }, 3000);

  setTimeout(() => {
    clearInterval(interval);
    response.write('有什么可以帮你的吗');
    response.end();
  }, 5000);

  // 关闭输出流
  response.end();
  
});

app.listen(port, () => {
  console.log(`listening on port ${port}`);
});