PDF 生成（1）— 开篇

站长

2024年04月12日 10:43 · 阅读数 23

当学习成为了习惯，知识也就变成了常识。 感谢各位的关注、点赞、收藏和评论。

新视频和文章会第一时间在微信公众号发送，欢迎关注：李永宁lyn

文章已收录到 github 仓库 liyongning/blog，欢迎 Watch 和 Star。

简介

本系列旨在介绍纯前端技术方案下的 PDF 生成最佳实践。内容涵盖业务背景、选型思路和实践历程，从简单的 PDF 文件生成到复杂的配置化与服务化。

整个实践过程以技术为驱动，同时也展示了如何打造技术产品的过程。是一份适合任何人实践的教程。

背景

需求来自业务对公司战略的拆解 — 安全运维托管服务，为用户提供全日制的数字化资产安全运维、监控、告警、专家分析等服务。一句话总结就是，用户付钱找我们为用户提供全方位的资产运维服务。

在这个服务中我们为用户做了很多事情，我们需要让用户看到我们的价值，所以会以日报、周报的形式为用户推送运维报告，而这份报告就是以 PDF 文件的形式呈现。

所以，这份报告承载了产品能力和价值的传递，业务对 PDF 文件内容的展现提出了明确的要求：需要呈现出色彩鲜明、精美的设计，简单描述就是好看 + 酷炫。

于是，设计同学的设计稿就来了

本系列出现的所有和托管服务相关的配图版权均归 360 企业安全云所有

PDF 生成（1）— 开篇

看到设计稿的瞬间，就在想，这效果用 PDF 能呈现？最后会不会是这结果？

PDF 生成（1）— 开篇

因此，业务需求可以归纳为一份出色、惊艳的 PDF 文件。

技术调研

讲了业务背景，接下来就该技术调研了，经过调研，PDF 文件生成可以总结为两大类：原生方案和转化方案。

原生方案

利用开源工具库直接操作 PDF 文件，在文件内绘制内容，比如 iText、PDFKit、pdf-lib。

优点，性能高，适用于内容简单的场景
缺点，难以处理具有复杂排版和样式的场景

转化方案

将内容通过中间媒介转化成 PDF 文件，主要包括：Word 转 PDF、HTML/CSS 转 PDF。

Word 转 PDF 的缺点和原生方案一样，在复杂排版和样式场景上有心无力。大概原理是通过 Word 提供的 API 操作编写 Word 文档，然后 Word 转换成 PDF 文件。

HTML/CSS 转 PDF，主要有如下三种方案：

模版引擎，利用模版引擎生成 HTML/CSS，然后结合下面的两个方案生成 PDF 文件，一般后端同学会用这个方案
Canvas，前端常用的方案，例如 html2canvas + jsPDF，但在 PDF 分页、内容截断问题上难以解决，PDF 目录页不支持页面跳转和展示页码
浏览器打印系统，利用浏览器的布局、渲染、打印能力，通过 DevTools 协议控制 Chrome/Chromiun，实现 PDF 文件的打印，即 chrome 浏览器右键 -> 打印的自动化版本

技术决策

经过调研和众多方案的分析，最终我们选择了浏览器打印系统方案，具体的实现上我们选择了 Puppeteer 框架，它是一个 Node.js 库，提供高级 API 控制 Chrome/Chromiun 浏览器，我们在浏览器中手动执行的大多数操作它都可以完成，例如执行 page.pdf 方法即可将当前渲染的页面打印成 PDF 文件，简单易用。

为什么选择基于浏览器打印系统的 puppeteer 方案？

经过方案调研之后的综合对比，基于浏览器打印系统的方案更符合业务的诉求
我们是前端团队，这套方案更符合团队的技术栈
人力和时间成本，其他几个方案基本上就是只能服务端同学自己做，前端很难参与进去，对服务端团队的研发资源造成压力，影响部分业务的吞吐率

这套方案前后端同学各司其职、通力合作，分别做自己擅长的事。服务端同学开发页面接口供前端同学调用，前端同学负责开发酷炫的页面，PDF 生成服务将前后端同学开发的页面转成 PDF 文件

PDF 生成（1）— 开篇

于是，产品和设计同学就可以在这张静态的 A4 纸上尽情发挥，不受技术限制。

技术架构

PDF 生成（1）— 开篇

方案的技术架构，分为三大块，分别是：

接入方，即 PDF 生成服务的调用方，就是一个普通的 Web 项目（前端 + 后端）
PDF 生成服务，对外暴露 API，一次 API 调用，产出一份 PDF 文件的下载地址
配置服务，维护接入方的信息，为 PDF 生成服务提供必要的配置信息，比如接入方 Web 项目的页面地址，PDF 生成服务会负责将这些页面生成 PDF 文件

整体执行流程如下：

PDF 生成（1）— 开篇

接入方，带着分配的 APP ID 和其它参数调用生成 PDF 服务的 API 接口，其它参数是接入方前后端自己需要用到的参数，调用时提供的所有参数会原封不动的通过 URL 查询参数带到接入方的前端页面地址上
PDF 生成服务
- 接收到请求后，将请求放入队列
- 监听到队列有内容进入，通知生成 PDF 文件的模块，启动 PDF 生成任务
- 任务拿着 APP ID 请求配置服务，获取到对应的配置信息
- 任务将配置信息中指定的所有页面打印成 PDF 文件
- 将 PDF 文件上传到智慧云（S3）上，并将 PDF 文件的下载地址通过回调接口回传给接入方

总结

到这里本文就结束了，本文主要讲了如下内容：

业务背景，要求技术能够产出一份漂亮 + 酷炫的 PDF 文件
技术调研，主要分为原生方案和转化方案
技术决策，结合业务诉求、各个方案的优缺点、团队技术栈和部门人力、时间成本，最终选择基于浏览器打印系统的 puppeteer 方案
整个方案的技术架构设计

一个完善的技术架构是随着业务持续迭代而产生的，接下来我们将从零开始逐步实现整套架构，因此这是一份适合任何人实践的教程

链接

PDF 生成（1）— 开篇中讲解了 PDF 生成的技术背景、方案选型和决策，以及整个方案的技术架构图，所以后面的几篇一直都是在实现整套技术架构
PDF 生成（2）— 生成 PDF 文件中我们通过 puppeteer 来生成 PDF 文件，并讲了自定义页眉、页脚的使用和其中的坑。本文结束之后 puppeteer 在 PDF 文件生成场景下的能力也基本到头了，所以，接下来的内容就全是基于 puppeteer 的增量开发了，也是整套架构的核心和难点
PDF 生成（3）— 封面、尾页通过 PDF 文件合并技术让一份 PDF 文件包含封面、内容页和尾页三部分。
PDF 生成（4）— 目录页通过在内容页的开始位置动态插入 HTML 锚点、页面缩放、锚点元素高度计算、换页高度补偿等技术让 PDF 文件拥有了包含准确页码 + 页面跳转能力的目录页
PDF 生成（5）— 内容页支持由多页面组成通过多页面合并技术 + 样式沙箱解决了用户在复杂 PDF 场景下前端代码维护问题，让用户的开发更自由、更符合业务逻辑
PDF 生成（6）— 服务化、配置化就是本文了，本系列的最后一篇，以服务化的方式对外提供 PDF 生成能力，通过配置服务来维护接入方的信息，通过队列来做并发控制和任务分类
代码仓库 欢迎 Star

当学习成为了习惯，知识也就变成了常识。 感谢各位的关注、点赞、收藏和评论。

新视频和文章会第一时间在微信公众号发送，欢迎关注：李永宁lyn

文章已收录到 github 仓库 liyongning/blog，欢迎 Watch 和 Star。

转载自:https://juejin.cn/post/7344628375379574822