pdf转成txt后，里面的章节排序规则不同，如何拆分？

站长

2024年07月12日 08:57 · 阅读数 28

我将示例给到pdf文件(如Healing-Her-Heart.pdf、Don-Quijote.pdf转化成txt后) 这几个txt里的章节分序大都不一样。有的是罗马数字I II III依次类推进行分章，有的是CHAPTER ONE 、CHAPTER 1 、 Chapter One 或者ChapterI ChapterII 这种,我想根据这些章节进行拆分。以此来显示小说内容。 pdf转成txt后，里面的章节排序规则不同，如何拆分？

1个回答

test

2024-07-12

这个只能看一些文本, 找规则, 然后拿正则匹配拆了. 比如关键字Chapter , 前面有空行之类的规律.

适合作为回答的

经过验证的有效解决办法
自己的经验指引，对解决问题有帮助
遵循 Markdown 语法排版，代码语义正确

不该作为回答的

询问内容细节或回复楼层
与题目无关的内容
“赞”“顶”“同问”“看手册”“解决了没”等毫无意义的内容