关于将 PDF 切分为不定长的多张单个 PDF

一大张 PDF 中由多张 PDF 组成,比如一共 10 页,1-3 页为一张,4-8 页为一张,9-10 页为一张,我们想把这一张 PDF 切分出三张,可以直接使用切分 PDF 组件,然后填入页数即可;这是在知道具体哪几页为一张 PDF 的情况下,但是如果是不定的,每次都是有不同的不定长的 PDF 组成,我们该如何将他们切分出来呢?提供以下思路:
首先 pdf 要有一定的规范,比如 PDF 的开头要有固定的文字描述、结尾也要有固定的文字描述,这样我们可以去从头去循环读取 PDF 的文字内容,文字内容如果包含了开头的文字描述,就意味着这一页是开头,记录页数,然后再判断一下结尾描述是否存在于当前页面当中,如果也存在,那么意味着这一页为单独的一页,根据页数直接切分出来;如果结尾描述不存在当前页中,再去循环下一页,直到找到结尾描述为止当做结尾页并记录页数,根据开头页数与结尾页数,把开头页到结尾页这几页 PDF 切分出来,依次类推,就可以把大 PDF 切分为多张小 PDF。