评论

收藏

[python] 太方便了!利用Python对批量Pdf转Word

编程语言 编程语言 发布于:2021-06-24 10:20 | 阅读数:561 | 评论:0

  在wps或者office里面可以将pdf转word,不过只能免费转前面5页**,超过5页就**需要会员**。今天教大家一个Python办公小技巧:**批量Pdf转Word ,这样可以自由想转多少页都可以。
思路**:这里主要是利用了Python的pdfmine3k库去**提取**pdf文本内容,通过python-docx库去将内容**保存到word中。  下面先看一下效果:

DSC0000.jpg
  
01 环境准备


  在开始编写代码之前,咱们先安装一些用到的Python库,安装目录如下:
pip install pdfminer
  注意
  使用 pip install docx 安装模块 docx 后,发现不能正常使用,
  并报错 moduleNotFoundError:No module named 'exceptions'
正解
pip install python-docx
02 提取PDF内容

  1.导入相应的库
from pdfminer.pdfparser import PDFParser, PDFDocument
  解释

DSC0001.jpg
  2.读取pdf内容
  在开始读取之前,先看一下pdf的内容:

DSC0002.jpg
  辰哥这里以自己的原创文章按模块分类后,新建了一个两页的pdf文件。

DSC0003.jpg
  上面代码是读取pdf文件,并把每一页内容放到doc.get_pages里面。

DSC0004.jpg
  通过循环可以把每一页的内容提取出来,并把每一页内容打印输出

DSC0005.jpg
  
03 保存到word


  上面我们已经成功将pdf的内容提取出来,接着我们将内容保存到word里面

DSC0006.jpg
  在遍历pdf内容里面将内容逐步写入保存。最后保存命名为:Python研究者-辰哥.docx

DSC0007.jpg
  
04  小结


  为了大家方便学习,辰哥已经把本文的完整源码上传,需要的在公众后台回复:pdf转换
辰哥在本文中主要讲解了利用Python对批量Pdf转换为Word,不明白的地方可以在下方留言,一起交流。
关注下面的标签,发现更多相似文章