java使用poi读取doc和docx文件

这几天在学习java io流的东西,有一个网友看到博客后问了一个问题,就是说他的doc文档为什么用我所说的方法死活就是乱码。

我一开始以为是他方法问题,结果自己试了之后发现和他的结果一样也是乱码。

于是在网上搜寻了一阵之后才发现原来doc文档和excel一样不能用普通的io流的方法来读取,而是也需要用poi,于是进行了一番尝试后,终于以正确的编码格式读取了这个doc文件。

在网上搜索的过程中发现doc和docx的读取方法是不一样的,于是顺带也学了一下docx文件的简单读取。

一、导包:
doc文件的读取,需要导入poi-scratchpad的jar包和相关依赖包:
这里写图片描述

docx文件读取,需要导入poi-ooxml的jar包和相关依赖包:
这里写图片描述

我用的是maven构建项目,相关的依赖包会自动导入,maven导包配置如下:

 <dependency>
        <groupId>org.apache.poi</groupId>
        <artifactId>poi-ooxml</artifactId>
        <version>3.8</version>
    </dependency>
    <dependency>
        <groupId>org.apache.poi</groupId>
        <artifactId>poi-scratchpad</artifactId>
        <version>3.8</version>
    </dependency>

二、读取文件的代码:
1、doc文件读取简单示例:

public static void readAndWriterTest3() throws IOException {
        File file = new File("C:\\Users\\tuzongxun123\\Desktop\\aa.doc");
        String str = "";
        try {
            FileInputStream fis = new FileInputStream(file);
            HWPFDocument doc = new HWPFDocument(fis);
            String doc1 = doc.getDocumentText();
            System.out.println(doc1);
            StringBuilder doc2 = doc.getText();
            System.out.println(doc2);
            Range rang = doc.getRange();
            String doc3 = rang.text();
            System.out.println(doc3);
            fis.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

2、docx文件读取简单示例:

public static void readAndWriterTest4() throws IOException {
        File file = new File("C:\\Users\\tuzongxun123\\Desktop\\aa.docx");
        String str = "";
        try {
            FileInputStream fis = new FileInputStream(file);
            XWPFDocument xdoc = new XWPFDocument(fis);
            XWPFWordExtractor extractor = new XWPFWordExtractor(xdoc);
            String doc1 = extractor.getText();
            System.out.println(doc1);
            fis.close();
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

//20171218修改
我并没有在工作中操作过word,这篇博客也只是一时兴起所做,因此写的很简单。
而最近陆续有朋友找我询问相关的问题,其中有好几个都在询问依赖包有哪些,为了避免一再回答这种问题,特将依赖包截图:
这里写图片描述
版权所有:涂有薄技

发布了275 篇原创文章 · 获赞 383 · 访问量 128万+
展开阅读全文

POI读取通过xml修改的docx文件报错。

10-25

我通过zip4j解压docx,修改其中的document.xml文件来实现编辑word。然后我将修改完的文件压缩,然后通过POI来读取,报错: [code=java]Exception in thread "main" java.io.IOException: Failed to read zip entry source at org.apache.poi.openxml4j.opc.ZipPackage.<init>(ZipPackage.java:103) at org.apache.poi.openxml4j.opc.OPCPackage.open(OPCPackage.java:324) at org.apache.poi.util.PackageHelper.open(PackageHelper.java:37) at org.apache.poi.xwpf.usermodel.XWPFDocument.<init>(XWPFDocument.java:116) at test.Test1.test(Test1.java:36) at test.Test1.main(Test1.java:29) Caused by: java.util.zip.ZipException: only DEFLATED entries can have EXT descriptor at java.util.zip.ZipInputStream.readLOC(ZipInputStream.java:310) at java.util.zip.ZipInputStream.getNextEntry(ZipInputStream.java:122) at org.apache.poi.openxml4j.util.ZipSecureFile$ThresholdInputStream.getNextEntry(ZipSecureFile.java:280) at org.apache.poi.openxml4j.util.ZipInputStreamZipEntrySource.<init>(ZipInputStreamZipEntrySource.java:52) at org.apache.poi.openxml4j.opc.ZipPackage.<init>(ZipPackage.java:100) ... 5 more[/code] zip4j压缩代码: [code=java] ZipFile zipFile = new ZipFile(zipPath); ZipParameters parameters = new ZipParameters(); parameters.setCompressionMethod(Zip4jConstants.COMP_DEFLATE); parameters.setCompressionLevel(Zip4jConstants.DEFLATE_LEVEL_NORMAL); parameters.setIncludeRootFolder(false); zipFile.addFolder(dirPath, parameters);[/code] POI读取代码: [code=java] XWPFWordExtractor extractor = new XWPFWordExtractor(new XWPFDocument(new FileInputStream(new File(f)))); System.out.println(extractor.getText());[/code] 错误信息是在看不懂,zip4j的压缩方式和级别为几乎都试过的,还是不行。但是我用WPS打开zip4j压缩的docx是没有问题的。就是通过POI才会报错。 后来找到docx4j这个工具,但是资料比较少,不知道怎么用,大佬有资料分享吗? 有大佬知道的原因吗?或者有更好的方法来实现将word中的图片替换为文字。 问答

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 成长之路 设计师: Amelia_0503

分享到微信朋友圈

×

扫一扫,手机浏览