如何使用Java读取PPT文本和图片

前言

本篇文章将介绍通过Java程序来读取PPT幻灯片中的文本及图片的方法。读取图片时,可读取文档中的所有图片,也可以读取指定幻灯片当中的图片。

工具:

  • Free Spire.Presentation for Java(免费版)
  • IntelliJ IDEA

Jar文件获取及导入

方法1:官网下载jar文件包。下载后,解压文件,并在java程序中导入lib文件夹下的Spire.Presentation.jar文件。

方法2:可通过maven仓库导入到maven项目。

Java代码示例

测试文档:

【示例1】读取PPT中的文本

import com.spire.presentation.IAutoShape;
import com.spire.presentation.ISlide;
import com.spire.presentation.ParagraphEx;
import com.spire.presentation.Presentation;
import java.io.FileWriter;

public class ExtractText {
  public static void main(String[]args) throws Exception{
    //加载测试文档
    Presentation ppt = new Presentation();
    ppt.loadFromFile("test.pptx");

    StringBuilder buffer = new StringBuilder();

    //遍历文档中的幻灯片,提取文本
    for (Object slide : ppt.getSlides()) {
      for (Object shape : ((ISlide) slide).getShapes()) {
        if (shape instanceof IAutoShape) {
          for (Object tp : ((IAutoShape) shape).getTextFrame().getParagraphs()) {
            buffer.append(((ParagraphEx) tp).getText());
          }
        }
      }
    }
    //保存到文本文件
    FileWriter writer = new FileWriter("ExtractText.txt");
    writer.write(buffer.toString());
    writer.flush();
    writer.close();
  }
}

文本读取结果:

【示例2】读取PPT中的所有图片

import com.spire.presentation.Presentation;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;

public class ExtractAllImgs {
  public static void main(String[] args) throws Exception {
    //加载文档
    Presentation ppt = new Presentation();
    ppt.loadFromFile("test.pptx");

    //提取文档中的所有图片
    for (int i = 0; i < ppt.getImages().getCount(); i++) {
      BufferedImage image = ppt.getImages().get(i).getImage();
      ImageIO.write(image, "PNG", new File(String.format("AllImage-%1$s.png", i)));
    }
  }
}

【示例3】读取指定幻灯片中的图片

import com.spire.presentation.*;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;

public class ExtractImgsInSpecifiedSlide {
  public static void main(String[]args) throws Exception{
    //加载文档
    Presentation ppt = new Presentation();
    ppt.loadFromFile("test.pptx");

    //获取第2张幻灯片
    ISlide slide = ppt.getSlides().get(1);

    //提取图片
    for(int i = 0; i< slide.getShapes().getCount(); i++)
    {
      IShape shape = slide.getShapes().get(i);
      if(shape instanceof SlidePicture)
      {
        SlidePicture pic = (SlidePicture) shape;
        BufferedImage image = pic.getPictureFill().getPicture().getEmbedImage().getImage();
        ImageIO.write(image, "PNG", new File(String.format("extractImageinslide-%1$s.png", i)));
      }
      if(shape instanceof PictureShape)
      {
        PictureShape ps = (PictureShape) shape;
        BufferedImage image = ps.getEmbedImage().getImage();
        ImageIO.write(image, "PNG", new File(String.format("extractImageinslide-%1$s.png", i)));
      }
    }

  }
}

图片读取结果:

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我们。

(0)

相关推荐

  • 浅谈Java设置PPT幻灯片背景——纯色、渐变、图片背景

    PPT幻灯片生成时,系统默认是无色背景填充,幻灯片设计需要手动设置背景效果,可设置颜色填充或者图片背景填充.本文将对此介绍具体实现方法. Jar文件导入方法(参考): 步骤1:在Java程序中可新建一个文件夹命名为Lib,并将下载包中的jar文件复制到新建的文件夹下. 步骤2:复制文件后,添加到引用类库:选中这个jar文件,点击鼠标右键,选择"Build Path" – "Add to Build Path".完成引用. Java示例1:设置背景颜色 1.纯色背景

  • java实现PPT转PDF出现中文乱码问题的解决方法

    ppt转成pdf,原理是ppt转成图片,再用图片生产pdf,过程有个问题,不管是ppt还是pptx,都遇到中文乱码,编程方框的问题,其中ppt后缀网上随便找就有解决方案,就是设置字体为统一字体,pptx如果页面是一种中文字体不会有问题,如果一个页面有微软雅黑和宋体,就会导致部分中文方框,怀疑是poi处理的时候,只读取第一种字体,所以导致多个中文字体乱码. 百度和谷歌都找了很久,有看到说apache官网有人说是bug,但他们回复说是字体问题,这个问题其实我觉得poi可能可以自己做,读取原来字体设置

  • java使用poi读取ppt文件和poi读取excel、word示例

    Apache的POI项目可以用来处理MS Office文档,codeplex上还有一个它的.net版本.POI项目可创建和维护操作各种基于OOXML和OLE2文件格式的Java API.大多数MS Office都是OLE2格式的.POI通HSMF子项目来支持Outlook,通过HDGF子项目来支持Visio,通过HPBF子项目来支持Publisher. 使用POI抽取Word简单示例: 要引入poi-3.7.jat和poi-scratchpad-3.7.ajr这两个包. 复制代码 代码如下: p

  • java实现PPT转化为PDF

    JACOB的方法,足可以解决这个问题,但是我既然以前曾经做过报表,就想尝试不同的方法. JACOB是一座连接JAVA和微软的桥,所有的解析由微软解析.POI是没有微软解析的那么原汁原味的,所以如果要求高的话,还是使用JACOB. 大致思路很简单,将PPT先转化为图片,然后将图片写入PDF.转化图片是用POI,操作PDF使用ITEX.不过这个方法的BUG就是转化图片的POI效果不是很好. 导入的包分别是:itextpdf-5.1.3.jar,poi-3.8-20120326.jar,poi-scr

  • Java如何在PPT中绘制图形

    Microsoft PowerPoint可支持在幻灯片中插入各种类型的图形并且可设置图形填充.线条颜色.图形大小.位置等.下面将通过Java编程来演示在PPT中绘制图形的方法. 工具:Free Spire.Presentation for Java Jar文件导入方法1:通过官网下载. Step1:在程序中新建一个Directory目录并命名为lib:并将控件包中的Spire.Presentation.jar(可在解压控件包下的lib文件中获取)直接复制该目录下. Step2: 选中复制后的Sp

  • 如何使用Java读取PPT文本和图片

    前言 本篇文章将介绍通过Java程序来读取PPT幻灯片中的文本及图片的方法.读取图片时,可读取文档中的所有图片,也可以读取指定幻灯片当中的图片. 工具: Free Spire.Presentation for Java(免费版) IntelliJ IDEA Jar文件获取及导入: 方法1:官网下载jar文件包.下载后,解压文件,并在java程序中导入lib文件夹下的Spire.Presentation.jar文件. 方法2:可通过maven仓库导入到maven项目. Java代码示例 测试文档:

  • C#提取PPT文本和图片的实现方法

    在图文混排的文档中,我们可以根据需要将文档中的文字信息或者图片提取出来,通过C#代码可以提取Word和PDF文件中的文本和图片,那么同样的,我们也可以提取PPT幻灯片当中的文本和图片.本篇文档将讲述如何使用C#来实现提取PPT文本和图片的操作.首先也是需要安装组件Spire.Presentation,然后添加引用dll文件到项目中.下面是主要的代码步骤. 原文档: 1. 提取文本 步骤一:创建一个Presentation实例并加载文档 Presentation presentation = ne

  • Java读取网页内容并下载图片的实例

    Java读取网页内容并下载图片的实例 很多人在第一次了解数据采集的时候,可能无从下手,尤其是作为一个新手,更是感觉很是茫然,所以,在这里分享一下自己的心得,希望和大家一起分享技术,如果有什么不足,还请大家指正.写出这篇目的,就是希望大家一起成长,我也相信技术之间没有高低,只有互补,只有分享,才能使彼此更加成长.   示例代码: import java.io.BufferedInputStream; import java.io.BufferedReader; import java.io.Fil

  • 利用Java读取Word表格中文本和图片的方法实例

    目录 1. 程序环境准备 Jar导入步骤及方法: 方法1:手动导入. 方法2:Maven仓库导入. 2. Java代码 3. 文本.图片读取效果 总结 本文通过Java程序来展示如何读取Word表格,包括读取表格中的文本和图片.下面是具体实现的步骤和方法. 1. 程序环境准备 代码编译工具:IntelliJ IDEA Jdk版本:1.8.0 测试文档:Word .docx 2013 Jar包:free spire.doc.jar 3.9.0 用于测试的Word文档如下: Jar导入步骤及方法:

  • java 逐行读取txt文本如何解决中文乱码

    java读取txt文本中如含有中文,可能会出现乱码,解决方案是: 1.要统一编码,java工程的编码,txt文本编码,java工程中的java文本编码都统一为utf-8: 2.利用 InputStreamReader(new FileInputStream(fileUrl), "utf-8")将文本再次设置为utf-8 3.具体代码如下 复制代码 代码如下: InputStreamReader isr; try { isr = new InputStreamReader(new Fil

  • Java 读取PDF中的文本和图片的方法

    本文将介绍通过Java程序来读取PDF文档中的文本和图片的方法.分别调用方法extractText()和extractImages()来读取. 使用工具:Free Spire.PDF for Java(免费版) Jar文件获取导入: 方法1:通过官网下载jar文件包.下载后,解压文件,并将lib文件夹下的Spire.Pdf.jar文件导入java程序.导入后如下图: 方法2: 可通过maven仓库安装导入. Java代码示例 import com.spire.pdf.*; import java

  • Java 在PPT中添加文本和图片超链接的实现方法

    在文档中添加超链接,可以快速从当前文档跳转至指定的网页或打开指定的外部文件.前文中我们介绍过如何使用Java程序来为Word文档和Excel工作表添加超链接.本文将演示如何在PPT中添加文本和图片超链接. 使用工具:Free Spire.Presentation for Java(免费版)Jar文件获取及导入: 方法1:通过官网下载获取jar包.解压后将lib文件夹下的Spire.Presentation.jar文件导入Java程序.(如下图) 方法2:通过maven仓库安装导入.具体安装教程参

  • java 实现读取txt文本数据并以数组形式一行一行取值

    首先来读取txt文本中的内容,输出在控制台,直接上代码: import java.io.BufferedReader; import java.io.File; import java.io.FileReader; public class ReadFiledata { public static String txt2String(File file){ StringBuilder result = new StringBuilder(); try{ BufferedReader br = n

  • Java实现添加,读取和删除Excel图片的方法详解

    目录 介绍 Java 代码示例 示例1添加图片 示例2读取图片 示例3删除图片 介绍 本文介绍在Java程序中如何添加图片到excel表格,添加图片时可设置图片大小.位置.旋转.超链接.可选文本等,以及如何读取.删除excel表格中已有的图片. 工具:Free Spire.XLS for Java (免费版) 注:可通过官网下载包,并解压将lib文件夹下的jar文件导入java程序:或者通过maven仓库下载导入. Jar导入效果: Java 代码示例 示例1添加图片 import com.sp

  • Java读取图片EXIF信息的方法

    本文实例讲述了Java读取图片EXIF信息的方法.分享给大家供大家参考.具体分析如下: 首先介绍一下什么是EXIF,EXIF是Exchangeable Image File的缩写,这是一种专门为数码相机照片设定的格式.这种格式可以用来记录数字照片的属性信息,例如相机的品牌及型号.相片的拍摄时间.拍摄时所设置 的光圈大小.快门速度.ISO等等信息.除此之外它还能够记录拍摄数据,以及照片格式化方式,这样就可以输出到兼容EXIF格式的外设上,例如照片打印机 等. 目前最常见的支持EXIF信息的图片格式

随机推荐