Bueno ahora hablaré un poco sobre Apache PDFBox..... es una librería PDF para Java y es Open Source, este proyecto permite la creación de nuevos documentos PDF, manipulación de documentos existentes y la capacidad de extraer el contenido de los documentos. PDFBox también incluye varias utilidades de línea de comandos.
- PDF para la extracción de texto
- Combinar documentos PDF
- Documento PDF de cifrado / descifrado
- Motor de búsqueda Lucene Integración
- Llene los datos del formulario y FDF XFDF
- Crear un archivo PDF a partir de un archivo de texto
- Crear las imágenes de páginas PDF
- Imprimir en formato PDF
La página del proyecto es:
http://incubator.apache.org/pdfbox/index.html
y aquí les dejé colgado también la librería:
ahora para hacerla funcionar extraemos el contenido del zip y nos vamos a la carpeta:
PDFBox-0.7.3/lib
ahí encontraremos un jar... PDFBox-0.7.3-dev.jar y lo copiamos en la misma ruta que las librerías del POI... Linux:
/usr/lib/jvm/java-6-sun-1.6.0.07/jre/lib/ext
en Uindous:
C:\Archivos de Programas/jvm/java-6-sun-1.6.0.07/jre/lib/ext
ahora nos vamos al siguiente directorio:
PDFBox-0.7.3/external
dentro de este directorio hay varios jar pero nos interesan los siguientes:
FontBox-0.1.0-dev.jar bcprov-jdk14-132.jar
y las copiamos en los mismos directorios que las otras librerias.... eso es todo, ya debe de quedar todo listo para correr Buscador_0.1.1.jar
link que me sirvió mucho para poder implementar la librería:
http://diegosoler-lotus.blogspot.com/2008/04/analizando-un-archivo-adjunto-con.html
2 comentarios:
Cuando le paso el nombre del archivo en
String archivo="lecturas.pdf";
PDFTextParser convertidor=new PDFTextParser();
resultado=convertidor.pdftoText(archivo);
si funciona pero cuando le paso una ruta absoluta
me sale error
ojo... en windows es común tener problemas con las / ó \ de las rutas... deberías ver si es por eso...
Saludos!
Publicar un comentario