Download List

Descripción del Proyecto

docx2txt is a tool that attempts to generate equivalent text files from (even corrupted) Microsoft .docx documents, preserving some formatting and document information (which MS text conversion drops) along with appropriate character conversions for a good (ASCII) text experience.

It is a platform independent solution consisting of (core) Perl and (wrapper) Unix/Windows shell scripts and a configuration file to control the output text appearance to fair extent. It depends upon a commandline unzipping program (like unzip, 7z, pkzipc, or wzunzip) that can silently extract single files from zip archives to console/standard output/pipe.

It can very conveniently be used to build a Web based docx document conversion service. Some Makefiles and Windows batch files are provided for easy installation of the scripts. With unzippers like CakeCmd that can deal with corrupt Zip archives, this tool can extract text from corrupt docx documents in many cases, where MS word processor fails to even open them.

System Requirements

System requirement is not defined
Information regarding Project Releases and Project Resources. Note that the information here is a quote from Freecode.com page, and the downloads themselves may not be hosted on OSDN.

2012-01-15 11:10
1.2

El script de Perl puede ahora entrado de stdin y también funciona con la redirección de entrada/salida. Archivos de comandos y el archivo de configuración ya pueden instalarse en directorios independientes en sistemas (no Windows) usando Makefile para instalación. El archivo de configuración es ahora uniforme buscó en el directorio actual, el directorio de configuración de usuario y el directorio de configuración del sistema, en el orden especificado. Manejo de caracteres (no texto) especiales ha sido mejorada, junto con soporte para caracteres de texto no más, como las fracciones.
Tags: Major feature enhancements
The Perl script can now take input from stdin, and also works with input/output redirection. Script files and the configuration file can now be installed in separate directories on (non-Windows) systems using Makefile for installation. The configuration file is now uniformly looked for in the current directory, the user configuration directory, and the system configuration directory, in the specified order. Handling of special (non-text) characters has been improved, along with support for more non-text characters, like fractions.

2011-12-13 07:28
1.1

Función de extracción no menor mejoras y correcciones de errores, basada en los comentarios/aportaciones recibidas de los usuarios. Comprobación de la existencia del comando unzip.
En $HOME, así se busca el archivo de configuración. Las variables de configuración ahora comienzan con config_. Se han corregido errores # 3003903, # 3082018 y # 3082035. Se ha corregido el dispositivo nulo de Cygwin. Superíndice referencias cruzadas se colocan ahora en [...].
Tags: Minor feature enhancements and bug fixes
Minor non-extraction feature enhancements and bugfixes, based on the feedback/input received from users. A check for the existence of the unzip command.
The configuration file is looked for in $HOME as well. Configuration variables now begin with config_ . Bugs #3003903, #3082018, and #3082035 have been fixed. The null device for Cygwin has been fixed. Superscripted cross-references are placed within [...] now.

2009-10-05 18:21
1.0

Esto libera se centra principalmente en aspectos de la interacción del usuario. Las nuevas características son un script de instalación de Windows, un guión envoltorio de Windows, soporte para el uso de CakeCmd aparte de Descomprimir, un archivo de configuración, y soporte para trabajar con un directorio que contiene el contenido descomprimido del archivo. Docx. Ha habido una mejora en el manejo de la justificación de líneas cortas, muchos casos que se perdieron en el enfoque anterior son capturados. Los nombres de ruta que contiene espacios son ahora manejados.
Tags: Major feature enhancements
This releases focuses mainly on user interaction aspects. The new features are a Windows installation script, a Windows wrapper script, support for using CakeCmd apart from Unzip, a configuration file, and support for working with a directory holding the unzipped content of .docx file. There has been improvement in handling of short line justification; many cases that were missed out in the earlier approach are captured. Path names containing spaces are now handled.

2009-09-06 16:43
0.4

Pantalla de hipervínculos es configurable. TOC relacionados con la limpieza que se hizo. Muchas conversiones nuevo personaje se llevaron a cabo. Tablas de conversión de caracteres se han añadido. Personajes de divisas se convierten en nombres de las monedas completo. Código de ajustes se hicieron para acelerar el proceso de conversión.
Display of hyperlinks is configurable. TOC related cleanup was done. Many new character conversions were implemented. Character conversion tables were added. Currency characters are converted to full currency names. Code tweaks were done to speed up the conversion process.

2008-09-24 14:06
0.3

Centro ya la derecha de la adaptación de texto en una línea de (ajustable) 80 columnas. Indicación de texto con hipervínculo, junto con el hipervínculo. Un makefile BSD. Algunas sugerencias sobre cómo los usuarios de Windows pueden utilizar esta herramienta y más documentación. invocación docx2txt.pl se ha cambiado un poco. Participación de los usuarios durante la instalación se reduce.
Tags: Minor feature enhancements
Center and right justification of text fitting in a line of (adjustable) 80 columns. Indication of hyperlinked text along with the hyperlink. A BSD makefile. Some suggestions on how Windows users can use this tool and more documentation. docx2txt.pl invocation has been changed a little. User involvement during installation is reduced.

Project Resources