En caso de que necesites poner un contenido que tienes en un documento Word en una página HTML, puedes hacerlo manualmente, o puedes utilizar esta herramienta en línea para obtener un HTML “limpio”:
Word2cleanhtml es una herramienta creada por Olly Cope que limpia el HTML pegado desde documentos de Word, aplicando filtros para arreglar varias cosas que Microsoft Office pone en su HTML, proporcionando un resultado bien formateado que se puede pegar directamente en una página web o sistema de edición de contenido.
El proceso de conversión es completamente automatizado y, según el creador de la web, no se guarda ninguna copia de los documentos “limpiados”. Salvo que reportes un bug y decidas incluir una copia del documento junto con el informe de error.
Ayuda! ¿Donde se han ido mis fuentes / colores / efectos?
La mayor parte de la información de formato de word se elimina, dejando sólo el contenido y la estructura (títulos, párrafos, listas, etc.). La forma en que Word agrega la información de fuente y el color por lo general no es apropiado para la web o publicación de libros electrónicos. Una vez que tengamos el código HTML limpio, podremos crear hojas de estilos para modificar el aspecto de la página web.
¿Cómo funciona?
Utiliza el lenguaje de programación Python para manipular el código HTML producido por Microsoft Word. La biblioteca lxml hace casi todo el trabajo.