Convertir un document Word docx en texte brut txt et en html

Author: Unknown

Date: 06/02/2024


keywords:

  • Word
  • bureautique

Pour comparer le contenu de plusieurs documents Word, quand une comparaison binaire montre une différence, mais qu'aucune différence n'est visible à la lecture, soit il faut tout vérifier manuellement, soit on compare automatiquement le contenu même des documents.

Pour cela, il faut les convertir en .txt et/ou en .html.

Pour cela, sous linux, si j'ai deux dossier 05-FicheValidées-versionAA et 05-FicheValidées-versionAB: for d in 05-FichesValidées-version[A-Z][A-Z]/*.docx; do echo $d && docx2txt $d && pandoc -s $d -o `echo $d|sed s/.docx/.html/` && echo OK done

Puis for d in 05-FichesValidées-version[A-Z][A-Z]/*.docx; do dd=`echo $d | sed 's#.*/\(.*\).docx#\1#'` echo $d diff 05-FichesValidéesVS-versionWL/$dd.txt 05-FichesValidéesVS-versionVS/$dd.txt diff 05-FichesValidéesVS-versionWL/$dd.html 05-FichesValidéesVS-versionVS/$dd.html done

Tags: notes-diverses