Convertir un document Word docx en texte brut txt et en html
Author: Unknown
Date: 06/02/2024
keywords:
- Word
- bureautique
Pour comparer le contenu de plusieurs documents Word, quand une comparaison binaire montre une différence, mais qu'aucune différence n'est visible à la lecture, soit il faut tout vérifier manuellement, soit on compare automatiquement le contenu même des documents.
Pour cela, il faut les convertir en .txt et/ou en .html.
Pour cela, sous linux, si j'ai deux dossier 05-FicheValidées-versionAA et 05-FicheValidées-versionAB:
for d in 05-FichesValidées-version[A-Z][A-Z]/*.docx; do echo $d && docx2txt $d && pandoc -s $d -o `echo $d|sed s/.docx/.html/` && echo OK done
Puis
for d in 05-FichesValidées-version[A-Z][A-Z]/*.docx; do dd=`echo $d | sed 's#.*/\(.*\).docx#\1#'` echo $d diff 05-FichesValidéesVS-versionWL/$dd.txt 05-FichesValidéesVS-versionVS/$dd.txt diff 05-FichesValidéesVS-versionWL/$dd.html 05-FichesValidéesVS-versionVS/$dd.html done
Tags: notes-diverses