C# - Détection du type d'encodage d'un fichier Texte

Comme vous l'avez vu par mon précédent message :

C# - Développement d'un petit utilitaire simple

Je me bas en ce moment avec les formats d'encodage des fichiers texte. En effet, je dois charger une foule de fichiers texte, mais dont le format d'encodage varie (UTF8 ou ANSI). De ce fait, j'ai recherché une solution simple pour effectuer ce test en pensant que ca allait être évident.

Et bien, j'ai été bien surpris, ce n'est pas du tout simple à faire.

Quelle est la raison de cette recherche, vous aller me dire ? C'est très simple, charger un fichier, qui a été créé avec un encodage ANSI, dans un streamreader avec l'encodage UTF8 fait disparaître tous les caractères accentués. L'inverse fait remplacer ces mêmes caractères par des composition du type Ã¼r (pour ü) par exemple.

Ainsi, après une longue recherche et de très nombreux tests (merci au passage à Tkfe, CrazyHT et Renaud), la solution est de tester les 4 premier octets (bytes en US) et de tester ces valeurs.

La fonction d'origine vient de Heath Stewart :

Detecting File Encodings in .NET

J'ai donc adapté celle-ci en contrôlant plus finement les types d'encodage :

C# - FONCTION PERMETTANT D'OBTENIR L'ENCODAGE D'UN FICHIER TEXTE

N'hésitez pas à remonter des commentaires si vous avez d'autres idées ou des retours sur cette fonction.

UPDATE :

J'ai du utiliser une autre solution dans mon cas, dont je vous fourni l'astuce ici :

C# - OBTENIR SI LE FICHIER EST EN UTF8 OU ANSI

Romelard Fabrice

Rechercher dans ce blog

C# - Détection du type d'encodage d'un fichier Texte

Commentaires

Enregistrer un commentaire

Posts les plus consultés de ce blog

Série de Videos sur Home Assistant intégrant la production Photovoltaïque

Nouveau Scripts PowerShell publiés pour gérer les Storage Accounts dans Azure Cloud

Série de vidéos sur le montage d'une serre horticole ACD