Un problème d'encodage?

Aymeric
Messages : 8
Inscription : Jeu Oct 06, 2011 12:43 pm

Un problème d'encodage?

Message par Aymeric » Ven Sep 29, 2017 9:47 am

Bonjour, cela fait longtemps que je n'ai rien posté sur ce forum...
Je viens d'écrire un script python pour aspirer les articles d'une revue en ligne (en anglais) qui semble fonctionner (j'obtiens un .txt et .ctx pour chaque article). Par contre, lorsque j'intègre les textes à mon corpus je me retrouve avec beaucoup d'indéfinis du type : "texts", "chemistry" ou "object".
Du coup, je soupçonne un problème d'encodage des textes sachant qu'ils ont été encodés en utf-8. Pouvez-vous me rappeler le bon encodage ?

Aymeric

josquin
Messages : 107
Inscription : Mer Oct 05, 2011 4:51 pm

Re: Un problème d'encodage?

Message par josquin » Mer Oct 04, 2017 4:11 pm

Bonjour Aymeric,

ce serait étrange que l'encodage pose un souci avec des caractères non-accentués
mais effectivement, P1 est limité à la norme ISO 8859-1 (aussi appelée latin-1)

Répondre

Qui est en ligne ?

Utilisateurs parcourant ce forum : Aucun utilisateur inscrit et 1 invité