script de génération de corpus à partir de factiva

Répondre
josquin
Messages : 115
Inscription : Mer Oct 05, 2011 4:51 pm

script de génération de corpus à partir de factiva

Message par josquin » Mer Mars 07, 2012 10:20 am

-- Le script est désormais intégré à Tirésias Desktop --

Voici le script qui permet de transformer des articles récupérés via la base de donnée Factiva en corpus pour Prospéro.
Nous invitons ses utilisateurs à s'assurer et à respecter les droits liés aux textes fournis par Factiva.
Cette nouvelle version du script parcourt les fichiers XML et les fichiers HTM du dossier dans lequel il est lancé. Il nécessite pour le codage des noms de support et des noms de fichier la présence un fichier support.publi dans le même répertoire. Pour mettre à jour de manière collaborative ce fichier, nous vous rappelons qu'un outil en ligne est disponible : voir ce fil du forum.

ml89
Messages : 3
Inscription : Jeu Oct 06, 2011 10:17 am

Re: script de génération de corpus à partir de factiva

Message par ml89 » Sam Mars 17, 2012 5:23 pm

J'hésite de poser une question certainement stupide, mais... sur Factiva, je ne trouve plus l'option qui permettrait de sauvegarder les articles en format XML. Une fois que j'ai ma recherche, le moteur ne propose de sauvegarder les articles qu'en format pdf ou rtf. Je pense qu'encore une fois, j'ai oublié quelque chose de simple mais essentiel au cours de derniers mois...

Markku

josquin
Messages : 115
Inscription : Mer Oct 05, 2011 4:51 pm

Re: script de génération de corpus à partir de factiva

Message par josquin » Sam Mars 17, 2012 10:37 pm

Effectivement l'option à disparu il y a quelques semaines, ta question est très pertinente.
Pour faire face à ce problème, le nouveau script fonctionne sur les fichiers .htm qu'on obtient en enregistrant directement (l'icône représentant une disquette, fossile d'un objet disparu...).

Ubuntu
Messages : 8
Inscription : Ven Avr 20, 2012 11:14 am

Re: script de génération de corpus à partir de factiva

Message par Ubuntu » Mar Mai 08, 2012 11:10 am

Bonjour,
Je ne trouve pas le bouton htm ?
Ce bouton est sur Prospéro ? Sur le site de factiva ? ou sur le program de récupération ?
Argghhhhhh !

Henrique
Messages : 27
Inscription : Lun Nov 28, 2011 3:12 pm

Re: script de génération de corpus à partir de factiva

Message par Henrique » Mar Mai 08, 2012 11:38 am

Don't panic !

C'est très facile.
Voici la première étape qui te permettra d'importer les articles.
La démonstration décrit précisément une recherche 'simple' par mot clé sur le site de factiva jusqu'à l'enregistrement sur le disc.

http://www.dailymotion.com/video/k1lNi5QBjTv1eR2VLCd

La seconde étape te montre comment traiter les données importées.
Je n'utilise pas le dernier script disponible que propose Josquin mais c'est exactement la même démarche.
Tu verras que des textes ne sont pas référencés dans le fichier support.publi et du coup, leur support est inconnu. La vidéo te montre alors comment faire un référencement sur le support.publi.
http://www.dailymotion.com/video/k7qqGTzV9oYq6i2VLFG

A bientôt.

MathieuQ
Messages : 1
Inscription : Ven Juil 06, 2012 1:42 pm

Re: script de génération de corpus à partir de factiva

Message par MathieuQ » Ven Juil 06, 2012 3:26 pm

Bonjour,
et encore une question de novice !

Je viens de constituer un corpus de fichier htm avec factiva et
j'essaie de le traiter avec tirésias mais ça ne marche pas
complètement.

Le logiciel créé des fichiers txt contenant chacun un article (c'est
déjà pas mal) mais le titre n'est pas codé. Chaque document s'intitule
sur le modèle "PBSUPPORT00C00A". Pourtant, j'utilise le fichier .publi
à jour que j'ai récupéré sur le site et il contient les titres des
publications sur lesquelles je travaille.

J'ai essayé en déplaçant le fichier .publi d'un répertoire à l'autre
mais cela ne change rien.

Le problème est que je ne parviens pas à accéder aux tutos vidéo en ligne, donc peut-être ai-je mal procédé (y a-t-il un endroit particulier pour placer le fichier .publi ou les documents htm ?)

Merci d'avance de votre réponse !

Vivien
Messages : 1
Inscription : Mer Déc 12, 2012 2:44 pm

Re: script de génération de corpus à partir de factiva

Message par Vivien » Mer Déc 12, 2012 3:00 pm

Bonjour à tous,
Je débute sur Prospero, et j'ai le même problème que Mathieu. J'arrive à récupérer les articles sur Factiva, puis à les traiter de telle manière qu'1 article = 1 fichier txt. Toutefois, je ne parviens pas à les nommer automatiquement, même si j'ai indiqué la source du fichier support.publi.
Quelqu'un pour m'aider ?
Merci d'avance du tuyau.
Vivien

josquin
Messages : 115
Inscription : Mer Oct 05, 2011 4:51 pm

Re: script de génération de corpus à partir de factiva

Message par josquin » Jeu Déc 13, 2012 11:44 am

Bonjour,
est-ce que vous pourriez joindre un fichier qui pose problème ? histoire de mieux comprendre ce qui se passe
J

David
Messages : 1
Inscription : Mer Mai 16, 2012 9:44 pm

Re: script de génération de corpus à partir de factiva

Message par David » Ven Avr 05, 2013 4:34 pm

Je n'ai pas ce pb ; en revanche (en partant de Factiva), j'obtiens quelques supports inconnus dont je ne parviens à me débarrasser.

Plusieurs d'entre eux sont sous la forme : support inconnu : 18:55 GMT (ou d'autres heures)...

Puis, j'ai "support inconnu: La Dépêche du Midi", j'ai beau actualiser le support.publi, cela reste inconnu...

Merci pour ce beau projet!

josquin
Messages : 115
Inscription : Mer Oct 05, 2011 4:51 pm

Re: script de génération de corpus à partir de factiva

Message par josquin » Sam Avr 06, 2013 5:55 pm

Avez-vous essayé de rajouter manuellement Dépêche du midi dans le support.publi ?

Répondre

Qui est en ligne ?

Utilisateurs parcourant ce forum : Aucun utilisateur inscrit et 2 invités