script de génération de corpus à partir de factiva

Post Reply
josquin
Posts: 157
Joined: Wed Oct 05, 2011 4:51 pm

script de génération de corpus à partir de factiva

Post by josquin » Wed Mar 07, 2012 10:20 am

-- Le script est désormais intégré à Tirésias Desktop --

Voici le script qui permet de transformer des articles récupérés via la base de donnée Factiva en corpus pour Prospéro.
Nous invitons ses utilisateurs à s'assurer et à respecter les droits liés aux textes fournis par Factiva.
Cette nouvelle version du script parcourt les fichiers XML et les fichiers HTM du dossier dans lequel il est lancé. Il nécessite pour le codage des noms de support et des noms de fichier la présence un fichier support.publi dans le même répertoire. Pour mettre à jour de manière collaborative ce fichier, nous vous rappelons qu'un outil en ligne est disponible : voir ce fil du forum.

ml89
Posts: 3
Joined: Thu Oct 06, 2011 10:17 am

Re: script de génération de corpus à partir de factiva

Post by ml89 » Sat Mar 17, 2012 5:23 pm

J'hésite de poser une question certainement stupide, mais... sur Factiva, je ne trouve plus l'option qui permettrait de sauvegarder les articles en format XML. Une fois que j'ai ma recherche, le moteur ne propose de sauvegarder les articles qu'en format pdf ou rtf. Je pense qu'encore une fois, j'ai oublié quelque chose de simple mais essentiel au cours de derniers mois...

Markku

josquin
Posts: 157
Joined: Wed Oct 05, 2011 4:51 pm

Re: script de génération de corpus à partir de factiva

Post by josquin » Sat Mar 17, 2012 10:37 pm

Effectivement l'option à disparu il y a quelques semaines, ta question est très pertinente.
Pour faire face à ce problème, le nouveau script fonctionne sur les fichiers .htm qu'on obtient en enregistrant directement (l'icône représentant une disquette, fossile d'un objet disparu...).

Ubuntu
Posts: 8
Joined: Fri Apr 20, 2012 11:14 am

Re: script de génération de corpus à partir de factiva

Post by Ubuntu » Tue May 08, 2012 11:10 am

Bonjour,
Je ne trouve pas le bouton htm ?
Ce bouton est sur Prospéro ? Sur le site de factiva ? ou sur le program de récupération ?
Argghhhhhh !

Henrique
Posts: 27
Joined: Mon Nov 28, 2011 3:12 pm

Re: script de génération de corpus à partir de factiva

Post by Henrique » Tue May 08, 2012 11:38 am

Don't panic !

C'est très facile.
Voici la première étape qui te permettra d'importer les articles.
La démonstration décrit précisément une recherche 'simple' par mot clé sur le site de factiva jusqu'à l'enregistrement sur le disc.

http://www.dailymotion.com/video/k1lNi5QBjTv1eR2VLCd

La seconde étape te montre comment traiter les données importées.
Je n'utilise pas le dernier script disponible que propose Josquin mais c'est exactement la même démarche.
Tu verras que des textes ne sont pas référencés dans le fichier support.publi et du coup, leur support est inconnu. La vidéo te montre alors comment faire un référencement sur le support.publi.
http://www.dailymotion.com/video/k7qqGTzV9oYq6i2VLFG

A bientôt.

MathieuQ
Posts: 1
Joined: Fri Jul 06, 2012 1:42 pm

Re: script de génération de corpus à partir de factiva

Post by MathieuQ » Fri Jul 06, 2012 3:26 pm

Bonjour,
et encore une question de novice !

Je viens de constituer un corpus de fichier htm avec factiva et
j'essaie de le traiter avec tirésias mais ça ne marche pas
complètement.

Le logiciel créé des fichiers txt contenant chacun un article (c'est
déjà pas mal) mais le titre n'est pas codé. Chaque document s'intitule
sur le modèle "PBSUPPORT00C00A". Pourtant, j'utilise le fichier .publi
à jour que j'ai récupéré sur le site et il contient les titres des
publications sur lesquelles je travaille.

J'ai essayé en déplaçant le fichier .publi d'un répertoire à l'autre
mais cela ne change rien.

Le problème est que je ne parviens pas à accéder aux tutos vidéo en ligne, donc peut-être ai-je mal procédé (y a-t-il un endroit particulier pour placer le fichier .publi ou les documents htm ?)

Merci d'avance de votre réponse !

Vivien
Posts: 1
Joined: Wed Dec 12, 2012 2:44 pm

Re: script de génération de corpus à partir de factiva

Post by Vivien » Wed Dec 12, 2012 3:00 pm

Bonjour à tous,
Je débute sur Prospero, et j'ai le même problème que Mathieu. J'arrive à récupérer les articles sur Factiva, puis à les traiter de telle manière qu'1 article = 1 fichier txt. Toutefois, je ne parviens pas à les nommer automatiquement, même si j'ai indiqué la source du fichier support.publi.
Quelqu'un pour m'aider ?
Merci d'avance du tuyau.
Vivien

josquin
Posts: 157
Joined: Wed Oct 05, 2011 4:51 pm

Re: script de génération de corpus à partir de factiva

Post by josquin » Thu Dec 13, 2012 11:44 am

Bonjour,
est-ce que vous pourriez joindre un fichier qui pose problème ? histoire de mieux comprendre ce qui se passe
J

David
Posts: 1
Joined: Wed May 16, 2012 9:44 pm

Re: script de génération de corpus à partir de factiva

Post by David » Fri Apr 05, 2013 4:34 pm

Je n'ai pas ce pb ; en revanche (en partant de Factiva), j'obtiens quelques supports inconnus dont je ne parviens à me débarrasser.

Plusieurs d'entre eux sont sous la forme : support inconnu : 18:55 GMT (ou d'autres heures)...

Puis, j'ai "support inconnu: La Dépêche du Midi", j'ai beau actualiser le support.publi, cela reste inconnu...

Merci pour ce beau projet!

josquin
Posts: 157
Joined: Wed Oct 05, 2011 4:51 pm

Re: script de génération de corpus à partir de factiva

Post by josquin » Sat Apr 06, 2013 5:55 pm

Avez-vous essayé de rajouter manuellement Dépêche du midi dans le support.publi ?

Post Reply

Who is online

Users browsing this forum: No registered users and 22 guests