Blackfriars Theatre

Posted: **Thu Feb 16, 2012 2:49 am**

Bonjour
Je pose une premiere question de debutant en prospero.
Je commence a utiliser prospero sur un corpus anglais assez vaste et qui m'oblige a alimenter en textes qui datent des annees 30s. Donc j'ai un gros travaille de "rattrapage" a mener.
Est-ce que vous avez mis en place une routine d'alimentation de prospero qui permette de faire l'economie du renseignement manuelle des champs externes (nom auteur, date, support, codage support)? Avec des requetes sur Lexis Nexis, je peux extraire de gros volumes de documents qui sont tres standardises - avec une structure tres simple (auteur, date...). Je me dis qu'ecrire une routine qui parse ces champs stables et qui renseigne la fiche de champs externes devrait etre assez faisable, mais je me demande comment alimenter prospero a partir de cette routine. En quelque sorte, une API a l'envers (on a les donnees et on veut les rassembler dans prospero).
Il se trouve que j'ai un etudiant en computer science qui s'interesse a ces questions et qui veut que je lui commande du "code". Donc je serais heureux de le mettre sur un exercise de ce type si cela peut beneficier a la communaute des utilisateurs. Peut etre le developpement d'un petit programme qui permettrait d'automatiser cette alimentation a partir de n'importe quelle ensemble de documents bien structures. J'imagine que c'est un probleme que pas mal des historiens qui utilisent prospero rencontrent.

Je vais aussi alimenter les dics anglais que Francis m'a communique et qui sont issus des premiers gros travaux realises depuis 2 ans. Je travaille sur la regulation financiere et sur l'invention de la fraude de marche, donc sans doute quelques etres nouveaux et quelques figures de style inedite. J'envisage dans un tres court avenir une etude comparative avec le cas francais.

Vincent

Posted: **Thu Feb 16, 2012 11:30 pm**

Bonjour,
il existe un script en python qui transforme le résultat d'une recherche Lexis/Nexis en corpus. Le code mériterait sans doute une révision pour être sur qu'il fonctionne toujours (il est un peu ancien, n'a pas été exécuté depuis quelques années, et Lexis/Nexis a peu modifier son format). Si votre étudiant est tenté par la programmation en python et a le temps de dépoussiérer le code, vous pouvez lui dire de prendre contact avec moi.
pour renseigner le support il utilise un fichier très simple que vous pouvez récupérer ici http://prosperologie.org/outils/supports.php sur une interface qui permet de partager les codages (n'hésitez pas à intégrer les vôtres)

Posted: **Thu Jun 28, 2012 11:05 pm**

Bonjour,

Cette question de l'alimentation automatique à partir de LexisNexis (notamment) me concerne aussi: et je travaille également sur des questions financières (mais sur du contemporain).

Est-ce qu'il y a des avancées sur le script en question ? Je veux bien y contribuer.

Emmanuel

Posted: **Thu Jun 28, 2012 11:21 pm**

Le script a été mis à jour et est disponible dans Tirésias Desktop
http://prosperologie.org/?sit=32

N'hésitez pas à me signaler des problèmes éventuels lors de vos traitements

Posted: **Sat Jun 30, 2012 5:37 pm**

Bonjour Josquin,

De LexisNexis je remonte (1) des articles de revues (2) des jugements. J'ai essayé Tiresias sur les premiers, il déclare "Je traite..." et il ne se passe rien. Voici à quoi ressemblent les entêtes des articles (lignes vides comprises). Est-ce bien pour remonter cela (revue, réf, auteur) en CTX que le script est écrit ?

Emmanuel

******************************

FOCUS - Document 7 de 586

Construction - Urbanisme n° 5, Mai 2012, comm. 87

Assignation en référé de l'assureur dommages-ouvrage et déclaration de sinistre
préalable

Commentaire par Marie-Laure PAGÈS-de VARENNE

Posted: **Mon Jul 02, 2012 10:23 am**

Voici sommairement comment fonctionne le script de traitement de lexis-nexis
récupérez l'intégralité des textes de votre requête sous forme d'un fichier .txt (je crois que c'est pas lot de 500 textes max)
passez le dans Tiresias Desktop qui génère pour chaque article un .txt contenant le texte et un .ctx contenant les indications qu'il a pu glaner : auteur, titre, support, date et heure, ...

Posted: **Mon Jul 23, 2012 6:39 pm**

Bon, ça ne marche toujours pas. Tiresias estime avoir terminé, mais il ne produit rien. Quelque soit la taille du fichier, sa source dans LN.
Je vais coder un peu de python pour résoudre le pb.

Blackfriars Theatre

Alimentation automatique de Prospero

Alimentation automatique de Prospero

Re: Alimentation automatique de Prospero

Re: Alimentation automatique de Prospero

Re: Alimentation automatique de Prospero

Re: Alimentation automatique de Prospero

Re: Alimentation automatique de Prospero

Re: Alimentation automatique de Prospero