Bonsoir,
Je découvre depuis quelques mois la “légistique” et ses joies
Et ses peines aussi car j’ai été étonné de ne pas avoir trouvé de GIT “officiel” des textes structurés (a part Archeo-lex), ni plus d’open-data. Ces données existent sûrement déjà à plein d’endroits mais dispersées/cachées.
Et les fichiers XML de la DILA… on en parle ?
Je suis tombé sur la base de legilibre/legi.py, qui est, de ce que j’ai vu, la source brute des textes “froids” la plus exploitable et à jour disponible ? d’autres idées ?
J’ai également rencontré Alexis du Journal Officieux à la nuit du code citoyen et l’approche ElasticSearch est prometteuse aussi;
Mon objectif actuel c’est de pouvoir extraire les textes par code/section/article/date, et de pouvoir faire des opérations sur le texte et la structure, via 1) un module NodeJS et 2) une API HTTP.
Le but n’est pas de faire un outil de recherche, mais plutôt d’extraction des textes bruts, normés, structurés, testés, sur lesquels on va pouvoir travailler : analyse, extract, stats, enrichissement, ML…
ex d’applications:
- evolution du thème “formation” dans le code du travail depuis 1970
- article ART R1221-3 du code du travail au 31/12/16…
- extraction de divers référentiels/corpus
Donc la base legilibre/legi.py me parait une bonne piste, et cela a entrainé quelques expérimentations, pour lesquelles archeo-lex, legi-php et autres ont été indispensables pour pouvoir comprendre ces données; merci aux auteurs et respect pour le support du XML et de la norme LEGI
Donc j’ai fait un peu de JavaScript, c’est encore très expérimental, mais je compte bien stabiliser dans les semaines qui viennent…
Vos retours/suggestions sont bienvenues, notamment sur le (futur) design de l’API Node ou HTTP ou tout autre remarque
Merci !
legi-docker
Container docker qui maintient une base PostgreSQL à jour depuis la base LEGI
DILA -----> legi.py ------> pgloader ------> PostgreSQL
bon, il faut quand même ajouter un cron
legi.js
Un module Javascript qui permet d’interroger une base legilibre, NodeJS / browser(soon)
Le résultat est récupéré sous forme d’arbre JSON, html ou markdown
ex d’usage :
legi.getCode({ id: "LEGITEXT000006072050", date: "2012-03-05" });
legi-api
API HTTP qui utilise legi.js et expose les mêmes données
GET /getCode/LEGITEXT000006072050?date=2012-03-05&format=markdown