J'ai regardé un peu, est-ce que ça peut venir d'un éventuel token ?
Quand on regarde l'url des pages (1, 2, 3, 4, 5, 6, suivant), on obtient cela :
https://www2.assemblee-nationale.fr/rec ... BkZXNjIn0=
En testant le code ci-dessous, il semble qu'on obtient les résultats désirés. La difficulté est de savoir quand ce token change. Par exemple, ce n'est pas le même entre la 10e législature et la 15e législature.
################
import re
import requests
def getpage(leg, words):
url = "
https://www2.assemblee-nationale.fr/rec ... _questions"
token = "eyJxIjoibGVnaXNsYXR1cmU6MTUgYW5kIHNzVHlwZURvY3VtZW50OihxZSBPUiBxZyBPUiBxb3NkKSBhbmQgY29udGVudToocGVzdGljaWRlcykiLCJyb3dzIjoiMjUiLCJzb3J0Ijoic3NUeXBlRG9jdW1lbnQgYXNjLCBudW1Eb2N1bWVudCBkZXNjIn0="
formData = (
('legislature', leg),
('q', words),
('q_in', 0),
("limit", 25),
)
with requests.Session() as s:
url2 = f'{url}/{token}'
s.get(url2)
formule_data = {'legislature': leg, 'q': words, 'q_in': 0, 'limit': 25}
r = s.post(url2, data = formule_data)
return r.text
leg = "15"
words = "glyphosate"
html = getpage(leg, words)
print(html)
################################