Moissonneur de l'API ISTEX

Le programme istex-api-harvester est un utilitaire en ligne de commande permettant de moissonner les corpus requêtés par l'API de la plateforme ISTEX. Il est écrit en NodeJS.

  • Avantages :
    • il gère l'authentification au serveur en dehors du réseau interne de l'Inist-CNRS
    • il permet d'extraire un corpus de plus de 6 000 documents
    • il autorise l'extraction différenciée des enrichissements
    • il est possible de paramétrer la taille du corpus à télécharger (paramètre size)
    • plusieurs modes de tri sont proposés en supplément du tri par pertinence effectué par défaut : un tri des documents en fonction de certain champs (paramètre sortBy), ou bien un tri aléatoire (paramètre rankBy=random) avec la possibilité de retrouver cet ordre aléatoire grâce au chiffre unique randomSeed
  • Inconvénient : son utilisation nécessite de disposer de Git et de NodeJs, ainsi que d'installer le moissonneur via un terminal de commande.
  • Mode d'emploi : ce programme est disponible sur GitHub.
  • Installations : suivre les étapes suivantes :

  • Astuces :

    • les options de cet utilitaire sont listées sur le dépôt GitHub
    • indiquer le nombre de documents à extraire. Sans précision, aucun document n'est moissonné
    • les métadonnées étant extraites par défaut, si on ne souhaite que les fichiers textes, utiliser l'option -M avec une chaîne vide, c’est-à-dire un blanc entre doubles quotes : -M ""

      • Exemple : moissonnage du texte intégral au format txt, sans les métadonnées, de 590 documents correspondant à la requête querya1.txt, à télécharger dans le répertoire «corpusAncien»

      istex-api-harvester -F txt -M "" -o corpusAncien -s 600 --query="'cat querya1.txt'"

    • Si le corpus est volumineux, il faut augmenter la durée de vie de la fonction Scroll. Celle-ci est de 30 s par défaut. Avec un tel délai, le parcours des 100 résultats de la "page courante" peut s’avérer trop long et entraîner une erreur 404 renvoyée par l'API.

      • Exemple : moissonnage du texte intégral au format PDF et des métadonnées associées de 17 257 documents contenant le terme "arctic" dans le titre ou le résumé, à télécharger dans le répertoire Polaris (la durée de vie de la fonction Scroll a été portée à 5 mn)

      istex-api-harvester -t 5m -F pdf -o Polaris -s 17500 -q "title:arctic OR abstract:arctic"

results matching ""

    No results matching ""