Fonction "Extract"

Il s'agit d'une fonction du moteur de recherche de l'API ISTEX permettant d’extraire sous forme d’une archive zip le corpus correspondant à des critères de recherche. Elle s’utilise directement dans l’URL de requêtage sur l’API en la paramétrant selon ses besoins

  • Avantages :
    • simple à utiliser, cette fonction ne nécessite aucune installation
    • elle peut être utilisée en dehors du réseau interne de l'Inist-CNRS, la gestion de l’authentification s’opérant via la fédération d’identité ou par adresse IP
    • elle permet l'extraction des enrichissements lorsqu'ils existent
    • elle offre le téléchargement des annexes et couvertures disponibles
    • les documents extraits peuvent être répartis ou non dans une arborescence selon le choix retenu
    • il est possible de réduire la taille du corpus à télécharger (paramètre size)
    • si la taille du corpus extrait est réduite, on peut choisir un autre mode de tri que celui par pertinence effectué par le moteur de recherche, c’est-à-dire un tri des documents en fonction de certain champs (paramètre sortBy), ou selon un tri aléatoire (paramètre rankBy=random) avec la possibilité de retrouver cet ordre aléatoire (paramètre randomSeed) ou bien encore selon un tri utilisant un score relevé par la qualité (paramètre rankBy=qualityOverRelevance)
  • Inconvénients :
    • les corpus ne peuvent être extraits actuellement que dans la limite de 6 000 documents
    • le fichier JSON de métadonnées est extrait par défaut
    • l’extraction d’un type particulier d’enrichissement n’est pas encore possible
  • Mode d'emploi : cette fonction, ainsi que la syntaxe requise pour son utilisation et les différents paramètres disponibles, sont décrits dans la rubrique "Extraction" de la documentation technique ISTEX
  • Astuces :
    • la fonction extract utilisée seule génère l’extraction de l’ensemble des fichiers disponibles pour les documents ISTEX du corpus.
    • sans indication de format, tous les formats proposés pour le type de fichier indiqué seront extraits
    • sans précision du paramètre size, 5 documents seront extraits par défaut. Pour extraire tous les documents répondant à une requête donnée, indiquer une taille de corpus au moins égale au nombre maximal de documents à extraire

results matching ""

    No results matching ""