Istex Search
Istex Search est une service de l'infrastructure Istex dédié à la constitution de corpus. Son interface ergonomique connectée à l’API facilite la constitution de votre corpus en suivant trois étapes :
· interrogation d'Istex
· exploration des résultats
· téléchargement de votre corpus
Interrogation d'Istex
3 modes de recherche vous permettent d’interroger le réservoir Istex :
- Recherche simple
- Recherche assistée
- Recherche par identifiants
Recherche simple
Le mode de recherche simple interroge la base Istex en utilisant la syntaxe d’interrogation Lucene, le langage de requêtage du moteur de recherche Istex (Elasticsearch), grâce à une équation avec les opérateurs booléens (ex. AND, OR).
Le mode de recherche simple est sélectionné par défaut à l’ouverture d’Istex Search.

Recherche Assistée
Ce mode de recherche vous permet de construire une équation complexe sans connaissance a priori de la syntaxe Lucene, avec des règles et des groupes.
Une règle est constituée de trois informations : le champ que l’on souhaite interroger, le comparateur (égal à, contient etc.) et la valeur que l’on souhaite retrouver dans ce champ.
Les groupes sont l’équivalent de parenthèses. Comme en mathématiques, les opérations situées à l'intérieur des parenthèses ont la priorité.

Exemples de champs interrogeables dans Istex
Affiliation d'auteur
- nom technique : author.affiliations
- description : recherche par affiliation d'un auteur
- exemple de requête : author.affiliations:CNRS
Bouquet
- nom technique : corpusName
- description : Recherche par bouquet éditeur chargé dans Istex
- exemple de requête : corpusName:"degruyter-ebooks-french"
ISSN de la revue
- nom technique : host.issn
- description : Recherche par le numéro ISSN de la revue papier
- exemple de requête : host.issn:"0378-5548"
Titre
- nom technique : title
- description : Recherche dans le titre
- exemple de requête : title:"Les droits de l’homme de la femme: polysémie ou androcentrisme?"
La liste complète des champs interrogeables dans Istex est disponible dans l'annexe du tutoriel Istex Search.
Recherche par identifiants
Ce mode de recherche utilise des identifiants uniques et pérennes attribués aux documents Istex (ARK, DOI ou idIstex). Il sélectionne les documents correspondant aux identifiants demandés s’ils sont présents dans le réservoir.
Il est notamment possible d’importer une liste d’identifiants mais avec un seul type d’identifiant à la fois.


Exploration des résultats
Différents filtres et indicateurs permettent d'analyser le contenu le corpus et d'affiner la requête pour obtenir un corpus de qualité.
Quand la recherche est lancée, une page Résultats de votre requête propose une vision d’ensemble du corpus et d’affiner celui-ci si nécessaire.

- Nombre de documents correspondant à la requête en cours (1)
- Requête envoyée à l’API Istex, elle peut être copiée dans le presse-papier en cliquant sur le bouton copier-coller en bout de ligne (2)
- Filtres permettant d'explorer et d'affiner le corpus (3)
- Indicateurs scientifiques et techniques sur le corpus et pourcentage de compatibilité entre le corpus et des outils d’analyse (4)
- Modes de tri des documents du corpus (5)
- Affichage en colonne ou ligne (6)
- Vignettes cliquables correspondant aux documents du corpus (7)
Indicateurs
Les indicateurs permettent de vérifier rapidement le pourcentage et le nombre de documents possédant un Résumé, un PDF texte, un format Texte nettoyé (format CLEANED), ainsi que la part des trois Langues de publication majoritaires dans le corpus.

Filtres
La page de résultats comporte 11 filtres pour explorer les résultats ou restreindre la recherche.

Pour appliquer un filtre, il faut cocher ou rechercher la valeur souhaitée puis cliquer sur APPLIQUER. Le nombre de documents du corpus est ainsi mis à jour.
Il est possible d'obtenir l'inverse d'un filtre en cliquant sur le tag du filtre :

Modes de tri
Quatre modes de tri sont proposés :
- pertinence et qualité : classe les documents selon un ordre de pertinence associé à un score de qualité ;
- aléatoire : classe les documents de façon aléatoire, eut être utile pour analyser un échantillon de documents parmi les résultats obtenus ;
- date de publication : classe les publications selon leur date de publication (croissante ou décroissante) ;
- titre : permet de classer les publications par ordre alphabétique ou antialphabétique.
Téléchargement d'un corpus
Istex Search permet de télécharger jusqu'à 100 000 documents en une seule fois et propose plusieurs formats de téléchargement.
Pour télécharger un corpus, il faut cliquer sur TELECHARGER LE CORPUS dans l'encadré bleu :

Une fenêtre apparaît et propose de sélectionner les types de fichiers et de formats à extraire, adaptés à l’utilisation qui va être faite du corpus :

- usage personnalisé pour sélectionner "à la carte" les fichiers et formats
- usages prédéfinis:
- Lodex > sélection automatique des métadonnées au format JSON ;
- CorTexT > sélection automatique des textes intégraux aux formats TEI et CLEANED et des enrichissements Teeft au format TEI ;
- GarganText > sélection automatique des métadonnées au format JSON, seule sélection compatible avec le logiciel
- NooJ > sélection automatique des textes intégraux au format TXT et des métadonnées au format JSON, seule sélection compatible avec le logiciel