Configurer les extracteurs d'un Agent
Rendez-vous dans l'onglet "Extracteurs".
Last updated
Rendez-vous dans l'onglet "Extracteurs".
Last updated
Si l'Agent a été créé à partir d'un modèle existant (custom ou sur étagère), tous les labels du modèle sont créés comme des champs uniques.
Un champ unique, comme son nom l'indique, ne sera extrait qu'une seule fois dans un document. Par exemple, sur une facture : la date d'émission, le montant HT ou le n° de facture.
Ajoutez un Datapoint, donnez un nom à votre nouveau champs, puis enregistrez.
Le type de valeur est la nature du champs à extraire. Sélectionner le bon type de valeur permet de normaliser le champs extrait.
Type de valeur | Détail | Exemples |
---|---|---|
Tout | N'importe quelle chaîne de caractère, c'est la valeur par défaut | Nom, Prénom, Désignation |
Date | Permet de normaliser une date au format YYYY-MM-DD | Date d'émission, Date d'expiration |
Nombre Entier (integer) | Permet de normaliser un nombre entier | Nombre d'unité, Age |
Nombre Décimal (float) | Permet de normaliser un nombre décimal | Montant HT, Pourcentage, Volume, |
Personnalisé | Utilise les expressions régulières pour normaliser un champ extrait. La première expression doit correspondre au champ extrait pour permettre sa normalisation. Dans la deuxième expression, il est possible de réutiliser les groupes capturés dans la première expression (\1, \2, ...) afin de réaliser la normalisation. | Numéro de téléphone, Référence client, Code barre |
C'est la façon dont le champ sera extrait dans le document.
La principale méthode d'extraction est depuis un modèle entraîné. Sélectionnez le modèle et sa version, puis sélectionnez le label du modèle correspondant.
À noter que plusieurs modèles peuvent être utilisés pour des champs différents. Cela permet, par exemple, d'associer 2 labels à un même mot (ce qui est impossible avec un seul modèle). Cependant, lors d'une prédiction, chaque modèle sera appelé, ce qui augmentera le temps de traitement.
Par exemple, configurer un premier extracteur "Adresse", qui capture une adresse entière, et un deuxième extracteur "Code Postal" depuis un autre modèle. Ainsi, dans le document, le code postal aura à la fois le label "Code Postal" et "Adresse".
Il est également possible d'utiliser les expressions régulières pour extraire un champ dans le document. Pour cela, sélectionnez "Règles", saisissez la regex, puis vous avez l'option de délimiter une zone dans le document où chercher l'expression.
Nouvelle fonctionnalité
Il est désormais possible de sélectionner "Génératif" comme méthode d'extraction.
Un agent génératif est créé dynamiquement à partir du nom et de la description de l'extracteur. Il est également possible d'ajouter une description au niveau de votre agent d'extraction.
Lorsqu’il s’agit de lignes d’un tableau par exemple, il convient de les mettre sous forme de groupe. Si vous avez créé un agent depuis un modèle, supprimez les champs concernés de la partie "Data point" et créez un groupe d’étiquettes.
Rentrez le nom du groupe et choisissez le modèle d'extraction utilisé pour ce groupe.
Ligne : Les éléments sur une même ligne sont rassemblés en un groupe. Par exemple avec les factures pour rassembler dans un même groupe la désignation, le prix, la quantité, etc.
Ligne divisée : Identique à ligne, mais permet d'avoir 2 groupes différents si 2 tableaux sont côte à côte sur la même ligne par exemple.
Colonne : Les éléments sur une même colonne sont rassemblés en un groupe.
Bloc : Les éléments successifs dans un document sont rassemblés en un groupe sans contrainte de ligne ou de colonne (seul l'ordre de lecture compte). Un nouveau groupe est créé à chaque nouvelle itération.
Cluster : Permet de rapprocher des champs par proximité dans le document, sans tenir compte d'un alignement vertical ou horizontal. Par exemple pour les adresses (rue, code postal, ville)
Ligne de tableau : Utilisation de la détection de tableau requis. Identique à LIGNE mais se base sur la reconnaissance de tableau.
Cellule de tableau : Utilisation de la détection de tableau requis. Identique à COLONNE mais se base sur la reconnaissance de tableau.
Conserver les valeurs des X meilleurs pages : Par défaut dans un groupe, toutes les occurrences du groupe (sous-groupe) seront extraites, mais il est possible de limiter les extractions seulement aux "meilleures" pages. Particulièrement utile si on sait par exemple que l'information n'est que sur 1 page. Si l'option est activée, alors on peut exclure lors du calcul des meilleures pages les pages contenant une valeur spécifique.
Créer des sous-groupes vides pour les étiquettes primaires sans valeur : Utilisation avancée des groupes, permettant de créer autant de sous-groupe qu'il existe de champs primaires.
Afficher les étiquettes primaires sans valeur : Par défaut les champs d'un sous-groupe non-extrait n'apparaissent pas dans les résultats. Si cette option est activée, ils apparaitront avec la valeur "N/A". Cela permet d'avoir un squelette de JSON fixe lors de l'envoie des résultats.
Afficher les groupes à valeur unique : Par défaut un sous-groupe est créé si 2 champs ou plus sont présents. Si cette option est activée, un groupe est créé même avec 1 seul champ, si ce dernier est primaire.
Ajoutez un par un les champs provenant du modèle à ajouter dans le groupe. Pour chaque champ, vous pouvez configurer un type de valeur (voir "Créer un nouveau champ unique"), et désigner si ce dernier est primaire ou non. Un champ primaire autorise la création d'un sous-groupe s'il est extrait. Le sous-groupe n'est pas créé si aucun champ primaire n'est extrait.