# Annoter un Dataset

## Configurer les étiquettes

Avant de pouvoir annoter, il est nécessaire de configurer les étiquettes (labels) qui seront entraînées.

Pour ce faire, cliquez sur l'onglet `Etiquettes`, en haut à droite.

<figure><img src="/files/2xl4qR2d12SVQIpKDFnv" alt=""><figcaption><p>Gestion des labels d'un dataset</p></figcaption></figure>

Saisir le nom du label, puis cliquez sur `AJOUTER`.

<figure><img src="/files/nd6tE8Vqcge5HGLiEPDU" alt=""><figcaption><p>Gestion des labels d'un dataset</p></figcaption></figure>

{% hint style="info" %}
Une bonne pratique pour les tableaux peut être d'ajouter un préfixe "LIGNE\_" ou "ITEM\_" avant le nom du champ (par exemple, LIGNE\_DESIGNATION, LIGNE\_QUANTITE, LIGNE\_PRIX\_HT). Cela permettra de les identifier plus facilement lors de la configuration de l'Agent d'extraction.
{% endhint %}

**Autoriser les sauts de ligne:** Désactiver l'option pour les champs ne pouvant pas être sur plusieurs lignes (eg. un montant).

**Etiquette en colonne**: Activer l'option permet de faire en sorte qu'un champs numérique n'est pas extrait partiellement (par exemple, "1 035 684" -> "1 035").

Réitérer pour toutes les étiquettes à ajouter.

## Configurer les paramètres du Dataset

Vous pouvez modifier les paramètres définis lors de la création du dataset en accédant à l'onglet `Configuration`.

<figure><img src="/files/uNuysSDkNg0VwD68xRHE" alt=""><figcaption><p>Configuration d'un Dataset</p></figcaption></figure>

## Annoter les documents

Revenez sur l'onglet Document. Pour annoter les documents, cliquez sur `Annoter` ou ouvrez simplement un document en cliquant dessus.

### Principes d'annotation

Afin d'annoter correctement, il est indispensable de suivre les deux principes d'annotation suivants.

1. **Annotation exhaustive** : Il est essentiel d'annoter de manière exhaustive chaque information pertinente sur le document, et ce à chaque occurrence. L'objectif est de montrer explicitement au modèle où et comment localiser l'information, indépendamment des pratiques usuelles ou de l'intuition des utilisateurs.

   *Exemple: Si le numéro SIREN de l'émetteur apparaît à la fois dans l'entête et le pied de page d'un document, il doit être annoté dans ces deux sections pour assurer une extraction complète et précise.*
2. **Annotation cohérente** : Il est crucial que chaque information soit annotée de manière uniforme sur tous les documents similaires. Cela évite d'introduire des ambiguïtés qui pourraient désorienter le modèle.\
   \&#xNAN;*Exemple: Si un fournisseur place systématiquement le numéro de facture à un emplacement inattendu, par exemple après un libellé "numéro de commande", il est important de continuer à récupérer l'information à cet emplacement spécifique pour toutes les factures de ce fournisseur. Bien que non conventionnel, cet emplacement reste constant et doit être respecté pour garantir la précision de l'extraction des données.*

Annotez donc les documents en respectant ces principes afin d'optimiser les performances du modèle.

### Annotation

Annotez le document en cliquant sur le stylo situé à droite de l'étiquette et sélectionnez dans le document la valeur que vous souhaitez annoter. Répétez le processus pour toutes les étiquettes, puis passez au document suivant.

Toutes les fonctionnalités liées à l'annotation sont répertoriées sur [une page dédiée](/products/autres/astuces-dannotation.md). Elles permettent de grandement fluidifier cette tâche.

<figure><img src="/files/oVO874hk05wLo8fqz505" alt=""><figcaption></figcaption></figure>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.recital.ai/products/extraction/entrainer-un-modele-dextraction/annoter-un-dataset.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
