LogoLogo
  • 📖Suite reciTAL - Documentation
  • 🚀Démarrage rapide
    • Utiliser un modèle d'extraction reciTAL sur étagère
  • 🎯Extraction
    • 🎯Introduction
    • Entraîner un modèle d'extraction
      • Constituer un Dataset
      • Annoter un Dataset
      • Entraîner un modèle
    • Configurer un Agent d'Extraction
      • Créer un Agent
      • Configurer les extracteurs d'un Agent
      • Configurer les paramètres d'un Agent
    • Valider un Agent
      • Charger des documents en validation
      • Valider un Agent
    • Ecran de correction
  • 🗃️Classification
    • 🗃️Introduction
    • Entraîner un modèle de classification
      • Constitution des datasets
      • Entrainement du modèle
      • Lecture et interprétation des résultats
    • Configurer un Agent de Classification
  • 🪄Workflow
    • 🪄Introduction
    • Créer un Workflow
    • Les modules Workflow
    • Jobs
    • Inputs
  • 🔌Intégration API
    • Authentification
    • Extraction
      • Envoyer des documents en extraction
      • Structure des résultats d'extraction
    • Classification
      • Envoyer des documents en classification
      • Structure des résultats de classification
    • Workflow
      • Envoyer des documents dans un Workflow
      • Structure des résultats du workflow
  • 📺Autres
    • Glossaire reciTAL
    • Astuces d'annotation
    • Gestion des utilisateurs
    • Métriques d'évaluation
    • Connection avec OpenID Connect (OIDC)
  • 🏗️Nos APIs
    • Swagger Workflow
    • Swagger Extraction
    • Swagger Classification
    • Swagger Auth
  • ⚙️Changelogs
    • Version 25.5.x (14/05/2025)
    • Mises à jours précédentes
      • Version 25.4.x (22/04/2025)
      • Version 25.3.x (24/03/2025)
      • Version 25.2.x (05/02/2025)
      • Version 24.12.x (23/12/2024)
      • Version 24.11.x (2024-11-05)
      • Version 24.9.x (2024-09-20)
      • Version 24.7.x (2024-07-09)
      • Version 24.6.x (20/06/2024)
      • Version 24.1.x (12/01/2024)
      • Version 23.12.x (12/12/2023)
      • Version 1.0.12 (05/12/2023)
      • Version 1.0.11 (30/11/2023)
      • Version 1.0.10 (22/11/2023)
      • Version 1.0.9 (27/10/2023)
      • Version 1.0.8 (18/10/2023)
      • Version 1.0.7 (03/10/2023)
      • Version 1.0.6 (11/09/2023)
      • Version 1.0.5 (23/08/2023)
      • Version 1.0.4 (18/08/2023)
      • Version 1.0.3 (27/06/2023)
      • Version 1.0.2 (02/05/2023)
      • Version 1.0.1 (24/03/2023)
  • 📧Contact
    • Nous contacter
Powered by GitBook
On this page
  • Conseils sur la constitution d'un Dataset
  • Créer un nouveau Dataset
  1. Extraction
  2. Entraîner un modèle d'extraction

Constituer un Dataset

La première tâche à réaliser lorsque l'on souhaite automatiser un flux documentaire est la constitution du dataset.

PreviousEntraîner un modèle d'extractionNextAnnoter un Dataset

Last updated 11 months ago

Conseils sur la constitution d'un Dataset

Le dataset (ou jeu de données) est l'ensemble des documents métier utilisés pour l'apprentissage du modèle. Ces documents seront utilisés uniquement pour cette phase d'apprentissage et ne devront pas servir de jeu de test.

Le dataset doit être le plus représentatif possible du flux réel : plus le dataset est représentatif, plus le modèle sera performant lors de la phase de production.

Selon la complexité du type de document, un dataset doit contenir un certain nombre de documents. Nos recommandations sont les suivantes :

  • Documents structurés : 30 à 50 documents

  • Documents non structurés "simples" : 100 documents

  • Documents non structurés "complexes" : 100 à 300 documents

Créer un nouveau Dataset

Donner un nom à votre Dataset. Divers option s'offrent ensuite à vous:

  • Force OCR : Si l'option est activée, l'OCR se fera même si votre document contient du texte sélectionnable. Nous conseillons vivement d'utiliser cette option car elle permet d'assurer une stabilité dans l'ordre de lecture des mots d'un document.

  • Pivoter automatiquement les pages : Redresse les pages retournées à 90°, 180° ou 270°. Nécessite l'activation de Google OCR (Paramètres généraux de l'organisation) et de Force OCR.

  • Redresser les documents de travers : Redresse les documents scannés ou pris en photo avec une légère rotation.

  • Afficher les étiquettes 'emplacement' et 'document' : Lors de la phase d'annotation, les "emplacements" permettent d'annoter des éléments autre que du texte (par exemple les signatures, des images, etc.). Le champs "document" permet d'ajouter du texte libre pour chaque document.

  • Personnaliser l'ordre de Lecture :

    • Tableaux : Ordre de lecture conçu pour lire des documents contenant des tableaux ou factures.

    • Par défaut : Ordre de lecture renvoyé par l'OCR.

    • Mots : Ordre de lecture conçu pour lire un document de gauche à droite puis haut en bas, indépendamment des structures interne du document (paragraphes, sections, etc.).

Utiliser les tableaux : Détecte les tableaux dans un document et modifie l'ordre de lecture en fonction de ces derniers (La lecture des mots cellule par cellule est forcée). Cette option est nécessaire pour certaines méthodes d'agrégation lors de la configuration d'un Extracteur (voir ).

🎯
Configurer les extracteurs d'un Agent