LogoLogo
  • 📖Suite reciTAL - Documentation
  • 🚀Démarrage rapide
    • Utiliser un modèle d'extraction reciTAL sur étagère
  • 🎯Extraction
    • 🎯Introduction
    • Entraîner un modèle d'extraction
      • Constituer un Dataset
      • Annoter un Dataset
      • Entraîner un modèle
    • Configurer un Agent d'Extraction
      • Créer un Agent
      • Configurer les extracteurs d'un Agent
      • Configurer les paramètres d'un Agent
    • Valider un Agent
      • Charger des documents en validation
      • Valider un Agent
    • Ecran de correction
  • 🗃️Classification
    • 🗃️Introduction
    • Entraîner un modèle de classification
      • Constitution des datasets
      • Entrainement du modèle
      • Lecture et interprétation des résultats
    • Configurer un Agent de Classification
  • 🪄Workflow
    • 🪄Introduction
    • Créer un Workflow
    • Les modules Workflow
    • Jobs
    • Inputs
  • 🔌Intégration API
    • Authentification
    • Extraction
      • Envoyer des documents en extraction
      • Structure des résultats d'extraction
    • Classification
      • Envoyer des documents en classification
      • Structure des résultats de classification
    • Workflow
      • Envoyer des documents dans un Workflow
      • Structure des résultats du workflow
  • 📺Autres
    • Glossaire reciTAL
    • Astuces d'annotation
    • Gestion des utilisateurs
    • Métriques d'évaluation
    • Connection avec OpenID Connect (OIDC)
  • 🏗️Nos APIs
    • Swagger Workflow
    • Swagger Extraction
    • Swagger Classification
    • Swagger Auth
  • ⚙️Changelogs
    • Version 25.5.x (14/05/2025)
    • Mises à jours précédentes
      • Version 25.4.x (22/04/2025)
      • Version 25.3.x (24/03/2025)
      • Version 25.2.x (05/02/2025)
      • Version 24.12.x (23/12/2024)
      • Version 24.11.x (2024-11-05)
      • Version 24.9.x (2024-09-20)
      • Version 24.7.x (2024-07-09)
      • Version 24.6.x (20/06/2024)
      • Version 24.1.x (12/01/2024)
      • Version 23.12.x (12/12/2023)
      • Version 1.0.12 (05/12/2023)
      • Version 1.0.11 (30/11/2023)
      • Version 1.0.10 (22/11/2023)
      • Version 1.0.9 (27/10/2023)
      • Version 1.0.8 (18/10/2023)
      • Version 1.0.7 (03/10/2023)
      • Version 1.0.6 (11/09/2023)
      • Version 1.0.5 (23/08/2023)
      • Version 1.0.4 (18/08/2023)
      • Version 1.0.3 (27/06/2023)
      • Version 1.0.2 (02/05/2023)
      • Version 1.0.1 (24/03/2023)
  • 📧Contact
    • Nous contacter
Powered by GitBook
On this page
  • Création des dataset de documents
  • Création des dataset de mails
  1. Classification
  2. Entraîner un modèle de classification

Constitution des datasets

PreviousEntraîner un modèle de classificationNextEntrainement du modèle

Last updated 11 months ago

Chez reciTAL, la notion de "Dataset" fait référence à une collection de documents de même nature. Pour la classification, il faudra donc créer autant de datasets qu'il y a de classes différentes.

Quelques conseils pour constituer correctement un dataset de classification:

  • Miser sur la qualité plutôt que sur la quantité. Commencer par une 50aine de documents par dataset, et s'assurer que ces documents soient dans la bonne classe.

  • Ne pas confondre nature de document et usage métier. Par exemple une CNI et un passeport devraient être dans 2 datasets séparés. Idem pour les justificatif de domicile par exemple (facture d'électricité, de gaz, de téléphone, ...)

  • Ne pas inclure de classe "Photo". Nos modèles de classification se basent sur le contenu textuel d'un document. Ils ne sont donc pas en mesure de prédire correctement si document est une photo. D'autres outils sont à disposition pour repérer les photos, contacter l'équipe projet.

Création des dataset de documents

WIP

Vous pouvez constituer les dataset sur votre machine, en rassemblant simplement des documents d’exemple dans des sous-dossiers. Créez ensuite un fichier zip, puis uploader le dans reciTAL. Autant de dataset seront automatiquement créés qu'il y a de sous-dossiers dans le fichier zip.

Création des dataset de mails

Fonctionnalité WIP

🗃️
Constituer un Dataset