Constitution des datasets
Last updated
Last updated
Chez reciTAL, la notion de "Dataset" fait référence à une collection de documents de même nature. Pour la classification, il faudra donc créer autant de datasets qu'il y a de classes différentes.
Quelques conseils pour constituer correctement un dataset de classification:
Miser sur la qualité plutôt que sur la quantité. Commencer par une 50aine de documents par dataset, et s'assurer que ces documents soient dans la bonne classe.
Ne pas confondre nature de document et usage métier. Par exemple une CNI et un passeport devraient être dans 2 datasets séparés. Idem pour les justificatif de domicile par exemple (facture d'électricité, de gaz, de téléphone, ...)
Ne pas inclure de classe "Photo". Nos modèles de classification se basent sur le contenu textuel d'un document. Ils ne sont donc pas en mesure de prédire correctement si document est une photo. D'autres outils sont à disposition pour repérer les photos, contacter l'équipe projet.
WIP
Vous pouvez constituer les dataset sur votre machine, en rassemblant simplement des documents d’exemple dans des sous-dossiers. Créez ensuite un fichier zip, puis uploader le dans reciTAL. Autant de dataset seront automatiquement créés qu'il y a de sous-dossiers dans le fichier zip.
Fonctionnalité WIP