# Constitution des datasets

Chez reciTAL, la notion de "Dataset" fait référence à une collection de documents de même nature. Pour la classification, il faudra donc créer autant de datasets qu'il y a de classes différentes.

{% hint style="info" %}
Quelques conseils pour constituer correctement un dataset de classification:

* Miser sur la qualité plutôt que sur la quantité. Commencer par une 50aine de documents par dataset, et s'assurer que ces documents soient dans la bonne classe.
* Ne pas confondre nature de document et usage métier. Par exemple une CNI et un passeport devraient être dans 2 datasets séparés. Idem pour les justificatif de domicile par exemple (facture d'électricité, de gaz, de téléphone, ...)
* Ne pas inclure de classe "Photo". Nos modèles de classification se basent sur le contenu textuel d'un document. Ils ne sont donc pas en mesure de prédire correctement si document est une photo. D'autres outils sont à disposition pour repérer les photos, contacter l'équipe projet.
  {% endhint %}

## Création des dataset de documents

{% content-ref url="/pages/TSRJ8YPuzwrPDgNIxW4X" %}
[Constituer un Dataset](/products/extraction/entrainer-un-modele-dextraction/constituer-un-dataset.md)
{% endcontent-ref %}

{% hint style="info" %}
**WIP**

Vous pouvez constituer les dataset sur votre machine, en rassemblant simplement des documents d’exemple dans des sous-dossiers. Créez ensuite un fichier zip, puis uploader le dans reciTAL. Autant de dataset seront automatiquement créés qu'il y a de sous-dossiers dans le fichier zip.
{% endhint %}

## Création des dataset de mails&#x20;

Fonctionnalité WIP


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.recital.ai/products/classification/entrainer-un-modele-de-classification/constitution-des-datasets.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
