Créer un classifieur

Pour utiliser Classify, il vous faut au moins un Classifieur. Vous utiliserez ce classifieur pour identifier les catégories de vos mails / documents.

Les grandes étapes d’entraînement d’un classifieur sont les suivantes :

  1. Constitution du dataset

  2. Entraînement du modèle

  3. Analyse des erreurs

  4. Réentraînement

Les étapes 3 et 4 sont réalisées de manière itérative jusqu’à obtention d’un classifieur dont les performances sont satisfaisantes.

Constitution du dataset

Le dataset d’entraînement va permettre au classifieur d’ajuster ses paramètres internes pour identifier le mieux possible les catégories des mails / documents que vous souhaitez analyser - référez-vous à la section Entraînement pour plus de détails.

Vous pouvez constituer le dataset sur votre machine, en rassemblant simplement des e-mails / documents d’exemple dans des sous-dossiers.

Entraînement du modèle

Une fois le dataset constitué :

  1. Rassemblez les sous-dossiers dans une archive .zip

  2. Allez dans l’écran Modèles (Models)

  3. Cliquez sur Add model en haut à droite de l’écran

  4. Remplissez les champs comme indiqué dans la section l’écran Modèles (Models)

  5. Lancez l’entraînement !

  6. Vous êtes averti de la fin de l’entraînement par une notification en haut à droite de l’écran

Analyse des erreurs

Une fois le modèle entraîné, vous pouvez voir son score d’entraînement dans colonne Train (F-score / Data) de la liste des modèles de l’écran Modèles (Models).

Pour investiguer plus en détail les performances à l’entraînement, cliquez sur le nom de votre modèle. L’écran détaillé par Modèle s’affiche.

Les scores sur fond bleu dans la colonne Training score vous donnent le F-score par catégorie. Identifiez les catégories les plus importantes pour le traitement de vos mails / documents afin de déterminer si un réentraînement est nécessaire. Un F-score de 70% est suffisant dans certains cas, surtout lorsqu’une vérification humaine est réalisée après classification.

Pour une analyse plus fine, utilisez la matrice de confusion, détaillée dans Entraînement.