Version 24.9.x (2024-09-03)

Classification de mails, Cases à cocher, Nouveau modèle reciTAL d'OCR, Review de classification

Fonctionnalités

#Description

1

Il est désormais possible de créer des datasets d'emails. Les fichiers .msg ou .eml sont acceptés. La possibilité d'entraîner un classifieur de mails à également été ajoutée.

2

Un mode "Datascience" est activable par organisation. Ce mode permet entre autre d'avoir accès à des fonctionnalités avancées permettant de visualiser l'ordre de lecture, afficher les blocks de mots, afficher la détection des tableaux. Ce mode est activable par l'équipe reciTAL au besoin.

3

DocTR, Un nouveau modèle interne d'OCR a été ajouté. Il peut être sélectionné en remplacement du modèle Google s'il y a des contraintes de confidentialité des données.

4

La détection des cases à cocher est désormais possible lors de la phase d'annotation. Elles peuvent être encadrées comme n'importe quel autre mot du document.

Si l'OCR de google est utilisé, nous utilisons les prédictions de ce même modèle.

Si un autre OCR est utilisé (Tesseract ou DocTR), nous utilisons un modèle reciTAL pour la détection de cases à cocher. Nous sommes actuellement en train d'analyser les performances de notre détecteur sur différents types de document.

5

Les images supérieurs à 4.2 MB étaient rejetées car trop volumineuses. Un pré-traitement a été mis en place pour réduire la taille d'une image, jusqu'à atteindre une taille acceptée.

6

La date et l'heure d'entrainement d'un modèle sont maintenant affichées dans les détails d'un modèle.

7

L'interface du choix des modules dans le Workflow a été complètement revue.

8

Lorsqu'un champs est automatiquement validé par une règle de gestion dans l'écran de review, on affiche la règle de gestion en information.

9

Ajout des liens des différentes API et de leur état dans les paramètres généraux de l'organisation.

10

Possibilité d'utiliser une url dynamique dans le module "Webhook" dans le workflow.

11

Ajout d'un module de vidéo-typage (review de classification) dans le Workflow.

12

Amélioration du module "custom code" (python) dans le workflow. Le module est plus grand et la couleur de police est dynamique lors de l'édition.

13

Ajout d'une notification à la fin de l'entrainement d'un modèle, que ce dernier soit un succès ou soit en erreur.

14

Un fichier déjà en review par un autre utilisateur n'est plus cliquable.

Bugs corrigés

#Description

1

L'url personnalisée pour la connexion Open ID Connect a été corrigée.

2

Le filtrage des jobs dans le workflow a été amélioré.

3

Prise en compte des pages supprimées dans un dataset lors de l'entrainement d'un modèle de classification. (Elles sont maintenant supprimées du dataset de classification)

4

Affichage du bouton "Cancel" qui était bogué lors de l'ajout d'un groupe manquant pendant la review.

5

Le paramètre "Custom Metadata" est bien renvoyé dans le Webhook.

6

Les croix pour supprimer un module workflow n'apparaissent plus lorsque ce dernier n'est pas en mode édition.

7

Le téléchargement d'un Agent d'extraction est maintenant fonctionnel.

8

Il y avait de forte latences lorsqu'un nombre important de documents étaient dans un dataset / en validation. Le problème a été identifié et traité.

9

L'ajout d'une boite mail dans les workflow est fonctionnelle.

10

Correction de légers bugs visuels sur la plateforme.

11

La fonctionnalité de recherche au sein d'un document lors de la phase d'annotation est maintenant fonctionnelle.

12

Correction de la lisibilité des notifications.

13

La matrice de confusion pour les modèles de classification a été corrigée.

14

Correction de la colonne "Updated On" pour prendre en compte la dernière date d'édition du workflow.

15

La fonctionnalité "Re-traiter un document" en validation était boguée, elle a été corrigée.

16

La collection de sortie par défaut pour le module "split-pdf" est passée de "file" à "split-file".

17

Les fichiers .msg dans les datasets d'Emails sont maintenant bien gérés.

18

Correction de l'étape "Cleanup" dans le worfklow qui n'avait pas le comportement souhaité.

19

L'entrainement d'un modèle de classification ne fonctionnait pas lorsque des documents corrompus étaient présent dans les datasets. Ils sont maintenant ignorés.

20

"Attachments" au lieu de "Attachment" comme nom de collection utilisée lors des tests du Workflow.

21

Dans le workflow, les transitions sans nom n'affichent plus "null".

Last updated