Tessi lab présente tessi lab document reader (TLDR)

Tessi lab présente aujourd’hui sa solution d’extraction de données sur documents non formatés : tessi lab document reader (TLDR). Cette solution, aujourd’hui développée pour le format des tickets de caisse, permet de lire et d’analyser des données à grande échelle.

L’analyse de données issues des tickets caisse

Dans le cadre de sa mission d’innovation, Tessi lab a notamment travaillé, en 2015, à l’élaboration d’une solution d’extraction de données issues de tickets de caisse.

Il existe une grande variété de mise en page sur les tickets de caisse. Cette hétérogénéité s’explique par la diversité des enseignes de distribution, comme par l’autonomie que certains magasins peuvent avoir au sein de leur enseigne.

TESSI LAB DOCUMENT READER EN BREF

Tessi lab document reader

  • Module de reconnaissance optique de caractères (OCR)

L’image du ticket de caisse est traitée numériquement en vue d’améliorer sa lisibilité. TLDR isole ensuite les caractères à l’aide d’un moteur d’OCR open source hautement customisé pour répondre aux exigences de TLDR.

  • Module d’analyse sémantique

Afin d’extraire un maximum d’informations de l’image obtenue, chaque mot est analysé dans son contexte afin de déterminer le type d’information qu’il contient et la confiance que l’on peut lui accorder.

  • Base de données « big data »

Les résultats de l’analyse sémantique sont intégrés dans une base de données NoSQL. Cette organisation permet d’interroger le système sur un ticket de caisse en particulier ou sur un ensemble plus important.

  • Architecture

Afin de pouvoir supporter d’importantes montées en charge, Tessi lab a, dès l’origine du développement de TLDR, veillé à rendre la solution totalement scalable. Livré sous forme d’une interface de programmation (API), TLDR est directement intégrable dans tous projets web, applications et applications mobiles

Aujourd’hui, TLDR est capable à partir d’une photographie de ticket de caisse d’extraire l’ensemble des informations suivantes :

  • la date,
  • le montant total,
  • l’enseigne,
  • l’ensemble des produits achetés,
  • le prix des produits ainsi que leur taux de TVA.

Roadmap 2016

La construction modulaire de TLDR permet l’ajout rapide de fonctionnalités.
Depuis octobre 2015 Tessi lab poursuit le développement de TLDR et souhaite mettre en place de nouveaux modules d’analyses sémantiques dédiés à de nouveaux types de documents commerciaux : factures, contrats, bons de commandes…
En amont des nouveaux modules d’analyses sémantiques, Tessi lab a pour ambition de développer en 2016 son propre « catégoriseur » de documents, basé notamment sur la technologie du deep learning.

Télécharger le communiqué de presse

À propos de Tessi lab :

Tessi lab, la structure interne de prospective, veille, recherche et développement de Tessi, a été créée en février 2014, avec un double objectif : devenir le pôle d’innovation de Tessi et être un point d’entrée pour les étudiants de grandes écoles. Tessi lab a notamment développé Notilive, une plateforme de publication et de notification d’annonces commerciales contextuelles utilisant les technologies iBeacon d’Apple et Eddystone de Google.

Tessi, leader dans le traitement des flux, accompagne les entreprises depuis 40 ans dans la gestion de leurs éléments vitaux ( documents, moyens de paiement, transactions devises & or et marketing promotionnel ). Avec un CA de 247,1 millions d’euros en 2014, son expertise repose sur trois pôles d’activités : documents services, CPoR Devises et marketing client.

Plus d’informations sur www.tessilab.io et tes17con12si-dev-tessi-fr.pf5.wpserveur.net.

Contacts

Tessi TBWA \CORPORATE
Corinne Rebouah Emilie Sotton
Tél. +33 (0)4 76 70 59 10 Tél. +33 (0)4 37 47 36 26
corinne.rebouah@tessilab.io emilie.sotton@tbwa-corporate.com