Dans la continuité de mon précédent article sur l’IA dans les télécoms d’entreprise, je vous propose aujourd’hui de plonger dans un cas concret : la mise en œuvre d’un workflow automatisé pour transformer la voix en texte grâce aux APIs de Wazo et Modjo.

Pourquoi automatiser la retranscription des appels ?

La transcription automatique des appels permet :

  • d’analyser finement les échanges clients,
  • de faciliter l’archivage et la recherche de conversations,
  • de gagner du temps sur la gestion documentaire,
  • et d’améliorer la conformité réglementaire.

Ce processus s’avère particulièrement utile dans les centres de contact, le support client ou le suivi commercial.

Présentation des outils

Wazo

Wazo est une plateforme de communication qui expose de nombreuses APIs, dont celles permettant de recevoir des notifications d’événements liés aux appels. En particulier, l’événement call_log_user_created signale la création d’un nouvel enregistrement d’appel sur un utilisateur.

Modjo

Modjo est une solution SaaS qui propose la retranscription automatique des conversations vocales. Son API permet d’uploader un enregistrement et de récupérer la transcription correspondante.

Architecture de la solution

Le workflow automatisé s’articule ainsi :

  1. Réception de l’événement Wazo : lorsqu’un appel est enregistré, Wazo émet un événement call_log_user_created contenant toutes les informations nécessaires (ID de l’appel, enregistrement, participants, etc.).
  2. Traitement de l’événement : le backend reçoit l’événement, extrait les données, et prépare la requête pour Modjo.
  3. Upload sur Modjo : le fichier audio est transmis à Modjo via son API, accompagné des métadonnées pertinentes.
  4. Récupération de la transcription : une fois l’analyse terminée, Modjo retourne le texte de la conversation, prêt à être exploité.

Mise en œuvre technique

1. Écoute et traitement de l’événement Wazo

Lorsqu’un appel est terminé et enregistré, Wazo envoie un événement call_log_user_created à votre backend. Cet événement contient, entre autres, l’ID de l’appel, la liste des enregistrements associés, la durée, la direction de l’appel, les participants et l’URL du fichier audio.

2. Exemple de traitement en JavaScript

Voici un extrait de code (simplifié pour la clarté) qui illustre comment traiter l’événement reçu et préparer la requête vers Modjo :

let cdr_id = msg.payload.id;
let recording_id = msg.payload.recordings.uuid;
let tenant_uuid = msg.payload.tenant_uuid;
let duration = msg.payload.duration;
let call_direction = msg.payload.call_direction;

let user_extension = msg.payload.destination_internal_extension || msg.payload.source_internal_extension;
let contact = msg.payload.destination_internal_extension ? msg.payload.source_extension : msg.payload.destination_extension;

let recordingUrl = `https://ma-stack-wazo/api/call-logd/1.0/cdr/${cdr_id}/recordings/${recording_id}/media?tenant=${tenant_uuid}&token=${token_ucstack.token}`;

msg.url = "https://api.modjo.ai/v1/calls";
msg.method = "POST";
msg.headers = {
  "content-type": "application/json",
  "X-API-KEY": "VOTRE_CLÉ_API_MODJO"
};
msg.payload = {
  contacts: [contact],
  users: [users[user_extension]],
  date: msg.payload.answer,
  provider: "manual",
  name: `${names[user_extension]} and ${contact}`,
  fileExtension: "wav",
  direction: call_direction,
  duration: duration,
  recordingUrl: recordingUrl
};

Ce code :

  • récupère les informations de l’événement Wazo,
  • construit l’URL du fichier audio,
  • prépare l’appel à l’API Modjo avec toutes les métadonnées nécessaires.

3. Upload et transcription

L’appel POST à l’API Modjo déclenche l’analyse du fichier audio. Modjo se charge de télécharger le fichier depuis l’URL fournie, puis retourne la transcription une fois le traitement terminé.

4. Exploitation de la transcription

La transcription obtenue peut ensuite être stockée, analysée ou intégrée à vos outils métiers (CRM, support, etc.).

Bonnes pratiques

  • Vérifier la durée de l’appel : pour éviter d’envoyer des enregistrements trop courts, un filtre sur la durée (par exemple, >2 minutes) est recommandé.
  • Sécuriser les échanges : utilisez des tokens d’API et des connexions HTTPS pour protéger les données sensibles.
  • Gérer les erreurs : prévoyez des logs et des mécanismes de retry en cas d’échec d’upload ou de traitement.

Conclusion

L’automatisation de la retranscription des appels, rendue possible par l’intégration des APIs Wazo et Modjo, permet de transformer la voix en données exploitables, tout en simplifiant les workflows métiers. Ce cas d’usage illustre comment l’IA et l’ouverture des plateformes télécoms accélèrent la transformation digitale des entreprises.

Des questions sur l’intégration, la gestion des événements, ou l’exploitation des transcriptions ? N’hésitez pas à me les poser en commentaire ou à proposer d’autres cas d’usage à explorer !