DOSSIER SPÉCIAL

Boris, l'ethnographie augmentée.

Boris, l'ethnographie augmentée.

Gaëtan Namouric
La plupart des firmes de stratégie disent qu'elles écoutent. Perrier Jablonski l'a toujours fait, pour de vrai, au sens propre. Des milliers d'entrevues, des milliers d'heures d'écoute attentive, des dizaines de milliers de notes… Mais écouter, ça prend du temps. Et certaines choses — on le découvrira — sont physiquement impossibles à entendre seul. Boris a été inventé pour ça. Et c'est une véritable révolution. Et c'est Perrier Jablonski qui l'a construit.
April 16, 2026
April 17, 2026
—  0  min. de lecture
Taille
Ratio
Poids
Format
Taille
Ratio
Poids
Format

Il était une fois l’ethnographie, chez Perrier Jablonski

C’est en 2016 que Perrier Jablonski a embauché sa première ethnographe. Sabrina Tremblay, d’abord venue observer « L’émergence d’une nouvelle organisation créative » chez nous (le nom de son mémoire de maîtrise) pour HEC. Mais Sabrina avait été envoyée chez nous par Jean-Sébastien Marcoux, le plus grand anthropologue de la consommation au Québec. Il allait devenir (sans le savoir), le parrain influent et bienveillant de notre jeune firme.

Une expérience si bouleversante pour nous qu’elle allait changer le cours de notre jeune histoire, et réorganiser le travail en équipes-trios : ethnographe, stratège, chargée de projets. C’est encore le modèle que nous utilisons aujourd’hui.

Pour chaque projet, on sélectionnait un groupe de participants, on menait des entrevues d’une heure, puis on transcrivait à la main. Pour une heure d’entrevue, il fallait compter une heure et demie de transcription. Donc… 2h30 par entrevue. C’était cher et laborieux, mais la qualité des observations que nous faisions comblait largement l’investissement.

Il fallait cependant avouer qu’au fil des projets qui grandissaient, ce temps de traitement devenait colossal. À l’époque, nous avions cherché des outils commerciaux de transcription. Les plus fiables — les mêmes utilisés par les tribunaux — coûtaient des milliers de dollars par licence. Hors de portée pour notre usage. Puis est arrivé… Whisper.

Whisper a tout changé…

En septembre 2022, OpenAI publie Whisper — un modèle de transcription automatique entraîné sur 680 000 heures d’audio multilingue. Open source, sous licence MIT : gratuit, modifiable, installable localement sur n’importe quel ordinateur. Quiconque voulait transcrire un fichier audio sans l’envoyer dans le cloud, pouvait le faire gratuitement.

Pour Perrier Jablonski, ç’a été un basculement. Les heures passées à transcrire mécaniquement ont pu être réparties dans ce qui compte vraiment : plus d’entrevues, plus d’analyse, plus de livrables. L’ethnographie que nous pratiquions de façon presque artisanale s'est largement professionalisée… Et nos projets se sont multipliés. Le plus beau? Cette automatisation a permis à Perrier Jablonski de démocratiser l’anthropologie. Elle est devenue accessible à des organisations qui n’en n’auraient jamais eu les moyens auparavant. Les PME, les OBNL, les équipes à petit budget pouvaient enfin s’offrir du vrai terrain, de vraies observations, de vrais insights.

Une vraie révolution, je vous dis ! Mais...

Mais Whisper ne suffisait pas

Pendant plus de trois ans, nous avons utilisé le modèle Whisper via l’application MacWhisper. Un bon outil. Fiable, local, économique, rapide. Mais au fil des projets, ses limites sont devenues évidentes pour notre usage.

D’abord, la précision dans le temps. MacWhisper place les mots dans des blocs de quelques secondes. Pour lire une transcription, c’est suffisant. Pour analyser une entrevue précisément, il faut savoir où chaque mot commence et finit… à la milliseconde.

Ensuite, il ne sait pas qui parle. Deux voix pendant 45 minutes produisent un seul bloc de texte. La diarisation — séparer les voix — est arrivée en bêta fin 2025, tard et encore imparfaite. Dans une entrevue qualitative, savoir qui dit quoi est la condition minimale.

Enfin, les voix séparées restent étiquetées « Speaker 1 / Speaker 2 ». Des numéros anonymes. Pour une firme qui conduit des centaines d’entrevues par année, avec les mêmes ethnographes, renommer à la main chaque fichier est un travail que la machine devrait faire seule.

Ça, c’est sans parler des bugs importants qui nous forçaient à repasser à travers chaque entrevue méticuleusement. Nous avions besoin d’un meilleur outil, alors nous l’avons construit.

Boris commence là où les autres s’arrêtent

La première version de Boris était donc un outil de transcription. Nous sommes partis d’un modèle plus récent que Whisper, WhisperX, développé par l’équipe Visual Geometry Group d’Oxford (Bain et al., 2023), dont nous avons utilisé les nouvelles fonctionnalités à fond, avant de lui adjoindre des fonctionnalités-maison.

D’abord, la diarisation : séparer les voix avant même de transcrire. Un modèle analyse le signal pour repérer qui parle quand, en comparant les empreintes acoustiques au fil de l’enregistrement — sans comprendre les mots. Résultat : un bloc de texte par personne, au lieu d’un monologue mélangé.

Ensuite, l’alignement forcé. Whisper transcrit par phrases de quelques secondes ; Boris ajoute une deuxième passe qui recale chaque mot à la milliseconde exacte d’apparition dans l’audio. On peut alors retrouver, dans le signal brut, le moment précis où un mot a été prononcé — et tout ce qui l’entoure : intonation, pause, hésitation.

Enfin, l’identification nominative. Les voix des ethnographes de Perrier Jablonski sont stockées une fois dans l’application. À chaque nouvelle entrevue, Boris reconnaît leur empreinte et les étiquette par leur nom réel — puis filtre leurs interventions, parce que ce qui nous intéresse, c’est les propos du participant, pas ceux de l’intervieweur.

Et toutes ces opérations sont effectuées en local, sur nos Mac, sans jamais se promener sur le réseau — pour une confidentialité absolue. Si on devait le commercialiser, Boris battrait déjà tous les outils du commerce : 

Boris
Moteur de transcriptionWhisperX, alignement forcé au motModèle propriétaire cloud
Français québécois✅ Excellent⚠️ Correct (optimisé anglais)
Traitement✅ 100 % local☁️ Cloud
Confidentialité✅ Rien ne quitte la machine❌ Audio envoyé à des serveurs tiers
Timestamps✅ Au mot, à la milliseconde❌ Au segment
Séparation des voix✅ Automatique✅ Automatique
Identification nominative✅ Par nom réel, via empreinte vocale⚠️ Apprentissage progressif
Traitement par lot✅ Natif

Nous n’allions pas nous arrêter en si bon chemin. En développant la transcription de Boris, nous avons réalisé qu’on pouvait synchroniser chaque mot avec le signal audio brut. Cela ouvrait deux portes : analyser ce que les gens disent avec une précision inédite, et analyser comment ils le disent — c’est-à-dire leur voix elle-même.

Nous avions construit le meilleur moteur de transcription disponible sur le marché… Mais venions d’ouvrir la voie à un tout nouveau type d’analyse…

Le meilleur outil de transcription disponible sur le marché, rien qu’à nous.
Boris, Perrier Jablonski  

Analyse sémantique. Ce que les mots disent, et ce qu’ils cachent.

Quand on termine 20 entrevues sur le même sujet, on a besoin d’un outil visuel pour illustrer ce que les participants nous ont dit. Un outil que vous connaissez bien : le nuage de mots. Les mots les plus fréquents apparaissent en gros, les plus rares en petit. En un regard, on voit le territoire lexical du groupe. Mais pour qu’un nuage de mots soit lisible — et utile — il faut toujours faire un peu de ménage.

Le nuage de mots, réinventé

Le premier geste, c’est d’écarter les mots qui n’apportent rien : « de », « que », « est », « avoir », « chose ». Les linguistes les appellent des stopwords — des mots vides. Ils sont partout, ils noient tout. Les retirer, c’est déjà voir plus clair.

Le deuxième geste, c’est la lemmatisation : ramener chaque mot à sa racine. « Méritaient », « méritera », « méritent », « mériterait » deviennent tous « mériter ». Sans ça, chaque variante compte pour un mot distinct et le signal s’éparpille. Après ce nettoyage, une entrevue de 45 minutes qui contenait 3 800 mots bruts en contient environ 1 700 analysables. Sur un projet de 20 entrevues, on passe de 76 000 à 34 000.

Le nuage de mots obtenu est un portrait lexical du groupe : ce qui habite leurs pensées, ce qui revient dans leurs bouches, ce qui tient le terrain mental.

Mais un nuage seul ne dit pas tout. Les mots qui reviennent le plus souvent sont souvent les plus attendus — « mission », « culture », « équipe » dans un mandat organisationnel. Pour aller plus loin, il fallait chercher ailleurs : d’abord identifier le champ lexical vraiment spécifique à chaque participant, et ensuite… les mots qu’on aurait attendus mais qu’on n’a pas entendus…

  • Identifier le spécifique. Boris repère les mots atypiques, ceux qui reviennent souvent chez une personne, mais rarement chez les autres. Un mot que tout le monde utilise disparaît du radar. Ce qui apparaît, c’est ce qui distingue quelqu’un. Pour les spécialistes, cette analyse se fait via TF-IDF, la méthode statistique standard en analyse textuelle depuis les années 1970. La comparaison se fait sur deux niveaux. À l’intérieur du projet d’abord : qu’est-ce que Marie dit que les 19 autres participants ne disent pas ? Puis à l’échelle globale : qu’est-ce que ce projet contient, que les entrevues accumulées de tous les anciens mandats Perrier Jablonski ne contiennent pas ? Plus Boris tourne, plus cette seconde comparaison s’affine.
  • Identifier le manquant. L’analyse ne s’arrête pas à ce que les gens disent. Elle repère aussi ce qu’ils ne disent pas. En croisant le brief du mandat avec les verbatims, Boris identifie les mots absents — ceux qui auraient dû apparaître selon le sujet commandé, et qui manquent à l’appel. Si un client demande une étude sur la mobilisation et que le mot n’apparaît dans aucune des 15 entrevues, c’est un signal stratégique majeur. L’absence d’un mot attendu est souvent plus révélatrice que la présence d’un mot inattendu.

Analyser les mots à ce niveau de précision est totalement inédit. Pour un client, c’est comme passer du 720P au 8K d’un seul coup. Cerise sur le sundae, à ce stade de l’analyse, aucune donnée n’a  quitté nos machines, tout se fait 100 % en local, tout 100 % confidentiel.

Une analyse sémantique unique au monde.
Boris, Perrier Jablonski  

Lire entre les lignes

Pendant une entrevue, la voix d’un participant transporte bien plus que des mots. Elle accélère quand un sujet devient sensible. Elle baisse d’un ton quand la confiance s’installe. Elle tremble imperceptiblement quand une émotion remonte. Admettons que ces signaux soient identifiables, peut-on réellement les interpréter?

L’étude de ces signaux s’appelle la prosodie. Jusqu’ici, elle appartenait à d’autres mondes : les phonéticiens qui décrivent les langues, les cliniciens qui diagnostiquent la dépression par le timbre de la voix, les ingénieurs qui entraînent des assistants vocaux. En 2023, Van Rijn et Larrouy-Maestri ont publié dans Nature Human Behaviour une analyse portant sur plus de 3 000 minutes d’enregistrements issus de corpus mondiaux. Leur conclusion : sept facteurs acoustiques — qualité vocale, intensité, hauteur, rythme, fluctuations rapides et aléatoires (shimmer), variation du pitch et spectre fréquentiel — expliquent à eux seuls 57 % de la variance émotionnelle dans la voix humaine. Sept facteurs mesurables? Parfait! C’était notre nouveau brief!

C’est la deuxième révolution proposée par Boris. L’application échantillonne chacun de ces signaux toutes les 500 millisecondes, en continu, sur toute la durée de l’entrevue. Le résultat : 7 signaux mesurés toutes les 0.5 secondes, pendant 45 minutes — plus de 37 800 points de données signaux potentiels par entrevue. Une véritable mine d’informations !

Chaque mesure est comparée à la ligne de base propre au locuteur — ses propres moyennes de débit, d’intensité, de hauteur. Boris ne confond pas quelqu’un qui parle naturellement fort avec quelqu’un qui s’emballe en parlant fort tout à coup. Un signal n’est pertinent que s’il est inhabituel pour cette personne en particulier.

Plus loin encore ? Les événements sonores !

Un raclement de gorge avant de répondre à une question sur la direction ? Un chuchotement au moment où le participant mentionne un collègue ? Un soupir presque inaudible quand l’ethnographe aborde le sujet de la gouvernance ? Ces événements, qui ne sont ni des mots, ni de la prosodie… Mais sont aussi des données précieuses pour un ethnographe.

Alors nous avons implémenté la détection de 18 types d’événements paralinguistiques : plusieurs niveaux de rire, les soupirs, les sanglots, les applaudissements, les exclamations, les chuchotements — c’est un système semblable à celui d’Apple, qui détecte les sons environnants pour les personnes malentendantes (réglages > accessibilité). Nous avons simplement utilisé le modèle de Google YAMNet, entraîné sur plus de 2 millions de clips audio. Il contient 521 classes sonores, mais nous n’avons choisi que les 18 qui étaient pertinentes pour Boris.

Chaque événement est horodaté, scoré, filtré et intégré à l’analyse comme signal à part entière.

Cette analyse ultra fine se fait au même rythme que l’analyse prosodique, toutes les 500 millisecondes.

La prosodie réinterprétée par Perrier Jablonski.
3 Millions de signaux sonores analysés, par projet.
Boris, Perrier Jablonski  

Près de 3 000 000 de signaux sonores analysés, par projet.

La mémoire de travail humaine traite entre 5 et 9 éléments à la fois — psychologie cognitive (Miller, 1956). Un ethnographe qui conduit une entrevue, doit maintenir le lien avec le participant, formuler des hypothèses, réorienter ses questions ou son enquête, prendre des notes… il a déjà beaucoup de travail et il ne peut pas traiter 139 000 signaux. Maintenant… il peut.

En d’autres termes, Boris analyse 25 types d’événements (7 signaux prosodiques et 18 sons) deux fois par seconde. Ces 139 000 points de données par entrevue représentent près de 2 800 000 mesures traitées, comparées entre elles, et interprétées pour un projet de 20 entrevues chez Perrier Jablonski.

Souvenons-nous que dans le passé (hum… il y a 3 ans), un ethnographe avait besoin de 1h30 pour transcrire 1h d’entrevue. Non seulement, ce temps est désormais réduit à néant, mais en plus, il offre une précision d’analyse totalement inédite dans notre milieu.

Les observations synthétiques. Quand les analyses se croisent.

Chez Perrier Jablonski, nous avons toujours séparé les observations ethnographiques et les observations éditoriales, faites par le stratège. L’un écoute et analyse. L’autre propose des pistes réflexions, identifie des tensions à dénouer, formule… L’un est un radiologue qui scanne, l’autre est un médecin de famille qui interprète.

Mais avec Boris, nous avons inventé une troisième voie. Un nouveau genre d’observations que nous avons appelées synthétiques, qui consiste en une analyse croisée des couches sémantiques, prosodiques et sonores.

Ces croisements permettent des observations impossibles jusque-là, qui s’ajoutent aux précédentes :

L’arc émotionnel. Boris agrège les signaux prosodiques et les événements sonores par fenêtres de deux minutes, et trace la courbe d’intensité de la conversation. L’ethnographe voit d’un coup d’œil où l’entrevue a basculé. En superposant les 20 courbes d’un projet, on voit si un même moment du guide fait réagir tout le monde.

Les contradictions internes. Boris repère les moments où un participant dit une chose en début d’entrevue et son contraire en fin. Il met les deux énoncés côte à côte, avec leur signature prosodique, et on identifie quel énoncé porte la charge émotionnelle la plus forte (travaux de Festinger sur la dissonance cognitive, 1957).

Le non-répondu. Boris croise le guide d’entrevue avec les verbatims pour repérer les questions esquivées, contournées, ou restées sans réponse. Une matrice montre, d’un coup d’œil, quelles questions ont été évitées par quels participants. La prosodie autour du moment d’esquive — silence, raclement de gorge, accélération du débit — enrichit le diagnostic.

Les verbatims marquants. Boris sélectionne les 15 à 20 citations les plus puissantes du corpus en combinant trois critères : la richesse sémantique du segment, l’intensité prosodique par rapport à la baseline du participant, et la présence d’un événement sonore. Les citations sortent prêtes pour une présentation client, avec leur contexte et leur score.

Le miroir linguistique. Boris mesure si un participant commence à utiliser les mots de l’ethnographe au fil de l’entrevue — un indicateur classique d’accommodation linguistique (Niederhoffer et Pennebaker, 2002). Il trace la convergence lexicale dans le temps et signale les entrevues où le participant semble s’aligner sur le langage de l’intervieweur plutôt que de parler avec ses propres mots. C’est un outil d’auto-critique : l’ethnographe voit son propre effet sur le participant et peut disqualifier une entrevue (mais ce n’est jamais arrivé encore).

Si Boris mesure tout, il ne signale pas tout. Cela représenterait un volume d’information délirant, contreproductif pour l’équipe. Alors il filtre. Seuls les signaux qui dépassent un seuil de significativité — une variation suffisamment inhabituelle pour ne pas être attribuable au hasard — sont retenus et présentés à l’ethnographe.

Une observation synthétique est une observation que seule la machine peut détecter, mais que seul un humain peut interpréter. C’est le mariage parfait humain-machine.

La technologie mesure. Le modèle interprète. L’ethnographe décide.
Boris, Perrier Jablonski

Les matrices comportementales.

Boris croise les données prosodiques, sémantiques et paralinguistiques de chaque participant pour le positionner sur une matrice comportementale. Les axes de cette matrice naissent d’une conversation entre l’ethnographe et la machine.

Parfois, c’est l’ethnographe qui initie. Après avoir conduit les entrevues, après avoir senti le terrain, il formule une hypothèse : « Je crois que ce groupe se divise entre ceux qui résistent par loyauté et ceux qui résistent par épuisement. » Boris va chercher dans ses données les marqueurs qui correspondent, et positionne chaque participant.

Parfois, c’est Boris qui propose. À partir de l’ensemble des données qu’il a analysées — prosodie, sémantique, événements sonores — il formule une hypothèse sur les deux variables fondamentales qui structurent le groupe. L’ethnographe examine, ajuste, affine.

Dans les deux cas, le profil émerge de cette conversation — ni purement intuitif, ni purement algorithmique. L’ethnographe ressent. La machine détecte.

Des matrices comportementales générées automatiquement par Boris.

Un modèle qui pense comme nous

Pour la couche d’analyse en langage naturel, nous avons choisi Claude, d’Anthropic (après de nombreux tests). Mais un modèle de langage, aussi performant soit-il, reste généraliste. Livré à lui-même, il identifie admirablement, il organise parfaitement, il synthétise merveilleusement, il rédige efficacement… mais il ne pense ni comme un ethnographe, ni comme un stratège…

C’est pourquoi nous avons entraîné Boris sur notre propre corpus de connaissances. Plus de 200 articles et des centaines de références bibliographiques que Perrier Jablonski a accumulés au fil des dix dernières années sur les sujets qui préoccupent nos clients. Le modèle a appris comment nous formulions une observation, comment nous structurions une tension, comment nous nommions un paradoxe.

J’ai déjà insisté sur l’importance des corpus de connaissances des organisations. J’en parle dans mon deuxième bouquin (Les défis) publié en 2024, mais aussi dans l’article « Corpus, cursus, campus, caucus. Apprendre, fois quatre. »… Maintenant, vous comprenez pourquoi un corpus bien organisé a une valeur inestimable quand on se lance dans un projet technologique…

Boris, l’IRM de Perrier Jablonski

Pour poursuivre métaphore de la radiologie, Boris est un peu comme un IRM. Une machine d’une précision redoutable, capable de voir ce que l’œil nu ne voit pas. Mais un IRM ne pose pas de diagnostic. Il faut un radiologue pour lire les images, un médecin pour interpréter les résultats, et un patient qui a été orienté par les bonnes questions cliniques. Sans ça, l’IRM produit des images, mais pas des réponses.

C’est la même chose avec Boris. Si vous menez une entrevue sans méthode, que vous ne savez pas formuler une question ouverte, si vous orientez les réponses ou que vous ne savez pas créer un climat de confiance — Boris va quand même nous sortir une analyse. Il va produire des chiffres, des courbes, des observations. Mais elles ne vaudront rien.

C’est pourquoi nous avons décidé de ne pas commercialiser Boris, et de le garder pour nous… pour l’instant.

La confidentialité, du début à la fin

Il restait un dernier détail — et non des moindres — à régler. On l’a vu plus haut, la plupart des logiciels de transcription envoient vos fichiers audio sur des serveurs distants — c’est-à-dire sur internet, sur des ordinateurs qui appartiennent à d’autres entreprises, souvent aux États-Unis. Pour nous, impossible d’accepter une telle entorse à l’éthique et à la confidentialité qui nous chérissons tant chez Perrier Jablonski. Il fallait régler ça.

Avec Boris tout le traitement se fait directement sur notre ordinateur, dans nos bureaux… à une limite près : l’envoi des données à Claude. Nous avions besoin de contourner cet obstacle, alors nous avons inventé une méthode que nous avons appelé l’anonymisation de bout en bout.

Avant chaque envoi — sans exception — tous les noms de personnes, d’entreprises, de lieux, les montants et les coordonnées sont automatiquement remplacés par des codes incompréhensibles. Ainsi, tout ce qui est envoyé sur le réseau est crypté. Le modèle reçoit « P-x7k2m9 travaille chez O-m4r7x2 depuis T-w8k3 ans » au lieu de « Marie travaille chez Bombardier depuis 12 ans ». Claude analyse donc les bonnes situations, mais sans savoir de qui il s’agit. Quand il nous renvoie ses conclusions, notre moteur remplace les codes par les bonnes entités, et le tour est joué!

Aucun autre outil d’analyse qualitative sur le marché ne propose ce niveau de protection.

Grâce à Boris, des organisations qui n’avaient pas les moyens de financer une ethnographie complète peuvent maintenant y accéder. Boris traite une entrevue en deux fois moins de temps qu’elle n’a duré, avec une précision d’analyse totalement inédite. Des signaux faibles — ceux qui se cachent dans les silences, dans les tremblements, dans les mots qu’on ne prononce pas — deviennent visibles, mesurables, actionnables. Et pour nos clients, ça veut dire des projets plus ambitieux, plus accessibles, et des résultats d’une profondeur qui n’existait tout simplement pas avant.

L'anonymisation, signée Perrier Jablonski

Ce que Boris change pour vous, concrètement.

On aurait pu se payer un trip techno, et faire de Boris notre joujou à nous — mais à chaque étape de sa conception nous nous sommes posé la question de l’utilité pour vous, pour nos clients.

  • Une profondeur d’analyse inédite. Notre ethnographe entend ce que les gens disent. Boris entend aussi comment ils le disent — les hésitations, les accélérations, les silences, les contradictions entre le début et la fin d’une entrevue. 139 000 points de données par entrevue, comparés à la ligne de base de chaque participant. Aucun humain ne peut faire ça seul. Aucun autre outil ne le fait.
  • Des insights que vous n’auriez pas eus autrement. Les observations synthétiques — le croisement des mots, de la voix et des sons — font émerger des signaux invisibles à l’oreille nue. Des contradictions inconscientes. Des questions esquivées. Des émotions qui contredisent le discours. Ce sont ces signaux-là qui changent une recommandation stratégique.
  • Des projets plus ambitieux. Avec Boris, un projet de 60, 80 ou 100 entrevues n’est plus un luxe réservé aux grandes études gouvernementales. C’est faisable. Et surtout, c’est là que la puissance de Boris s’exprime : plus le corpus est grand, plus les croisements se multiplient, plus les patterns deviennent nets, plus les signaux faibles sortent du bruit. Aucun outil commercial n’a jamais permis d’analyse aussi fines, à partir de corpus aussi grands.
  • Des projets plus rapides. Depuis 2023, nous avons accéléré l’ethnographie de manière significative, pour la rendre compatible avec des budgets d’étude au Québec. Boris accélère aussi les analyses subséquentes, sans trahir l’intuition de nos ethnographes et stratèges.
  • Des budgets plus accessibles. Le temps que nos équipes passaient à transcrire, découper, relire et coder manuellement est réinvesti dans ce qui compte : l’analyse, la stratégie, les recommandations. Résultat : une étude ethnographique minimale — une vingtaine d’entrevues, analyse croisée, rapport — devient accessible à des organisations qui ne pouvaient pas se le permettre avant.
  • Une confidentialité totale. Vos données ne quittent jamais nos bureaux. L’audio, la transcription, l’analyse — tout est local. La seule exception est cryptée de bout en bout : aucun nom, aucun lieu, aucun montant ne voyage sur le réseau. Vos participants peuvent parler librement. C’est la condition de la vérité.
Cet article est en cours d'écriture.
Si vous avez des choses intéressantes à nous raconter à ce sujet, n'hésitez surtout pas!
Écrivez à l'auteur-trice

Ce qu'il faut retenir

Boris est un outil d'analyse d'entrevues développé par Perrier Jablonski. Pour les gestionnaires, voici l'essentiel : Boris écoute vos entrevues et détecte ce qu'aucun humain ne peut entendre seul. Il identifie qui parle, transcrit chaque mot à la milliseconde, analyse la voix (hésitations, accélérations, silences), repère les sons révélateurs (soupirs, rires, raclements de gorge) et croise toutes ces données pour faire émerger des observations invisibles à l'oreille nue — des contradictions inconscientes, des questions esquivées, des émotions qui contredisent le discours. Sur un projet de 20 entrevues, Boris traite près de 3 millions de signaux. Le tout fonctionne sur les ordinateurs de Perrier Jablonski, sans jamais envoyer vos données sur internet — les rares envois sont cryptés et anonymisés en trois passes. Résultat pour vous : des projets plus rapides, plus ambitieux, plus accessibles, et des recommandations stratégiques fondées sur une profondeur d'analyse qui n'existait pas avant.

Gaëtan est le fondateur de Perrier Jablonski. Créatif et stratège, il est aussi enseignant à HEC, à l’École des Dirigeants et à l'École des Dirigeants des Premières Nations. Il est membre du C.A. de l’École Nationale de l’Humour. Il est certifié par le MIT (Design Thinking, I.A.), il étudie l'histoire des sciences, la philosophie, et les processus créatifs. Il est l’auteur de deux essais et plus de 200 articles sur tous ces sujets.
Bibliographie et références de l'article

ARTICLE SCIENTIFIQUE · van Rijn, P. et Larrouy-Maestri, P. (2023). Modelling Individual and Cross-Cultural Variation in the Mapping of Emotions to Speech Prosody. Nature Human Behaviour, 7, 386–396. Étude menée au Max Planck Institute for Empirical Aesthetics (Francfort). À partir de modèles bayésiens appliqués à plus de 3 000 minutes d'enregistrements multilingues, les auteurs identifient sept facteurs acoustiques — qualité vocale (12 %), intensité (11 %), hauteur et formants (10 %), rythme et tempo (10 %), shimmer (6 %), variation du pitch (4 %) et MFCC 3 (4 %) — qui expliquent 57 % de la variance émotionnelle dans la prosodie. C'est l'étude qui a inspiré les sept signaux prosodiques de Boris.

ARTICLE SCIENTIFIQUE · Miller, G. A. (1956). The Magical Number Seven, Plus or Minus Two: Some Limits on Our Capacity for Processing Information. Psychological Review, 63(2), 81–97. L'un des articles les plus cités de l'histoire de la psychologie. Miller démontre que la mémoire de travail humaine ne peut traiter simultanément qu'entre 5 et 9 éléments d'information — la raison pour laquelle un ethnographe ne peut pas, seul, traiter les 139 000 signaux que Boris génère par entrevue.

OUVRAGE · Festinger, L. (1957). A Theory of Cognitive Dissonance. Stanford University Press. Cadre théorique fondateur de la dissonance cognitive : la tension psychologique créée par des croyances ou des énoncés contradictoires. Boris l'applique en repérant les moments où un participant dit une chose en début d'entrevue et son contraire à la fin, puis en comparant la charge prosodique des deux énoncés.

ARTICLE SCIENTIFIQUE · Niederhoffer, K. G. et Pennebaker, J. W. (2002). Linguistic Style Matching in Social Interaction. Journal of Language and Social Psychology, 21(4), 337–360. Trois expériences — dont l'analyse des transcriptions du Watergate — démontrent que les interlocuteurs coordonnent inconsciemment leur usage des mots au fil d'une conversation. Les auteurs proposent une hypothèse de coordination-engagement plutôt que de rapport. Boris utilise cette mesure pour détecter la convergence lexicale : quand un participant adopte progressivement le vocabulaire de l'ethnographe, cela peut signaler une forme d'accommodation plutôt qu'une expression authentique.

ARTICLE SCIENTIFIQUE · Bain, M., Huh, J., Han, T. et Zisserman, A. (2023). WhisperX: Time-Accurate Speech Transcription of Long-Form Audio. Interspeech 2023. Développé par le Visual Geometry Group de l'Université d'Oxford, WhisperX ajoute à Whisper un alignement forcé au mot et une diarisation par empreinte vocale. C'est le moteur de transcription sur lequel Boris est construit.

MODÈLE · Gemmeke, J. F., Ellis, D. P. W., Freedman, D., Jansen, A., Lawrence, W., Moore, R. C., Plakal, M. et Ritter, M. (2017). Audio Set: An Ontology and Human-Labeled Dataset for Audio Events. IEEE ICASSP, 776–780. Le jeu de données de référence en classification audio : plus de 2 millions de clips de 10 secondes, 521 classes sonores, étiquetés par des humains. YAMNet (Yet Another Mobile Network), le modèle de Google entraîné sur AudioSet, est utilisé par Boris pour la détection des 18 classes d'événements paralinguistiques.

OUVRAGE · Brinkmann, S. et Kvale, S. (2015). InterViews: Learning the Craft of Qualitative Research Interviewing (3e éd.). Sage. L'ouvrage de référence mondiale en méthodologie d'entrevue qualitative. Brinkmann et Kvale y documentent les dynamiques de l'entrevue semi-structurée, les biais de l'intervieweur, et les stratégies d'évitement thématique — le cadre méthodologique dans lequel Boris opère.

NOTE DE CALCUL · Chiffres Boris (entrevue de 45 min). 7 signaux prosodiques + 18 classes d'événements sonores = 25 mesures échantillonnées toutes les 0,5 seconde sur 2 700 secondes = 5 400 fenêtres × 25 = 135 000 points par entrevue. Sur 20 entrevues : ≈ 2 700 000 mesures croisées et interprétées.

L'I.A. a pu contribuer à cet article. Voyez comment.
  • Nous utilisons parfois des outils de LLM (Large Language Models) tels que Chat GPT, Claude 3, ou encore Sonar, lors de nos recherches.
  • Nous pouvons utiliser les outils de LLM dans la structuration de certains exemples
  • Nous pouvons utiliser l'IA d'Antidote pour la correction ou la reformulation de certaines phrases.
  • ChatGPT est parfois utilisé pour évaluer la qualité d'un article (complexité, crédibilité des sources, structure, style, etc.)
  • Cette utilisation est toujours supervisée par l'auteur.
  • Cette utilisation est toujours éthique :
    • Elle est transparente (vous êtes prévenus en ce moment-même),
    • Elle est respectueuse des droits d'auteurs — nos modèles sont entraînés sur nos propres contenus, et tournent en local lorsque possible et/ou nécessaire.
Tableau de bord
Cet article est final.
spellcheck
Cet article est en relecture.
rule
Cet article a été remis à Gaëtan
badge
Cet article est encore dans les mains de l'équipe.
psychology
Cet article est un projet.
psychology
Cet article n'a pas de statut!
Ethnographie
sell
Aucun sujet sélectionné!
L'outil qui entend ce que personne d'autre ne peut entendre.
subject
Il n'y a pas de teaser!
hdr_auto
Il n'ya a pas d'introduction!
copyright
Pas de légende d'illustration
Légende :
Boris est l'outil d'analyse d'entrevues qualitatives développé en interne par Perrier Jablonski, firme-conseil montréalaise spécialisée en ethnographie appliquée. Construit à partir de WhisperX (Bain et al., 2023), Boris fonctionne intégralement en local sur Apple Silicon. Il transcrit au mot près à la milliseconde, identifie chaque locuteur par empreinte vocale, et filtre automatiquement la voix des ethnographes. Boris analyse ensuite le contenu sémantique (mots atypiques via TF-IDF, mots attendus mais absents) et le signal vocal : 7 paramètres prosodiques et 18 classes de sons paralinguistiques (via YAMNet de Google), échantillonnés deux fois par seconde. Sur une entrevue de 45 minutes, Boris génère environ 139 000 points de données, chacun comparé à la ligne de base propre au locuteur. Sur un projet de 20 entrevues, près de 3 millions de mesures sont croisées pour produire des observations synthétiques — une catégorie d'analyse inventée par Perrier Jablonski qui croise sémantique, prosodie et sons pour révéler des contradictions, des questions esquivées, des arcs émotionnels et des convergences lexicales invisibles à l'oreille humaine. Boris est entraîné sur le corpus de connaissances de Perrier Jablonski (200+ articles). Toutes les données envoyées au modèle de langage Claude d'Anthropic sont anonymisées de bout en bout en trois passes avant transmission. Boris n'est pas commercialisé : il nécessite des entrevues menées selon une méthodologie ethnographique rigoureuse pour produire des analyses fiables.
🎉
Encoooooore!
Parce qu'on vous aime, voici d'autres articles sur le même thème.
Article
Corrélations, causalités, coïncidences et coups du sort
X min.
Article
Plus fort que l'empathie : les empathies.
X min.
Article
Usagers extrêmes: oubliez la moyenne.
X min.
Article
C'est Adidas qui a sauvé LEGO en 2004.
X min.
Article
Les bases de l'ethnographie.
X min.
N'achetez pas un livre québécois, achetez-en deux.
Ce que nous apprenons, nous le transmettons.

Notre best-seller sur le pitch! Plus de 3 000 exemplaires vendus et plus de 200 pages de secrets, d'anecdotes et d'histoires pour vous aider à raconter la vôtre!

270 pages pour aider les gestionnaires à survivre dans un monde qui change.

UN PAS🏁DE RECUL,
UN COUP🏴‍☠️D'AVANCE.

Une newsletter incontournable pour les gestionnaires. Un samedi sur deux, une dose d’inspiration, de découvertes et d’outils pour  vous donner un peu de recul... et beaucoup d'avance.
Bien reçu!
Une erreur s'est produite.