J'enseigne la visualisation de données avec un sac de cailloux : voici pourquoi l'intégration spécifique au domaine est cruciale
Enseigner la visualisation de données avec des objets tangibles comme des roches peut sembler insolite, mais cela illustre parfaitement l'importance d'intégrer des connaissances spécifiques au domaine dans les workflows de science des données. Jeudi dernier, mon co-instructeur et moi avons apporté un sac de cailloux à notre cours de visualisation de données à l'Université de Washington. Cette activité inhabituelle a servi de base à une réflexion profonde sur les compétences nécessaires aux futurs scientifiques des données.
Notre sac contenait une collection diversifiée de roches, ramassées lors de randonnées dans différentes régions de Californie. Bien que nos étudiants soient habitués à nos activités pratiques, celle-ci a particulièrement suscité leur curiosité. L'exercice avait trois objectifs principaux : identifier les roches sans aide technologique, affiner cette identification avec des ressources en ligne, puis créer une visualisation comparative de leurs caractéristiques.
L'activité a débuté par la formation de groupes, chacun devant sélectionner deux roches. La première étape consistait à les identifier simplement par observation, ce qui a permis aux étudiants de distinguer les trois grands types de roches : ignées, sédimentaires et métamorphiques. Ensuite, avec l'aide d'internet, ils ont pu préciser leurs identifications, reconnaissant des spécimens comme la scorie, l'ardoise ou le jaspe rouge.
La partie la plus enrichissante fut la création de visualisations. Certains groupes ont opté pour des tableaux comparatifs, déclenchant une discussion sur l'utilité de ce format pour des données limitées ou nécessitant une précision absolue. D'autres ont exploré des représentations plus créatives, permettant d'aborder l'utilisation efficace des couleurs et des surfaces comme encodages visuels.
Le moment clé survint lorsque j'ai demandé pourquoi utiliser des roches plutôt que des jeux de données classiques. Après un silence perplexe, un étudiant a saisi l'essence : se familiariser avec des domaines inconnus. C'est exactement cela. En science des données, on est rarement expert du domaine étudié, mais on doit pourtant pouvoir travailler efficacement avec ses données spécifiques.
Cette réalité est fondamentale. Dans un article précédent, j'avais identifié trois piliers de la science des données : statistiques, informatique et domaine d'application. Sans ce dernier, les deux premiers n'ont pas de raison d'être. Nos étudiants, majoritairement orientés vers l'ingénierie des données ou la recherche UX/UI, ont ainsi expérimenté la nécessité de s'adapter rapidement à un nouveau domaine.
Pour tout aspirant scientifique des données, cette leçon est cruciale : il faut constamment se confronter à de nouvelles données provenant de domaines variés. Chaque discipline génère des données, et chaque ensemble de données représente une opportunité d'appliquer ses compétences analytiques. La prochaine fois qu'on vous fera appel pour extraire des insights, ce pourrait bien être dans un domaine que vous ne maîtrisez pas encore - et c'est là que réside tout l'intérêt du métier.