Remerciez-le!

Remerciez @Admin pour avoir partagé cet document gratuitement, de la manière la plus simple, en partageant sur les réseaux sociaux.

1 PRE PRINT Aguert, M. (2022). De l’usage des tests : Aspects métrologiques, st

1 PRE PRINT Aguert, M. (2022). De l’usage des tests : Aspects métrologiques, statistiques et interprétatifs. In C. Sainson, C. Bolloré, & J. Trauchessec (Éds.), Neurologie et orthophonie (Vol 1. pp. 492‑502). De Boeck. De l’usage des tests : aspects métrologiques, statistiques et interprétatifs Marc Aguert 1. Introduction à l’utilisation des tests 1.1. Pourquoi utiliser des tests ? Une personne entre dans votre bureau avec une histoire, une plainte, éventuellement un diagnostic. Pour intervenir et aider cette personne, il vous faut recueillir rapidement une information fiable, aussi objective que possible, sur le fonctionnement de cette personne, à la fois les aspects quantitatifs (le « rendement ») et les aspects qualitatifs (les stratégies). C’est à ce moment et dans cet objectif que les praticiens, orthophonistes ou psychologues, ont fréquemment recours à des tests. Les tâches impliquées par le test, à défaut d’être toujours très écologiques, obligent le patient à mobiliser des compétences, des habilités auxquelles vous n’auriez pas eu accès autrement. Au fond, recourir à un test psychométrique ou orthophonique revient à échantillonner des comportements de la personne. Les comportements ainsi échantillonnés ont deux caractéristiques importantes qui justifient l’utilisation du test. D’une part, ils sont des comportements révélateurs d’aspects-clés du fonctionnement du sujet, des comportements qui permettent d’identifier des dysfonctionnements, produire des hypothèses sur les processus, tirer des conclusions et établir des pistes de travail. Le fait que les tâches impliquées par le test mobilisent bien les processus cognitifs d’intérêt est en principe soutenu par des arguments théoriques et empiriques ; cela renvoie à la question de la validité du test sur laquelle nous reviendrons en détail dans la section suivante. D’autre part, ils sont des comportements pour lesquels le praticien a une idée précise de ce qui est attendu pour les personnes dont le fonctionnement est « normal », c’est-à-dire ici le fonctionnement qui n’appelle pas une prise en charge ou un accompagnement. Cette information, chiffrée, sur les performances attendues de la part des personnes « normales » est collectée et mise à disposition par les concepteurs du test. On dit alors du test qu’il est normé (ou étalonné) car on peut se référer aux normes, i.e. aux performances observées chez les 2 personnes « normales », pour situer la performance de la personne que l’on reçoit et tenter d’objectiver la plainte émise. Le test permet donc non seulement de recueillir la performance du patient pour des comportements clés (par ex. : inhiber une information, lire des pseudo-mots, abstraire une règle, etc.), mais également de comparer cette performance à la performance « normale », celle qui précisément ne nécessite pas de prise en soin. En ce sens, la plupart des tests psychométriques peuvent être qualifiés de « comparatifs ». Ce recours à un échantillon-étalon est essentiel et distingue les tests psychométriques des tests scolaires ou des tests que l’on trouve dans les magazines. La performance de la personne testée n’est pas jugée à l’aune de standards absolus ou personnels (par ex. : les attendus du correcteur) mais en fonction de la manière dont la personne se situe par rapport à sa population de référence. Avoir 6/20 à un test n’est pas une mauvaise note en soi, en particulier si la grande majorité des personnes de notre âge et de notre niveau socio-culturel a une note encore plus basse ! Ainsi, l’idée de la comparaison de la performance du patient à la population de référence qui a servi à établir les normes est au cœur de l’utilisation des tests. A ce titre, deux remarques peuvent être formulées. D’abord, un test sans norme ou dont les normes ne sont pas adaptées à la personne testée perd en grande partie sa légitimité de test. Si la personne testée est d’un âge non couvert par les normes, si celles-ci sont trop datées, si elles ont été conçues auprès de personnes d’une autre culture que le patient, si elles ont été élaborées sur la base d’un échantillon trop petit ou peu représentatif, etc., la comparaison du patient à sa population de référence, et à sa suite, la conclusion du praticien, sera hasardeuse voire trompeuse. Bien sûr, il est toujours possible d’utiliser un test dans le seul but de comparer le patient à lui-même au fil du temps et ainsi objectiver, par exemple, des progrès. Mais cet objectif peut en réalité être atteint avec n’importe quelle tâche. Ensuite, même avec un test correctement normé, la comparaison pourrait s’avérer faillible si le praticien n’est pas attentif à la question de la standardisation. En effet, la performance du patient n’est comparable à celle de sa population de référence que si la tâche a été réalisée rigoureusement dans les mêmes conditions. Si le patient n’a pas bénéficié des mêmes consignes, du même étayage, d’un environnement de travail équivalent, la comparaison pourrait, là encore, être trompeuse. Le manque de standardisation va produire de l’erreur de mesure et réduire la fidélité du test, notion que nous développons maintenant. 1.2. Les trois qualités d’un bon test Un test, comme le qualificatif « psychométrique » l’indique, est un outil de mesure et doit avoir à ce titre des qualités métrologiques (i.e. être un bon outil de mesure). Trois qualités sont très classiquement requises : la sensibilité, la fidélité et la validité. La sensibilité. Imaginez que vous vous pesiez et que votre balance ne vous renvoie qu’une information binaire sur votre masse du type « gros vs. maigre ». Vous pourriez considérer que votre balance n’est pas très sensible ! De même, une balance électronique qui vous indique votre masse au gramme près est plus sensible qu’une balance à aiguille. De la même manière, un test est sensible s’il est capable de différencier des sujets dont les performances sont proches. Pour cela, il faut que le nombre de valeurs que peut prendre le résultat du test soit suffisamment important (un test classant les enfants en deux catégories « stupides » vs. « intelligents » serait aussi peu sensible que votre balance binaire) et que la difficulté de la tâche croisse très progressivement. Si tous les sujets testés, quelle que soit leur compétence propre, réussissent les 5 premiers items et échouent aux 5 derniers, le test n’est pas sensible. Il n’est pas discriminant et échoue à atteindre l’objectif recherché : situer la personne par rapport à sa 3 population de référence. Le choix des items constituant un test est un exercice notoirement délicat à cause de l’exigence de sensibilité. La fidélité. Imaginez que vous vous pesiez le lundi matin, que votre balance vous indique 55 kg et que le mercredi matin de la même semaine, votre balance vous indique 82 Kg. Dans cette situation, vous auriez deux possibilités : soit acter que vous avez pris 27 Kg en 2 jours ; soit remettre en doute la fiabilité de votre outil de mesure, c’est-à-dire considérer que la mesure qu’il produit n’est pas suffisamment fidèle. Si tester une personne, c’est échantillonner ses comportements, il est important que tous les échantillons réalisés donnent la même image de la personne, que ce soit le lundi matin ou le mercredi matin ! Malheureusement, de nombreux facteurs, liés à la personne testée (stress, fatigue, disposition émotionnelle, etc.), à la situation de test (attitude du testeur, présence d’une tierce personne, bruit, température, etc.) ou à l’instrument de mesure lui-même (ambiguïté dans la formulation des consignes, des questions, dans la manière d’évaluer les réponses, etc.) vont générer de l’erreur de mesure et donc réduire la fidélité du test. En somme, la performance observée avec le test n’est que la réalisation circonstanciée de la performance « vraie », i.e. de la compétence du sujet. La performance observée est la performance vraie brouillée, biaisée par de l’erreur de mesure. Là encore, on comprend qu’un test trop peu fidèle nous empêche d’atteindre l’objectif fixé, à savoir situer la performance (vraie) du sujet par rapport à sa population de référence. La fidélité d’un test se quantifie assez simplement en calculant la corrélation (la plus ou moins grande concordance) entre deux passations du test par la même personne. Il peut s’agir tantôt de la corrélation entre deux versions dites « parallèles » du test (deux versions en principe interchangeables) réalisées au même moment par la personne et alors on teste plutôt l’impact de l’erreur de mesure induite par les items sur la fidélité. Ou il peut s’agir tantôt de la corrélation entre deux passations du même test par la même personne à quelques semaines ou mois d’intervalle et on teste alors plutôt l’impact de l’erreur de mesure induite par les conditions de passation sur la fidélité. Dans les deux cas, on obtient un coefficient de fidélité noté r et qui s’interprète comme un coefficient de corrélation : plus le coefficient est proche de 1, plus la fidélité est bonne, plus le coefficient est proche de 0, moins la fidélité est bonne. Un coefficient de fidélité inférieur à 0,80 doit conduire le praticien à interpréter avec prudence les mesures effectuées avec le test. La validité. Cette fois, imaginez simplement que vous vous pesiez avec tous vos vêtements trempés. Vous uploads/Management/ aguert-2022-de-l-x27-usage-des-tests-preprint.pdf