Découvrez des millions d'e-books, de livres audio et bien plus encore avec un essai gratuit

Seulement $11.99/mois après la période d'essai. Annulez à tout moment.

Des mécanismes pour assurer la validité de l'interprétation de la mesure en éducation: Interdisciplinarité de la mesure et de l'évaluation - Volume 4
Des mécanismes pour assurer la validité de l'interprétation de la mesure en éducation: Interdisciplinarité de la mesure et de l'évaluation - Volume 4
Des mécanismes pour assurer la validité de l'interprétation de la mesure en éducation: Interdisciplinarité de la mesure et de l'évaluation - Volume 4
Livre électronique391 pages3 heures

Des mécanismes pour assurer la validité de l'interprétation de la mesure en éducation: Interdisciplinarité de la mesure et de l'évaluation - Volume 4

Évaluation : 0 sur 5 étoiles

()

Lire l'aperçu

À propos de ce livre électronique

Ce livre est le dernier d’une série de quatre ouvrages portant sur les mécanismes pour assurer la validité de l’interprétation de la mesure en éducation. Il est constitué de textes inédits de la part des auteurs ou de textes issus de colloques en mesure et évaluation en éducation qui ont eu lieu lors des 79e et 80e congrès annuel de l’Association francophone pour le savoir (ACFAS).

L’interdisciplinarité de la mesure et de l’évaluation est le thème du présent ouvrage : l’éducation, la criminologie et les sciences médicales sont plus spécifiquement considérées. Ce quatrième volume se divise en deux parties : la première s’intéresse aux considérations méthodologiques tandis que la seconde présente des applications en évaluation. Des mécanismes pour assurer la validité de l'interprétation de la mesure en éducation s’adresse donc à tout intervenant du milieu scolaire, soit aux professeurs-chercheurs, aux enseignants, aux conseillers pédagogiques et aux étudiants de cycles supérieurs.

Gilles Raîche est professeur au Département d’éducation et pédagogie de l’Université du Québec à Montréal. Il se spécialise dans le domaine de la mesure et de l’évaluation en éducation. Il a été directeur de la revue Mesure et évaluation en éducation, rédacteur en chef de la Revue des sciences de l’éducation, est actuellement directeur du Collectif pour le développement et les applications en mesure et évaluation (Cdame) et directeur de la collection «Mesure et évaluation» aux Presses de l’Université du Québec.

Nadine Talbot est professeure au Département des sciences de l’éducation à l’Université du Québec à Trois-Rivières. Son domaine de spécialisation est la mesure et de l’évaluation en éducation.
LangueFrançais
Date de sortie7 oct. 2020
ISBN9782760544628
Des mécanismes pour assurer la validité de l'interprétation de la mesure en éducation: Interdisciplinarité de la mesure et de l'évaluation - Volume 4
Auteur

Gilles Raîche

Gilles Raîche est professeur au Département d’éducation et pédagogie de l’Université du Québec à Montréal. Il se spécialise dans le domaine de la mesure et de l’évaluation en éducation. Il a été directeur de la revue Mesure et évaluation en éducation, rédacteur en chef de la Revue des sciences de l’éducation, est actuellement directeur du Collectif pour le développement et les applications en mesure et évaluation (Cdame) et directeur de la collection «Mesure et évaluation» aux Presses de l’Université du Québec.

Auteurs associés

Lié à Des mécanismes pour assurer la validité de l'interprétation de la mesure en éducation

Livres électroniques liés

Méthodes et références pédagogiques pour vous

Voir plus

Articles associés

Avis sur Des mécanismes pour assurer la validité de l'interprétation de la mesure en éducation

Évaluation : 0 sur 5 étoiles
0 évaluation

0 notation0 avis

Qu'avez-vous pensé ?

Appuyer pour évaluer

L'avis doit comporter au moins 10 mots

    Aperçu du livre

    Des mécanismes pour assurer la validité de l'interprétation de la mesure en éducation - Gilles Raîche

    INTRODUCTION

    Gilles Raîche, Université du Québec à Montréal

    Ce volume est le dernier de la série, soit le 4e, sur les mécanismes pour assurer la validité de l’interprétation de la mesure en éducation. Il est constitué de textes non publiés ou issus de colloques en mesure et évaluation en éducation tenus lors des 79e et 80e congrès annuel de l’Association francophone pour le savoir (Acfas). L’interdisciplinarité de la mesure et de l’évaluation est le thème du volume : l’éducation, la criminologie et les sciences médicales sont plus particulièrement considérées. L’ouvrage est divisé en deux parties. La première s’intéresse aux considérations méthodologiques tandis que la seconde présente des applications en évaluation. Nous désirons souligner la contribution à la réalisation de cet ouvrage de la professeure Nathalie Loye de l’Université de Montréal (UdeM). Les prochaines lignes présentent de façon séquentielle le contenu des chapitres.

    La section associée à la méthodologie est constituée de quatre chapitres. Dans le premier, Raîche introduit les modélisations issues de la théorie de la réponse à l’item (TRI) et donne un exemple de leur application. Pour simplifier la présentation, seulement les modélisations à réponses dichotomiques sont abordées. Celles-ci sont requises lorsqu’on désire réaliser une analyse factorielle confirmatoire avec des variables manifestes discrètes et élaborer des échelles de mesure à l’aide de telles variables : l’analyse factorielle classique n’est alors pas appropriée, car elle requiert des variables manifestes continues.

    Ensuite, au chapitre 2, Simoes Forte et Dionne présentent les tests de concordance de scripts et les illustrent par l’évaluation du développement de la compétence interculturelle chez les étudiants à la formation des maîtres en médecine. Les tests de concordance de scripts sont fort utiles dans les domaines professionnels pour avoir recours à des mises en situation en contexte d’évaluation des apprentissages.

    Au chapitre 3, Talbot et Raîche présentent une stratégie statistique pertinente lorsqu’on est confronté à des recherches dont la méthodologie diffère et dont les résultats sont présentés selon différentes unités de mesures statistiques. La stratégie considérée est la méta-analyse. Une illustration de l’application de celle-ci en éducation termine le chapitre.

    La partie sur la méthodologie se conclue par une discussion de Linteau et Blais au regard des limites méthodologiques des études évaluant l’effet des lois canadiennes en matière de contrôle des armes à feu sur les homicides. La crédibilité de l’interprétation de leurs résultats est remise en question. Deux stratégies permettant de surmonter en partie ces limites sont présentées. La première est l’analyse des bornes extrêmes et par la deuxième est la stratégie de la régression segmentée. Une illustration de l’utilisation de ces deux stratégies est effectuée à partir du cas de la loi C-68 sur les homicides au Québec introduite en décembre 1995.

    La seconde partie de l’ouvrage est constituée de cinq chapitres. Potvin, Charland, Riopel, Boucher-Genesse et Loubaki décrivent, au chapitre 5, la nature, la conception et l’évaluation préliminaire d’un jeu informatisé a-disciplinaire développé dans l’objectif d’obtenir une évaluation assistée par ordinateur de la compétence transversale de résolution de problèmes scientifiques. Le jeu utilisé consiste en une simulation non stochastique qui exige de l’utilisateur qu’il parvienne à « cuisiner » une soupe susceptible de satisfaire un goûteur virtuel.

    Au chapitre six, Bouffard et Solar s’intéressent à l’évaluation de la littératie et de l’éducation à l’autogestion du diabète. Un questionnaire sur les données sociodémographiques et des instruments de mesure ont été utilisés pour évaluer les connaissances sur le diabète et ses complications, les comportements d’autogestion ainsi que les attitudes face à la maladie. L’utilisation de ces outils a permis de vérifier que la formation offerte a eu un effet positif sur le développement des compétences d’autogestion chez les patients.

    Dans le septième chapitre, Lesage et Raîche présentent le développement d’une application informatique permettant de mettre en œuvre une stratégie d’évaluation hiérarchique des apprentissages. L’application a été expérimentée avec des cadets de l’armée canadienne. Une stratégie d’évaluation hiérarchique des apprentissages comporte plusieurs niveaux de hiérarchisation et de supervision. On peut prendre pour exemple la formation d’équipes à plusieurs niveaux de hiérarchisation, la présentation d’examens ou de tâches d’évaluation complexes en mode collaboratif.

    Dans le chapitre huit, Brusq compare le modèle d’évaluation des établissements du secteur psychiatrique et celui du secteur médicosocial en France. Une analyse de contenu des textes de loi et du manuel de certification des établissements de santé est effectuée. Les résultats de cette analyse montrent qu’une influence réciproque des agences d’évaluation tend à développer des démarches processuelles innovantes.

    Dans le neuvième et dernier chapitre, Talbot s’inscrit dans une démarche de validation du concept de l’adéquation des pratiques d’évaluation des apprentissages à l’approche par compétences tel que mesuré par un questionnaire. L’objectif est plus précisément de modéliser les réponses au questionnaire selon le modèle gradué de Samejima, issu de la théorie de la réponse à l’item.

    PARTIE 1

    MÉTHODOLOGIE

    CHAPITRE 1

    Élaboration d’échelles de mesure à l’aide des modélisations pour réponses dichotomiques issues de la théorie de la réponse à l’item

    ¹

    Gilles Raîche, Université du Québec à Montréal

    On recourt généralement à l’analyse factorielle pour construire des instruments de mesure et analyser des données manifestes continues. Or, l’élaboration d’échelles de mesure en sciences humaines repose la plupart du temps sur l’utilisation de variables manifestes discrètes. Par conséquent, l’analyse factorielle classique ne peut être appliquée à de telles données. C’est pourquoi des modélisations issues de la théorie de la réponse à l’item ont été proposées. Ce chapitre a pour objectif d’introduire ces modélisations et de fournir un exemple de leur application. Pour simplifier la présentation, seules les modélisations à réponses dichotomiques seront abordées.

    L’analyse factorielle exploratoire ainsi que l’analyse factorielle confirmatoire visent principalement à découvrir la structure latente, derrière un ensemble de variables manifestes continues. En sciences humaines, il est toutefois fréquent que nous travaillions avec des variables manifestes discrètes plutôt que continues. Malheureusement, on triche souvent en appliquant les calculs de l’analyse factorielle, confirmatoire ou exploratoire, à ces ensembles de données discrètes. Heureusement, les modélisations issues de la théorie de la réponse à l’item permettent de tenir compte de cette contrainte.

    Soulignons que, puisque dans celles-ci le nombre de facteurs est fixé à l’avance, les modélisations issues de la théorie de la réponse à l’item renvoient strictement à une approche confirmatoire de l’analyse factorielle. De plus, ce qui intéresse surtout ses utilisateurs, c’est l’obtention de scores factoriels et beaucoup moins la découverte de la structure latente. On s’intéresse ainsi bien plus à l’élaboration d’échelles de mesure qu’à celle des théories explicatives de la structure des concepts sous-jacents aux variables discrètes manifestes. Cela ne signifie pas que les modélisations issues de la théorie de la réponse à l’item ne peuvent pas être utilisées pour étudier les structures latentes, au contraire.

    Plusieurs avantages découlent des modélisations issues de la théorie de la réponse à l’item. Premièrement, le niveau du trait latent et l’attrait pour la réponse à chacun des items du test peuvent être interprétés sur la même échelle de mesure. Ensuite, il y a une invariance de la mesure du trait latent des personnes par rapport aux items administrés, ce qui permet l’administration de tests adaptatifs (Raîche, 2004 ; Wainer, 2000) ou encore de versions équivalentes d’un test (Holland et Wainer, 1993 ; Kolen et Brennan, 2014). Il est aussi possible de proposer des stratégies de détection de patrons de réponses inappropriés (Raîche et al., 2012), de modéliser le niveau de sévérité des évaluateurs (modélisation à facettes) (Linacre, 1994) ou encore de permettre la production automatisée d’items selon des paramètres prédéfinis (Irvine et Kyllonen, 2002).

    Comme pour les analyses factorielles exploratoires et confirmatoires, les interprétations des modélisations issues de la réponse à l’item sont limitées par le respect de certains postulats et conditions d’application que nous verrons en détail plus loin dans ce chapitre, soit l’indépendance locale et l’invariance factorielle.

    Dans ce qui suit, nous allons présenter en premier lieu les modélisations unidimensionnelles pour réponses dichotomiques issues de la théorie de la réponse à l’item. Une application de ces modélisations sera ensuite effectuée sur une version abrégée de l’épreuve de désirabilité sociale de Crowne et Marlowe (1960). La syntaxe R pour réaliser les analyses sera fournie par un lien Web.

    Le chapitre se terminera par un survol des diverses applications possibles de ces modélisations ainsi que par l’identification de logiciels aptes à effectuer les calculs nécessaires.

    1. MODÉLISATIONS POUR ITEMS À RÉPONSES DICHOTOMIQUES

    Plusieurs modélisations de la réponse à l’item ont été proposées (de Ayala, 2009 ; Thissen et Steinberg, 1986 ; Van der Linden et Hambleton, 1997). Pour les fins du présent chapitre, nous ne nous intéresserons qu’aux modélisations destinées aux items à réponses dichotomiques : par exemple, bonne ou mauvaise réponse à une question à une épreuve d’habileté cognitive, attrait ou non pour un objet ou encore adhésion ou non à un énoncé. Pour assurer l’uniformité du texte et en simplifier la compréhension, nous utiliserons la notion d’attrait eu égard à un item. Les mêmes principes s’appliquent aux items à réponses polytomiques ordonnées ou à réponses nominales, mais les modélisations associées sont toutefois plus complexes à présenter (Van der Linden et Hambleton, 1997). En outre, nous nous limiterons à la présentation des modélisations unidimensionnelles, car elles sont mieux adaptées à l’élaboration d’échelles de mesure simples, même si des extensions multidimensionnelles ont déjà été proposées (Reckase, 2009).

    Deux familles de modélisations de réponses à l’item se sont développées parallèlement dans les années 1960 : la théorie de la réponse à l’item et le modèle de Rasch. La théorie de la réponse à l’item propose plusieurs modélisations qui peuvent s’adapter à la nature des items constituant l’échelle de mesure. Ces modélisations reposent sur l’idée qu’on doit adapter la modélisation à la nature des items et au contexte de la mesure. Cette position est très utile quand on applique une approche d’explication des patrons de réponses. Les tenants du modèle de Rasch contestent toutefois cette position et jugent qu’il est préférable de retirer ou de modifier les items qui ne se conforment pas à la modélisation à un paramètre où seul le niveau de difficulté de l’item est pris en considération (Rasch, 1960). Dans cette dernière approche, plus près des praticiens, on s’intéresse bien plus à l’élaboration des tests qu’à l’explication du fonctionnement des items d’un test.

    Nous allons maintenant présenter les modèles les plus courants pour modéliser la réponse à l’item. À cette fin, les modélisations logistiques à un, deux, trois et quatre paramètres seront décrites.

    1.1. Introduction aux modélisations

    Les modélisations issues de la théorie de la réponse à l’item sont toutes basées sur un modèle probabiliste qui permet de calculer la probabilité qu’a une personne de fournir un choix de réponses particulier à un item. Cette probabilité est conditionnelle au niveau possédé par la personne j quant à un trait latent (paramètre de personne, θj) ainsi qu’aux caractéristiques de l’item i (paramètres d’items, Bi). Il n’y a ici qu’un seul trait latent, car les modélisations que nous abordons sont unidimensionnelles. Toutefois, au regard des paramètres d’items, il y a plusieurs déclinaisons possibles. Ainsi, ces modélisations, outre le niveau d’attrait (ou de difficulté pour les tests d’habileté) de l’item bi (modélisation à un paramètre), peuvent tenir compte d’un niveau de discrimination ai qui varie d’un item à l’autre (modélisation à deux paramètres), de la pseudo-chance d’obtenir une bonne réponse à l’item ci (modélisation à trois paramètres), du maximum possible de probabilité de bonnes réponses à un item di (modélisations à quatre paramètres), etc.

    L’équation 1 représente la modélisation logistique à quatre paramètres (4PL) où les quatre paramètres d’items précédemment décrits sont utilisés (Barton et Lord, 1981 ; Raîche et al., 2012). Elle permet de calculer la probabilité que la personne j donne le choix de réponse 1 à un item i. Puisque les modélisations que nous abordons ne considèrent que des réponses dichotomiques, la probabilité que la personne choisisse la réponse alternative 0 est tout simplement égale à 1 – P.

    Lorsque moins de paramètres sont utilisés, la fonction est simplifiée pour donner respectivement les modélisations logistiques suivantes à un, deux et trois paramètres (1PL, 2PL et 3PL) (Birnbaum, 1968 ; Hambleton et Swaminathan, 1985 ; Lord, 1980 ; Rasch, 1960).

    Sous cette représentation, le paramètre bi correspondant au niveau d’attrait de l’item i est calculé sur la même échelle de mesure que le trait latent θj de la personne j. Généralement, l’échelle est proposée en score z pour en faciliter l’interprétation. Un score supérieur à 3 en valeur absolue est alors considéré extrême et peu fréquent dans la population ciblée. Toutefois, il arrive régulièrement qu’on utilise une autre moyenne et un autre écart type : par exemple, dans l’enquête à grande échelle du PISA (Programme international pour le suivi des acquis des élèves – Program for International Student Assessment), la moyenne du trait latent est de 500 et l’écart type, de 100 (Organisation for Economic Co-operation and Development, 2009). Le paramètre ai, pour sa part, correspond à la discrimination, soit à la capacité de l’item i d’effectuer la discrimination entre une personne dont le niveau du trait latent est plus élevé et une personne où il l’est moins. Si ces deux seuls paramètres d’items sont utilisés, il s’agit alors de la modélisation logistique à deux paramètres (2PL). Le paramètre de discrimination est habituellement positif et on espère qu’il soit supérieur à 0,50 : lorsqu’il est négatif, cela pose généralement problème et indique que plus une personne possède un niveau élevé du trait latent moins la probabilité d’un choix de réponse 1 est élevée. Le paramètre de pseudo-chance c ; est une mesure de probabilité (variant donc entre 0 et 1) qui indique la probabilité de donner le choix de réponse 1 pour une personne dont le niveau du trait latent est très faible. Ce paramètre est nommé le paramètre de pseudo-chance, car l’obtention du score 1 peut être due à d’autres facteurs que le simple hasard. Par exemple, la personne dont le niveau du trait latent est faible peut être tout simplement attirée par le choix de réponse 1. Enfin, à l’inverse, le paramètre di indique la probabilité qu’une personne dont le niveau du trait latent est très élevé donne le choix de réponse 1. Cette probabilité devrait être égale à 1, mais certaines caractéristiques de l’item peuvent faire en sorte qu’une personne dont le niveau du trait latent est élevé ne donne pas assurément une réponse égale à 1. C’est pourquoi dans le contexte des tests d’habileté, il est nommé le paramètre d’inattention.

    À titre illustratif, la figure 1.1 (1PL) présente trois courbes caractéristiques d’items dont le paramètre de discrimination est fixe (ai = 1) et dont le paramètre d’attrait b est respectivement égal à -1, 0 et 2. Puisqu’en fait seul le paramètre d’attrait est impliqué, on appelle cette modélisation la modélisation logistique à un paramètre (1PL). On remarquera que plus le niveau du trait latent d’une personne est élevé, plus la probabilité qu’elle donne un choix de réponse égal à 1 est élevée : cette probabilité varie entre 0 et 1. On remarquera aussi que le niveau d’attrait de l’item fait se déplacer de la gauche vers la droite la courbe caractéristique de chacun des items. Plus un item est difficile, plus sa courbe caractéristique se déplace vers la droite.

    La figure 1.1 (2PL), en fixant maintenant le paramètre d’attrait à 0, permet de visualiser ce qui se passe lorsque le paramètre de discrimination varie : ici, selon les valeurs 0,3, 1 et 5. Il s’agit alors formellement de la modélisation logistique à deux paramètres. On remarquera que la pente de la courbe caractéristique varie et que lorsque cette pente est plus élevée la probabilité qu’une personne donne un score égal à 1 varie plus rapidement en fonction du niveau du trait latent.

    La figure 1.1 (3PL), tout en fixant pour les fins de cet exemple les paramètres d’attrait et de discrimination, fait varier uniquement le paramètre de pseudo-chance. Selon cette fonction, même si une personne se caractérise par un niveau très faible du trait latent, la probabilité qu’elle donne un score égal à 1 item n’est pas nulle : selon l’item, elle sera ici égale à 0,0, 0,2 et 0,5.

    La figure 1.1 (4PL) (Barton et Lord, 1981) présente, pour sa part, la courbe caractéristique associée à la modélisation logistique à quatre paramètres où un paramètre d’inattention di est ajouté. Ce paramètre est associé à une asymptote supérieure et indique que même si une personne possède un niveau élevé du trait latent, elle peut donner une réponse égale à 0 à l’item plutôt que 1.

    Figure 1.1

    Modélisations logistiques à un, deux, trois et quatre paramètres : courbes caractéristiques d’item

    Enfin, indépendamment de la modélisation à réponses dichotomiques utilisée, la probabilité d’obtention d’un patron de réponses est égale à :

    Xi correspond au patron de réponses de la personne j aux I items. On notera que cette probabilité est conditionnelle au niveau du trait latent et qu’elle suppose l’indépendance probabiliste entre la probabilité d’obtenir une réponse à chacun des items. C’est pourquoi on nomme cette propriété l’indépendance locale. Il s’agit d’une propriété importante de la plupart des modélisations de réponses à l’item issues de la théorie de la réponse à l’item. Cette propriété est aussi importante dans les autres modèles d’analyse factorielle appliqués à des données continues, mais on ne le souligne pas fréquemment, car on s’y intéresse généralement moins au calcul des scores factoriels des personnes.

    La figure 1.2 présente la courbe des probabilités du patron de réponses pour tous les items considérés simultanément, soit la courbe caractéristique du test, pour quatre personnes différentes qui ont répondu à un test composé de cinq items. La figure 1.2 illustre l’utilisation de la modélisation logistique à trois paramètres, à titre d’exemple, pour calculer la probabilité de chacun des quatre patrons de réponses selon le niveau du trait latent de la personne. Malgré la complexité des équations impliquées, il demeure assez simple d’utiliser les équations 1 à 5 précédentes et un tableur tel que le logiciel Excel pour effectuer les calculs et produire ces courbes caractéristiques. On notera que pour le premier patron de réponses 11110, il existe un maximum bien défini : la valeur est un peu au-dessous de 2. Toutefois, pour les trois autres patrons de réponses, le maximum de vraisemblance est impossible à cerner : il est soit multiple, soit en augmentation ou en diminution constante. Dans ce dernier cas, il est impossible d’obtenir une estimation du niveau du trait latent de la personne.

    On utilisera de nouveau cette représentation graphique à la prochaine section pour expliquer comment on peut obtenir une estimation du niveau du trait latent d’une personne par la technique dite de maximum de vraisemblance. Ces courbes illustrent d’ailleurs très bien la difficulté d’estimation du trait latent avec seulement cinq items.

    Figure 1.2

    Courbes caractéristiques du test selon quatre patrons de réponses (modélisation logistique à trois paramètres)

    1.2. Estimation des paramètres de personnes et d’items

    L’estimation du trait latent d’une personne est souvent réalisée au moyen de la méthode du maximum de vraisemblance. Selon cette méthode, il s’agit tout simplement de retenir la valeur de l’estimation du trait latent pour lequel la probabilité d’obtenir un patron de réponses selon une des modélisations présentées plus haut est maximale : d’où la notion de maximum de vraisemblance (Hambleton et Swaminathan, 1985).

    Dans la figure 1.2, on pouvait observer la valeur

    Vous aimez cet aperçu ?
    Page 1 sur 1