Détermination de la fiabilité d'un test: 4 méthodes

Quatre procédures sont couramment utilisées pour calculer le coefficient de fiabilité (parfois appelé autocorrélation) d'un test. Celles-ci sont les suivantes: 1. Test-Nouvelle analyse (répétition) 2. Formes alternatives ou parallèles 3. Technique Split-Half 4. Équivalence rationnelle.

1. Méthode test-retest:

Pour estimer la fiabilité au moyen de la méthode test-retest, le même test est administré deux fois au même groupe d’élèves avec un intervalle de temps donné entre les deux administrations du test.

Les résultats des tests résultants sont corrélés et ce coefficient de corrélation fournit une mesure de la stabilité, c'est-à-dire qu'il indique le degré de stabilité des résultats du test sur une période donnée. Donc, il est autrement connu comme une mesure de la stabilité.

Dans ce cas, l'estimation de la fiabilité varie en fonction de la durée de l'intervalle de temps autorisé entre les deux administrations. La méthode de corrélation du moment produit est une méthode importante pour estimer la fiabilité de deux ensembles de scores.

Ainsi, une forte corrélation entre deux ensembles de scores indique que le test est fiable. Cela signifie que les scores obtenus lors de la première administration ressemblent à ceux obtenus lors de la seconde administration du même test.

Dans cette méthode, l'intervalle de temps joue un rôle important. S'il est trop petit, par exemple un jour ou deux, la cohérence des résultats sera influencée par l'effet de report, c'est-à-dire que les élèves se souviendront de certains résultats de la première administration à la seconde.

Si l'intervalle de temps est long, disons une année, les résultats seront influencés non seulement par l'inégalité des procédures et des conditions de test, mais aussi par les changements survenus chez les élèves au cours de cette période.

Le délai de réessai ne devrait pas dépasser six mois. L'intervalle de temps pour refaire le test tous les quinze jours (2 semaines) donne un indice précis de fiabilité.

Avantages:

Une méthode d'auto-corrélation ou de test-retest est généralement utilisée pour estimer le coefficient de fiabilité. Il vaut la peine d’utiliser commodément dans différentes situations. Un test de longueur adéquate peut être utilisé après un intervalle de plusieurs jours entre les tests successifs.

Désavantages:

1. Si le test est répété immédiatement, de nombreux sujets se souviendront de leurs premières réponses et passeront du temps sur du nouveau matériel, tendant ainsi à augmenter leurs scores, parfois de beaucoup.

2. Outre les effets de mémoire immédiats, la pratique et la confiance induite par la familiarité avec le matériel affecteront presque certainement les scores lorsque le test est pris pour la deuxième fois.

3. L'indice de fiabilité ainsi obtenu est moins précis.

4. Si l'intervalle entre les tests est assez long (plus de six mois), le facteur de croissance et la maturité affecteront les scores et tendent à réduire l'indice de fiabilité.

5. Si le test est répété immédiatement ou après un court intervalle de temps, il peut y avoir un effet de report / effet de transfert / mémoire / effet d'entraînement.

6. En répétant le même test, le même groupe une seconde fois, désintéresse les étudiants et, par conséquent, ils n'aiment pas participer pleinement.

7. Parfois, l'uniformité n'est pas maintenue, ce qui affecte également les résultats du test.

8. Chances de discuter de quelques questions après la première administration, ce qui peut augmenter les scores à la deuxième administration affectant la fiabilité.

2. Méthode des formes alternatives ou parallèles:

L’estimation de la fiabilité au moyen de la méthode de la forme équivalente implique l’utilisation de deux formes différentes mais équivalentes du test. La fiabilité de la forme parallèle est également appelée fiabilité de forme alternative ou fiabilité de forme équivalente ou fiabilité de forme comparable.

Dans cette méthode, deux formes de test parallèles ou équivalentes sont utilisées. Par formes parallèles, nous entendons que les formes sont équivalentes dans la mesure où le contenu, les objectifs, le format, le niveau de difficulté et la valeur discriminante des items, la durée du test, etc. sont concernés.

Les tests parallèles ont des scores moyens égaux, des variances et des inter-relations entre les éléments. C'est-à-dire que deux formes parallèles doivent être homogènes ou similaires à tous égards, mais pas une duplication des éléments de test. Que les deux formulaires soient les formulaires A et B.

Le coefficient de fiabilité peut être considéré comme le coefficient de corrélation entre les scores obtenus sur deux formes de test équivalentes. Les deux formes équivalentes doivent être probablement similaires sur le plan du contenu, du degré, des processus mentaux testés, du niveau de difficulté et d'autres aspects.

Une forme de test est administrée aux étudiants et, une fois le test terminé, une autre forme de test est fournie au même groupe. Les scores ainsi obtenus sont corrélés ce qui donne l'estimation de la fiabilité. Ainsi, la fiabilité trouvée est appelée coefficient d'équivalence.

Gulliksen 1950: a défini les tests parallèles comme des tests ayant des moyennes égales, une variance égale et des corrélations égales.

Guilford: La méthode de la forme alternative indique à la fois l’équivalence du contenu et la stabilité des performances.

Avantages:

Cette procédure présente certains avantages par rapport à la méthode test-retest:

1. Ici, le même test n'est pas répété.

2. La mémoire, la pratique, les effets de report et les facteurs de rappel sont minimisés et n'affectent pas les scores.

3. Le coefficient de fiabilité obtenu par cette méthode est une mesure à la fois de la stabilité dans le temps et de la cohérence de la réponse aux différents échantillons d'élément ou formes de test. Ainsi, cette méthode combine deux types de fiabilité.

4. Utile pour la fiabilité des tests de performance.

5. Cette méthode est l’une des méthodes appropriées pour déterminer la fiabilité des tests pédagogiques et psychologiques.

Limites:

1. Il est difficile d’avoir deux formes de test parallèles. Dans certaines situations (à Rorschach, par exemple), c'est presque impossible.

2. Lorsque les tests ne sont pas exactement égaux en termes de difficulté de contenu et de longueur, la comparaison entre deux ensembles de scores obtenus à partir de ces tests peut conduire à des décisions erronées.

3. Les facteurs de pratique et de report ne peuvent être entièrement contrôlés

4. En outre, l'administration simultanée de deux formulaires crée de l'ennui. C'est pourquoi les gens préfèrent des méthodes dans lesquelles une seule administration du test est requise.

5. Les conditions de test lors de l’administration du formulaire B peuvent ne pas être les mêmes. En outre, les testicules peuvent ne pas être dans un état physique, mental ou émotionnel similaire à la fois au moment de l'administration.

6. Les scores au test de la seconde forme du test sont généralement élevés.

Bien que difficiles, des formes parallèles soigneusement construites avec soin et prudence nous donneraient une mesure de fiabilité raisonnablement satisfaisante. Pour les tests standardisés bien réalisés, la méthode de la forme parallèle est généralement le moyen le plus satisfaisant de déterminer la fiabilité.

3. Méthode de demi-scission ou méthode de test subdivisée:

La méthode Split-Half est une amélioration par rapport aux deux méthodes précédentes et implique à la fois les caractéristiques de stabilité et d'équivalence. Les deux méthodes susmentionnées d’estimation de la fiabilité semblent parfois difficiles.

Il ne sera peut-être pas possible d'utiliser le même test deux fois et d'obtenir un test équivalent. Par conséquent, pour surmonter ces difficultés et réduire l’effet mémoire ainsi que pour économiser le test, il est souhaitable d’estimer la fiabilité par le biais d’une administration unique du test.

Dans cette méthode, le test est administré une fois sur l’échantillon et c’est la méthode la plus appropriée pour les tests homogènes. Cette méthode fournit la cohérence interne des résultats d'un test.

Tous les éléments du test sont généralement classés par ordre croissant de difficulté et administrés une fois sur l’échantillon. Après avoir effectué le test, celui-ci est divisé en deux parties ou moitiés comparables, similaires ou similaires.

Les partitions sont classées ou sont réalisées en deux jeux obtenus à partir d’un nombre impair d’articles et d’un nombre pair d’articles séparément. Comme par exemple, un test de 100 articles est administré.

Les scores individuels basés sur 50 éléments de nombres impairs tels que 1, 3, 5, .. 99 et les scores basés sur des nombres pairs 2, 4, 6… 10 sont classés séparément. Dans la partie 'A', des éléments impairs sont attribués et la partie 'B' se compose d'un nombre pair d'éléments.

Après avoir obtenu deux scores sur des nombres pairs et impairs d’items d’essai, le coefficient de corrélation est calculé. Il s’agit en réalité d’une corrélation entre deux moitiés équivalentes des scores obtenus en une séance. Pour estimer la fiabilité, on utilise la formule de Spearman-Brown Prophecy.

La formule de Spearman-Brown est donnée par:

dans lequel r 11 = la fiabilité de l'ensemble du test.

r 11/22 = le coefficient de corrélation entre deux demi-tests.

Exemple 1:

Un test contient 100 éléments. Tous ces éléments sont classés par ordre de difficulté, en allant du premier au centième. Les élèves répondent au test et celui-ci est noté.

Les scores sont obtenus par les étudiants en nombre impair d’éléments et le nombre d’éléments pairs est totalisé séparément. Le coefficient de corrélation trouvé entre ces deux ensembles de scores est de 0, 8.

La fiabilité de l'ensemble du test (ou)

Lors de l'utilisation de cette formule, il convient de garder à l'esprit que la variance des moitiés impaires et paires doit être égale, c'est-à-dire

Si ce n'est pas possible, les formules de Flanagan et de Rulon peuvent être utilisées. Ces formules sont plus simples et n'impliquent pas de calcul de coefficient de corrélation entre deux moitiés.

Avantages:

1. Ici, nous ne répétons pas l’essai ni n’utilisons sa forme parallèle, de sorte que l’espèce testée n’est pas testée deux fois. En tant que tel, l'effet de report ou de pratique n'est pas là.

2. Dans cette méthode, les fluctuations de la capacité d'un individu, en raison de conditions environnementales ou physiques, sont minimisées.

3. En raison de l'administration unique du test, les fonctions et les problèmes quotidiens n'interfèrent pas.

4. La difficulté de construire des formes de test parallèles est éliminée.

Limites:

1. Un test peut être divisé en deux moitiés égales de plusieurs manières et le coefficient de corrélation dans chaque cas peut être différent.

2. Cette méthode ne peut pas être utilisée pour estimer la fiabilité des tests de vitesse.

3. Comme le test est administré une fois, les erreurs de probabilité peuvent affecter les scores des deux moitiés de la même manière et tendent ainsi à rendre le coefficient de fiabilité trop élevé.

4. Cette méthode ne peut pas être utilisée dans les tests de puissance et les tests hétérogènes.

En dépit de toutes ces limitations, la méthode split-half est considérée comme la meilleure de toutes les méthodes de mesure de la fiabilité des tests, car les données permettant de déterminer la fiabilité sont parfois obtenues, réduisant ainsi le temps, la main-d'œuvre et les difficultés liés à la seconde. ou administration répétée.

4. Méthode d'équivalence rationnelle:

Cette méthode est également connue sous le nom de «fiabilité Kuder-Richardson» ou de «cohérence inter-articles». C'est une méthode basée sur une administration unique. Il est basé sur la cohérence des réponses à tous les éléments.

Le moyen le plus courant de rechercher une cohérence entre les éléments est d'utiliser la formule développée par Kuder et Richardson (1937). Cette méthode permet de calculer l'inter-corrélation des éléments du test et la corrélation de chaque élément avec tous les éléments du test. J. Cronbach l'a appelé coefficient de consistance interne.

Dans cette méthode, on suppose que tous les éléments ont une valeur de difficulté identique ou égale, que les corrélations sont égales, que tous les éléments mesurent essentiellement la même capacité et que le test est de nature homogène.

Comme la méthode split-half, cette méthode fournit également une mesure de la cohérence interne.

La formule la plus populaire est Kuder-Richardson, à savoir KR-21, qui est donnée ci-dessous:

q = - p

p = 1 - q

Un exemple nous aidera à calculer p et q.

Exemple 2:

60 étudiants ont participé à un test et 40 d'entre eux ont donné une réponse correcte à un élément particulier du test.

p = 40/60 = 2/3

Cela signifie qu'une partie des élèves ont donné une réponse correcte à un élément particulier du test. Dans lequel 20 étudiants ont donné une réponse incorrecte à cet item.

Donc q = 20/60 ou 1 - 40/60

Pour chaque élément, nous devons trouver la valeur de p et q, puis pq est additionné sur tous les éléments pour obtenir pq. Multipliez p et q pour chaque article et additionnez pour tous les articles. Cela donne ∑pq.

Avantages:

1. Ce coefficient fournit quelques indications sur la cohérence ou l'homogénéité interne des items des tests.

2. L'équivalence rationnelle est supérieure à la technique de la scission moitié sur certains aspects théoriques, mais la différence réelle des coefficients de fiabilité trouvée par les deux méthodes est souvent négligeable.

3. La méthode moitié-moitié ne mesure que l'équivalence, mais la méthode de l'équivalence rationnelle mesure à la fois l'équivalence et l'homogénéité.

4. Méthode économique puisque le test est administré une fois.

5. Il ne nécessite ni l'administration de deux types de tests équivalents, ni le fractionnement des tests en deux moitiés égales.

Limites:

1. Le coefficient obtenu par cette méthode est généralement un peu inférieur aux coefficients obtenus par d'autres méthodes.

2. Si les items des tests ne sont pas très homogènes, cette méthode donnera un coefficient de fiabilité inférieur.

3. Les méthodes de Kuder-Richardson et de demi-demie ne sont pas appropriées pour le test de vitesse.

4. Différentes formules KR donnent un indice de fiabilité différent.