Test du chi carré: signification, applications et utilisations

Après avoir lu cet article, vous en apprendrez davantage sur: - 1. Signification du test du chi carré 2. Niveaux de signification du test du chi carré 3. Test du chi carré sous l'hypothèse nulle 4. Conditions de validité 5. Propriété additive 6. Applications 7. Utilisations.

Signification de test du chi carré:

Le test du chi carré ( 2 ) représente une méthode utile pour comparer les résultats obtenus de manière expérimentale avec ceux attendus théoriquement selon certaines hypothèses.

Ainsi, le chi carré est une mesure de la divergence réelle des fréquences observées et attendues. Il est très évident que l’importance d’une telle mesure serait très importante dans les études d’échantillonnage dans lesquelles nous devons invariablement étudier la divergence entre la théorie et les faits.

Comme nous l'avons vu, le chi carré est une mesure de la divergence entre les fréquences attendues et observées et, en tant que tel, s'il n'y a pas de différence entre les fréquences attendues et observées, la valeur du chi carré est égale à 0.

S'il existe une différence entre les fréquences observées et les fréquences attendues, la valeur du chi carré sera supérieure à 0. En d'autres termes, plus le chi carré est grand, plus la probabilité d'une divergence réelle entre les résultats attendus et observés expérimentalement est grande.

Si la valeur calculée du chi-carré est très petite par rapport à sa valeur de table, cela indique que la divergence entre les fréquences réelles et attendues est très faible et que, par conséquent, l'ajustement est bon. Si, en revanche, la valeur calculée du khi-carré est très grande par rapport à sa valeur de table, cela indique que la divergence entre les fréquences attendues et observées est très grande et que, par conséquent, l'ajustement est médiocre.

Pour évaluer le chi carré, nous entrons dans le tableau E avec la valeur calculée du chi carré et le nombre approprié de degrés de liberté. Le nombre de df = (r - 1) (c - 1) dans lequel r est le nombre de lignes et c le nombre de colonnes dans lesquelles les données sont tabulées.

Ainsi, dans 2 x 2 degrés de liberté du tableau sont (2 - 1) (2 - 1) ou 1. De même dans le tableau 3 x 3, les degrés de liberté sont (3 - 1) (3 - 1) ou 4 et dans 3 x 4 tableau les degrés de liberté sont (3 - 1) (4 - 1) ou 6.

Niveaux de signification du test du chi carré:

Les valeurs calculées de 2 (khi carré) sont comparées aux valeurs du tableau pour déterminer si la différence entre les fréquences attendues et observées est due aux fluctuations de l'échantillonnage et si significative, ou si la différence est due à une autre raison et si important. La divergence de la théorie et des faits est toujours testée en fonction de certaines probabilités.

Les probabilités indiquent l'étendue de la confiance que nous pouvons accorder à la conclusion tirée. Les valeurs de table de χ 2 sont disponibles à différents niveaux de probabilité. Ces niveaux sont appelés niveaux de signification. On voit généralement dans les tableaux la valeur de χ 2 aux niveaux de signification de 0, 05 et 0, 01 pour les degrés de liberté donnés.

Si la valeur calculée de 2 est supérieure à la valeur tabulée, elle est dite significative. En d’autres termes, l’écart entre les fréquences observées et attendues ne peut être attribué au hasard et nous rejetons l’hypothèse nulle.

Nous concluons donc que l'expérience ne supporte pas la théorie. D'autre part, si la valeur calculée de 2 est inférieure à la valeur tabulée correspondante, elle est dite non significative au niveau de signification requis.

Cela implique que la divergence entre les valeurs observées (expérience) et les valeurs attendues (théorie) peut être attribuée au hasard, c'est-à-dire aux fluctuations de l'échantillonnage.

Test du chi carré sous l'hypothèse nulle:

Supposons qu'on nous donne un ensemble de fréquences observées obtenues dans le cadre d'une expérience et que nous voulons vérifier si les résultats expérimentaux appuient une hypothèse ou une théorie particulière. Karl Pearson en 1990 a mis au point un test pour tester la signification de la différence entre les valeurs expérimentales et les valeurs théoriques obtenues sous une théorie ou une hypothèse.

Ce test est appelé test χ 2 et sert à vérifier si l'écart entre l'observation (expérience) et la théorie peut être attribué au hasard (fluctuations de l'échantillonnage) ou s'il est réellement dû à l'inadéquation de la théorie avec les résultats observés. Les données.

Sous l'hypothèse nulle, nous affirmons qu'il n'y a pas de différence significative entre les valeurs observées (expérimentales) et théoriques ou hypothétiques, c'est-à-dire qu'il existe une bonne compatibilité entre théorie et expérience.

L'équation du khi-carré ( 2 ) est la suivante:

dans laquelle f o = fréquence d'occurrence de faits observés ou déterminés expérimentalement

f e = fréquence d'occurrence prévue sous certaines hypothèses.

Ainsi, le chi carré est la somme des valeurs obtenues en divisant le carré de la différence entre les fréquences observées et attendues par les fréquences attendues dans chaque cas. En d'autres termes, les différences entre les fréquences observées et attendues sont coupées au carré et divisées par le nombre attendu dans chaque cas, et la somme de ces quotients est égale à χ 2 .

Plusieurs illustrations du test du khi-deux clarifieront la discussion donnée ci-dessus. Les différences de f o et e sont écrites toujours + ve.

1. Test de la divergence des résultats observés par rapport à ceux attendus sous l'hypothèse d'égale probabilité (hypothèse nulle):

Exemple 1:

Quatre-vingt-seize matières sont invitées à exprimer leur attitude vis-à-vis de la proposition «L'éducation au sida devrait-elle être intégrée dans les programmes du deuxième cycle du secondaire» en indiquant F (favorable), I (indifférent) ou U (défavorable).

Il a été observé que 48 marqués 'F', 24 'I' et 24 'U':

(i) Vérifier si les résultats observés s'écartent de manière significative des résultats attendus s'il n'y a pas de préférences dans le groupe.

(ii) Tester l'hypothèse selon laquelle «il n'y a pas de différence entre les préférences du groupe».

(iii) interpréter les résultats.

Solution:

Les étapes suivantes peuvent être suivies pour le calcul de x 2 et en tirer les conclusions:

Étape 1:

Calculer les fréquences attendues (f e ) correspondant aux fréquences observées dans chaque cas sous une théorie ou une hypothèse.

Dans notre exemple, la théorie est de probabilité égale (hypothèse nulle). Dans la deuxième ligne, la distribution des réponses attendues sur l'hypothèse nulle est sélectionnée de manière égale.

Étape 2:

Calculez les écarts (f o - f e ) pour chaque fréquence. Chacune de ces différences est au carré et divisée par son f e (256/32, 64/32 et 64/32).

Étape 3:

Ajoutez ces valeurs pour calculer:

Étape 4:

Les degrés de liberté dans le tableau sont calculés à partir de la formule df = (r - 1) (c - 1) soit (3 - 1) (2 - 1) ou 2.

Étape 5:

Recherchez les valeurs calculées (critiques) de χ 2 pour 2 df à un certain niveau de signification, généralement 5% ou 1%.

Avec df = 2, la valeur χ 2 devant être significative au niveau 0, 01 est de 9, 21 (tableau E). La valeur χ 2 obtenue de 12> 9, 21.

je. D'où la divergence marquée est significative.

ii. L'hypothèse nulle est rejetée.

iii. Nous concluons que notre groupe est vraiment favorable à la proposition.

Nous rejetons l'hypothèse de «réponse égale» et concluons que notre groupe est favorable à la proposition.

Exemple 2:

Le nombre d'accidents de la route par semaine dans une communauté donnée était le suivant:

12, 8, 20, 2, 14, 10, 15, 6, 9, 4

Ces fréquences sont-elles en accord avec l'idée selon laquelle les conditions d'accident étaient les mêmes pendant cette période de 10 semaines?

Solution:

Hypothèse nulle - Définissez l'hypothèse nulle selon laquelle les fréquences données (nombre d'accidents par semaine dans une communauté donnée) correspondent à la conviction que les conditions de l'accident étaient les mêmes pendant la période de 10 semaines.

Depuis le nombre total d'accidents sur les 10 semaines sont:

12 + 8 + 20 + 2 + 14 + 10 + 15 + 6 + 9 + 4 = 100.

Dans l'hypothèse nulle, ces accidents devraient être répartis uniformément sur la période de 10 semaines. Par conséquent, le nombre d'accidents prévu pour chacune des 10 semaines est de 100/10 = 10.

Puisque la valeur calculée de 2 = 26, 6 est supérieure à la valeur tabulée, 21, 666. C'est significatif et l'hypothèse nulle rejetée au niveau de signification de 0, 01. Nous concluons donc que les conditions d’accident ne sont certainement pas uniformes (identiques) au cours de la période de 10 semaines.

2. Tester la divergence des résultats observés par rapport à ceux attendus sous l'hypothèse d'une distribution normale:

L'hypothèse, au lieu d'être également probable, peut suivre la distribution normale. Un exemple illustre comment cette hypothèse peut être testée par le Khi-deux.

Exemple 3:

Deux cents vendeurs ont été classés en trois groupes: très bon, satisfaisant et médiocre - consensus des responsables des ventes.

Cette répartition de la notation diffère-t-elle considérablement de celle à laquelle on pourrait s’attendre si la capacité de vente est normalement répartie dans notre population de vendeurs?

Nous posons l'hypothèse que la capacité de vente est normalement distribuée. La courbe normale s'étend de - 3σ à + 3σ. Si la capacité de vente est normalement répartie, la ligne de base peut être divisée en trois segments égaux, à savoir:

(+ 1σ à + 3σ), (- 1σ à + 1σ) et (- 3σ à - 1σ) représentant respectivement des vendeurs bons, satisfaisants et médiocres. En consultant le tableau A, nous trouvons que 16% des cas se situent entre + 1σ et + 3σ, 68% entre -1, 9 et + 1σ et 16% entre - 3σ et - 1σ. En cas de problème, 16% de 200 = 32 et 68% de 200 = 136.

df = 2. P est inférieur à 0, 01

Le 2 calculé = 72, 76

Le 2 calculé de 72, 76> 9, 21. Par conséquent, P est inférieur à 0, 01.

.˙. La différence entre les fréquences observées et les fréquences attendues est assez importante. Pour ce motif, l'hypothèse d'une distribution normale de la capacité de vente dans ce groupe doit être rejetée. Nous concluons donc que la distribution des notations diffère de celle à laquelle nous nous attendions.

3. Test du chi carré lorsque nos attentes sont basées sur des résultats prédéterminés:

Exemple 4:

Lors d'une expérience sur l'amélioration des pois, un chercheur a obtenu les données suivantes:

La théorie prédit que la proportion de haricots dans les quatre groupes A, B, C et D devrait être de 9: 3: 3: 1. Dans une expérience sur 1 600 haricots, les nombres dans quatre groupes étaient 882, 313, 287 et 118. les résultats de l'expérience soutiennent la théorie génétique? (Test au niveau .05).

Solution:

Nous posons l'hypothèse nulle selon laquelle il n'y a pas de différence significative entre les valeurs expérimentales et la théorie. En d’autres termes, il existe une bonne correspondance entre théorie et expérience, c’est-à-dire que la théorie soutient l’expérience.

Puisque la valeur χ 2 calculée de 4, 726 <7, 81, elle n’est pas significative. Par conséquent, l'hypothèse nulle peut être acceptée à un niveau de signification de 0, 05 et nous pouvons conclure que les résultats expérimentaux appuient la théorie génétique.

4. Le test du chi carré lorsque les entrées de table sont petites:

Lorsque les entrées de table sont petites et lorsque table est 2 x 2 fois, c'est-à-dire que df = 1, 2 est sujet à une erreur considérable à moins qu'une correction de continuité (appelée correction de Yates) ne soit effectuée.

Exemple 5:

Quarante rats ont eu la possibilité de choisir entre deux itinéraires. Il a été constaté que 13 choisissaient des itinéraires éclairés (c.-à-d. Des itinéraires plus éclairés) et 27 des itinéraires sombres.

(i) Testez l'hypothèse selon laquelle l'éclairage ne fait aucune différence dans la préférence des rats pour les voies (test au niveau 0, 05).

(ii) Vérifier si les rats ont une préférence pour les voies sombres.

Solution:

Si l'éclairage ne fait aucune différence de préférence pour les routes, c'est-à-dire si H 0 est vrai, la préférence proportionnelle serait de 1/2 pour chaque route (c'est-à-dire 20).

Dans notre exemple, nous devons soustraire 0, 5 de chaque différence (f o - f e ) pour la raison suivante:

Les données peuvent être tabulées comme suit:

Lorsque les entrées attendues dans le tableau 2 x 2 fois sont les mêmes que dans notre problème, la formule du Khi-deux peut être écrite sous une forme un peu plus courte, comme suit:

(i) La valeur critique de 2 au niveau 0, 05 est de 3, 841. Le χ 2 obtenu sur 4, 22 est supérieur à 3, 841. Par conséquent, l'hypothèse nulle est rejetée au niveau 0, 05. Apparemment, la lumière ou l'obscurité sont un facteur dans le choix des voies par les rats.

(ii) Dans notre exemple, nous devons faire un test unilatéral. En entrant dans la table E, nous trouvons que 2 sur 4.22 a un P = .043 (par interpolation).

.˙. P / 2 = 0, 0215 ou 2%. En d'autres termes, il y a 2 chances sur 100 qu'une telle divergence se produise.

Par conséquent, nous marquons la divergence comme étant significative au niveau 02.

Par conséquent, nous concluons que les rats ont une préférence pour les voies sombres.

5. Le test d'indépendance du chi carré dans les tableaux de contingence:

Parfois, nous pouvons rencontrer des situations nécessitant de tester s'il existe une relation (ou une association) entre deux variables ou attributs. En d'autres termes, χ 2 peut être créé lorsque l'on souhaite étudier la relation entre des traits ou des attributs pouvant être classés en deux ou plusieurs catégories.

Par exemple, nous pouvons être amenés à vérifier si la couleur des yeux du père est associée à celle des fils, si le statut socio-économique de la famille est associé à la préférence des différentes marques d’un produit, si l’éducation de la taille du couple et de la famille sont liés, si un vaccin particulier a un effet de contrôle sur une maladie particulière, etc.

Pour faire un test, nous préparons une fin de table de contingence afin de calculer f e (fréquence attendue) pour chaque cellule du tableau de contingence, puis nous calculons χ 2 en utilisant la formule suivante:

Hypothèse nulle:

2 est calculé en supposant que les deux attributs sont indépendants l'un de l'autre, c'est-à-dire qu'il n'y a pas de relation entre les deux attributs.

Le calcul de la fréquence attendue d'une cellule est le suivant:

Exemple 6:

Sur un échantillon de 2 000 familles, 1 400 familles consomment du thé, dont 1 236 familles sont hindoues et 164 non hindoues.

Et 600 familles ne sont pas des consommateurs de thé, 564 d’entre elles étant hindoues et 36 non hindoues. Utilisez χ 2 - test et indiquez s’il existe une différence significative entre la consommation de thé chez les familles hindoues et non hindoues.

Solution:

Les données ci-dessus peuvent être organisées sous la forme d'un tableau de contingence 2 x 2, comme indiqué ci-dessous:

Nous posons l'hypothèse nulle (H 0 ) selon laquelle les deux attributs, à savoir la «consommation de thé» et la «communauté», sont indépendants. En d'autres termes, il n'y a pas de différence significative entre la consommation de thé parmi les familles hindoues et non hindoues.

Étant donné que la valeur calculée de 2, à savoir, 15, 24 est beaucoup plus grande que la valeur tabulée de 2 à un niveau de signification de 0, 01; la valeur de 2 est hautement significative et l'hypothèse nulle est rejetée.

Nous concluons donc que les deux communautés (hindoue et non hindoue) diffèrent considérablement en ce qui concerne la consommation de thé entre elles.

Exemple 7:

Le tableau ci-dessous montre les données obtenues lors d'une épidémie de choléra.

Testez l'efficacité de l'inoculation dans la prévention de l'attaque du choléra.

Solution:

Nous posons l'hypothèse nulle (H 0 ) selon laquelle les deux attributs, à savoir l'inoculation et l'absence d'attaque du choléra, ne sont pas associés. Ces deux attributs dans la table donnée sont indépendants.

Sur la base de notre hypothèse, nous pouvons calculer les fréquences attendues comme suit:

Calcul de (f e ):

La valeur de 5% de χ 2 pour 1 df est 3, 841, ce qui est beaucoup moins que la valeur calculée de 2 . Donc, à la lumière de cela, la conclusion est évidente que l'hypothèse est incorrecte et que l'inoculation et l'absence d'attaque du choléra sont associées.

Conditions de validité du test du chi carré:

La statistique de test du chi carré peut être utilisée si les conditions suivantes sont remplies:

1. N, la fréquence totale, devrait être raisonnablement grande, par exemple supérieure à 50.

2. Les observations de l'échantillon doivent être indépendantes. Cela implique qu'aucun élément individuel ne doit être inclus deux fois ou plus dans l'échantillon.

3. Les contraintes sur les fréquences de cellules, le cas échéant, devraient être linéaires (c'est-à-dire qu'elles ne devraient pas impliquer de puissances carrées et supérieures des fréquences) telles que f o = f e = N.

4. Aucune fréquence théorique ne devrait être petite. Petit est un terme relatif. De préférence, chaque fréquence théorique devrait être supérieure à 10 mais en aucun cas inférieure à 5.

Si une fréquence théorique est inférieure à 5, nous ne pouvons appliquer le test χ 2 en tant que tel. Dans ce cas, nous utilisons la technique de «pooling» qui consiste à additionner les fréquences inférieures à 5 à la fréquence précédente ou suivante (fréquences) de sorte que la somme résultante soit supérieure à 5 et à ajuster les degrés de liberté en conséquence.

5. La distribution donnée ne devrait pas être remplacée par des fréquences ou des proportions relatives, mais les données devraient être données en unités originales.

6. La correction de Yates doit être appliquée dans des circonstances spéciales lorsque df = 1 (c'est-à-dire dans des tableaux 2 x 2) et lorsque les entrées de cellule sont petites.

7. Le test χ 2 est principalement utilisé comme test non directionnel (c’est-à-dire que nous réalisons un test bilatéral). Cependant, il peut arriver que tests 2 tests soient utilisés pour réaliser un test unilatéral.

Dans le test unilatéral, nous doublons la valeur de p. Par exemple, avec df = 1, la valeur critique de χ 2 au niveau 05 est de 2, 706 (2, 706 est la valeur inscrite sous le niveau. 10) et la valeur critique de; χ 2 au niveau .01 est égal à 5.412 (la valeur est écrite sous le niveau .02).

La propriété additive du test du chi carré:

χ 2 a une propriété d'addition très utile. Si un certain nombre d'échantillons d'études ont été menés dans le même domaine, les résultats peuvent être regroupés pour obtenir une idée précise de la situation réelle.

Supposons que dix expériences ont été menées pour vérifier l'efficacité d'un vaccin contre une maladie donnée. Maintenant, nous aurons dix valeurs différentes de χ 2 et dix valeurs différentes de df.

Nous pouvons ajouter les dix χ 2 pour obtenir une valeur et de la même manière, dix valeurs de df peuvent également être additionnées. Ainsi, nous aurons une valeur de 2 et une valeur de degrés de liberté. Nous pouvons maintenant tester les résultats de toutes ces dix expériences combinées et découvrir la valeur de P.

Supposons que cinq expériences indépendantes ont été menées dans un domaine particulier. Supposons dans chaque cas un df et que les valeurs suivantes de χ 2 soient obtenues.

Maintenant, au niveau de signification de 5% (ou pour P - 0, 05), la valeur 2 pour un df est 3, 841. D'après les valeurs calculées de χ 2 données ci-dessus, nous remarquons que, dans un seul cas, l'expérience N ° 3, la valeur observée de χ 2 est inférieure à la valeur tabulée de 3, 841.

Cela signifie qu'en ce qui concerne cette expérience, la différence est insignifiante, mais dans les quatre cas restants, la valeur calculée de 2 est supérieure à 3, 841 et, de ce fait, à un niveau de signification de 5%, la différence entre les fréquences attendue et réelle est significative. .

Si nous additionnons toutes les valeurs de 2, nous obtenons (4.3 + 5.7 + 2.1 + 3.9 + 8.3) ou 24.3. Le total des degrés de liberté est 5. Cela signifie que la valeur calculée de 2 pour 5 df est de 24, 3.

Si nous regardons dans le tableau de 2, nous verrons qu’au niveau de signification de 5% pour 5 df, la valeur de 2 est 11, 070. La valeur calculée de χ 2, qui est 24, 3, est beaucoup plus élevée que la valeur tabulée et nous pouvons donc en conclure que la différence entre les fréquences observées et attendues est significative.

Même si nous prenons 1% de niveau de signification (ou P = .01), la valeur de table de χ 2 n’est que de 15, 086. Ainsi, la probabilité d'obtenir une valeur de 2 égale ou supérieure à 24, 3 à la suite de fluctuations de l'échantillonnage est bien inférieure à même 0, 01, autrement dit la différence est significative.

Applications de Chi-Test:

Les applications de la statistique χ 2 -test peuvent être discutées comme indiqué ci-dessous:

1. Tester la divergence des résultats observés par rapport aux résultats attendus lorsque nos attentes sont basées sur l'hypothèse d'égale probabilité.

2. Test du chi carré lorsque les attentes sont basées sur une distribution normale.

3. Test du chi carré lorsque nos attentes sont basées sur des résultats prédéterminés.

4. Correction pour discontinuité ou correction de Yates dans le calcul de 2 .

5. Test d’indépendance du chi carré dans les tableaux de contingence.

Utilisations du test du chi carré:

1. Bien que le test soit effectué en termes de fréquences, il peut être considéré conceptuellement comme un test de proportions.

2. Le test 2 est utilisé dans les hypothèses de test et n'est pas utile pour l'estimation.

3. Le test du chi carré peut être appliqué à un tableau de contingence complexe comportant plusieurs classes.

4. Le test du chi carré a une propriété très utile, c’est-à-dire «la propriété additive». Si plusieurs échantillons d’échantillons sont réalisés dans le même domaine, les résultats peuvent être regroupés. Cela signifie que 2 valeurs peuvent être ajoutées.