Erreur type de la moyenne

Après avoir lu cet article, vous apprendrez le niveau de la moyenne.

L'inférence statistique nous aide également à vérifier l'hypothèse selon laquelle «la statistique basée sur l'échantillon n'est pas significativement différente du paramètre de population et que la différence, le cas échéant, est uniquement due à une variation aléatoire» .

Erreur type de la moyenne (SE M ou σ M )

L’erreur type de la moyenne (MS) est assez importante pour tester la représentativité, la fiabilité ou l’importance de la moyenne.

Supposons que nous ayons calculé que le score moyen de 200 garçons de la 10e année de Delhi au test de capacité numérique soit égal à 40. Ainsi, 40 est la moyenne d'un seul échantillon tiré de la population (tous les garçons lisant dans la classe X à Delhi).

Nous pouvons également tirer différents échantillons aléatoires de 200 garçons de la population. Supposons que nous choisissions au hasard 100 échantillons différents, chaque échantillon comprenant 200 garçons de la même population et calculons la moyenne de chaque échantillon.

Bien que 'n' soit 200 dans chaque cas, 200 garçons choisis au hasard pour constituer les différents échantillons ne sont pas identiques et ainsi, en raison de la fluctuation dans l'échantillonnage, nous obtiendrions 100 valeurs moyennes de ces 100 échantillons différents.

Ces valeurs moyennes auront tendance à différer les unes des autres et formeraient une série. Ces valeurs constituent la distribution d'échantillonnage des moyennes. On peut exprimer mathématiquement que ces moyennes d'échantillon sont distribuées normalement.

Les 100 valeurs moyennes (dans notre exemple) tomberont dans une distribution normale autour de M pop, la pop M étant la moyenne de la distribution d'échantillonnage des moyennes. L’écart-type de ces moyennes sur 100 échantillons est appelé SE M ou Erreur-type de la moyenne qui sera égale à l’écart-type de la population divisé par la racine carrée de (taille de l’échantillon).

Le SE M montre la dispersion des moyennes d'échantillon autour de M pop . Ainsi, SE M est une mesure de la variabilité de la moyenne de l’échantillon. C'est une mesure de la divergence des moyennes d'échantillon de M pop . SE M est également écrit comme σ M.

L'erreur type de la moyenne (SE M ou σ M ) est calculée à l'aide de la formule (pour les grands échantillons)

(A) Calcul de SE M dans les grands échantillons :

où σ = écart type de la population et

n = nombre de cas inclus dans l'échantillon

(Comme nous pouvons rarement avoir le SD d'une population, pour σ nous utilisons la valeur du SD des moyennes de l'échantillon).

Intervalle de confiance:

Les deux intervalles de confiance, à savoir 95% et 99%, sont couramment utilisés. RA Fisher nomme les limites de l'intervalle de confiance qui contient le paramètre «limites fiduciaires» et nomme la confiance placée dans l'intervalle «probabilité fiduciaire».

a) 95% de l'intervalle de confiance:

En se référant au tableau de surface sous courbe normale, nous trouvons que 95% des cas se situent entre M ± 1, 96 SE M. Nous sommes à 95% sûrs ou corrects de dire que M pop se situerait dans l'intervalle M + 1, 96 SE M et M + 1, 96 SE M et nous avons 5% tort de dire que M pop se situera à l'écart de cet intervalle.

En d'autres termes, la probabilité que M pop se situe dans la plage M ± 1, 96 SE est égale à 95% (ou 0, 95) et la probabilité que M pop se situe en dehors de la plage est de 5% (ou 0, 05). La valeur 1, 96 est la valeur critique au niveau de signification 0, 05.

b) 99% de l'intervalle de confiance:

En se référant au tableau des aires sous courbe normale, nous trouvons que 99% des cas se situent entre M ± 2, 58 SE M. Que nous sommes sûrs à 99% ou que nous avons raison de dire que M pop se situerait dans l'intervalle M - 2, 58 SE M et M + 2, 58 SE M et nous avons 1% tort de dire que M pop se situera en dehors de cet intervalle.

En d'autres termes, la probabilité que M pop se situe dans la plage M ± 2, 58 SE est égale à 99% (ou 0, 99) et la probabilité que M pop se situe en dehors de la plage est égale à 1% (ou 0, 01). La valeur 2, 58 est la valeur critique au niveau de signification 0, 01.

Nous trouvons ici que le niveau de signification est inversement lié au degré de précision. Au niveau de signification 05, nous serions exacts dans 95% des cas et au niveau de signification 0, 01, nous serions exacts dans 99% des cas.

Le tableau ci-dessous vous précédera plus loin:

Exemple 1:

La moyenne et l'écart type de 225 garçons de la classe XII de Delhi dans un test de capacité numérique étaient respectivement de 48 et 6. Dans quelle mesure cette moyenne représente-t-elle le M pop ou estime-t-elle M pop (n = 225, σ = 6, moyenne = 48]

En se référant au tableau de distribution normale (tableau A), nous trouvons que la plupart des cas (99, 7) se situent dans ± 3σ. Dans le cas de notre exemple, toutes les moyennes d'échantillon seront comprises entre M pop + 3σ m et M pop - 3σ M. Ainsi, toute moyenne d'échantillon sera meilleure de 3σ m de moins que M pop sur 3σ M de plus que M pop .

Ainsi, si nous connaissons la valeur de σ M, nous pouvons en déduire le M pop à partir de la moyenne de notre échantillon. Ici 4 est l’écart type de la distribution des moyennes d’échantillons dont notre moyenne est l’une. Toutes les moyennes d'échantillon qui sont normalement réparties autour de M pop se situent entre M pop + 3 SE M et M pop - 3 SE M.

3 SE M = 3 x .4 = 1, 2

Bien que nous ne connaissions pas la valeur exacte de M pop, nous pouvons au moins dire avec certitude que M pop se situe entre

(48 -1, 2) et (48 + 1, 2) ou 46, 8 → 49, 2

Le tableau A montre que 95% des facilités sont comprises entre ± 1, 96 σ. Dans le cas de notre exemple, l'intervalle de confiance de 95% pour M pop va de M à 1, 96 SE M à M + 1, 96 SE M.

Maintenant, 1, 96 SE M = 1, 96 x 0, 4 = 0, 78

. . . M - 1, 96 SE M = 48 - 0, 78 = 47, 22 et M + 1, 96 SE M = 48 + 0, 78 = 48, 78

. . . L'intervalle de confiance à 95% varie de 47, 22 à 48, 78. L’intervalle de confiance de 99% pour M pop va de M à 2, 58 SE M à M + 2, 58 SE M.

Maintenant 2, 58 SE M = 2, 58 X .4 = 1, 03

. . . M - 2, 58 SE M = 48 -1, 03 = 46, 97 et M + 2, 58 SE M = 48 + 1, 03 = 49, 03

. . . L'intervalle de confiance de 99% pour M pop varie de 46, 97 à 49, 03.

Exemple 2:

La moyenne et le DS de 400 élèves d'un test étaient de 42 et 8. Pouvez-vous estimer le score moyen de la population à un intervalle de confiance de 99% et de 95%?

Solution:

(i) L’intervalle de confiance à 95% pour M pop va de M à 1, 96 SE M à M + 1, 96 SE M.

Maintenant 1, 96 SE M = 1, 96 x 0, 4 = 0, 784

. . . M-1, 96 SE M = 42 -784 = 41, 22

et M + 1, 96 SE M = 42 + 0, 84 = 42, 78 (jusqu'à deux décimales).

Ainsi, l'intervalle de confiance à 95% varie de 41, 22 à 42, 78. Nous sommes précis à 95% que M pop se situe entre 41, 22 et 42, 78.

(ii) l'intervalle de confiance de 99% pour M pop va de M à 2, 58 SE M à M + 2, 58 SE M

Maintenant 2, 58 SE M = 2, 58 x 4 = 1, 03

. . . M - 2, 58 SE M = 42-1, 03 = 40, 97

et M +2, 58 SE M = 42 + 1, 03 = 43, 03

Ainsi, l'intervalle de confiance à 99% varie de 40, 97 à 43, 03. Nous sommes à 99% confiants que M Pop se situe entre 40, 97 et 43, 03.

Exemple 3:

Les moyennes et les écarts-types d'un échantillon de 169 garçons dans un test de capacité numérique sont respectivement de 50 et 6:

(i) Déterminez l'intervalle de 95% pour la moyenne de la population et interprétez-le.

(ii) Déterminez l'erreur d'échantillonnage acceptable aux niveaux de signification de 0, 05 et 0, 01.

(iii) Déterminez l'intervalle de confiance à 99% pour M pop .

Solution:

M = 50

(i) L’intervalle de confiance à 95% pour Mp 0p va de M - 1, 96 SE M à M + 1, 96 SE M.

Maintenant 1, 96 SE m = 1, 96 x 0, 46 = 0, 90

Ainsi, M-1, 96 SE M = 50-0, 90 = 49, 10

et M + 1, 96 SE M = 50 + 90 = 50, 90

. . . L'intervalle de confiance de 95% pour M pop varie de 49, 10 à 50, 90. À partir des moyennes d'échantillon de 50, nous estimons que le M pop est une valeur fixe comprise entre 49, 10 et 50, 90, ce qui signifie que nous sommes confiants à 95%.

En d'autres termes, notre échantillon moyen de 50 n'oubliera pas le M pop de plus de 0, 90 et ce sera le cas pour 95 cas sur 100. Sinon, dans 5 cas seulement sur 100, notre échantillon moyen de 50 manquera le M pop de plus que .90.

(ii) Valeur critique au niveau de signification de 0, 05 = 1, 96

Valeur critique au niveau de signification 0, 01 = 2, 58

"Erreur d'échantillonnage = valeur critique x SE M "

Ainsi, l'erreur d'échantillonnage au niveau de signification de 0, 05 est de 1, 96 MSE et de 2, 58 SE au niveau de 0, 01.

Erreur d’échantillonnage acceptable au niveau 0, 05 = 1, 96 SE M = 1, 96 x 0, 46 = 0, 90

Erreur d’échantillonnage admissible au niveau .01 = 2, 58 SE M = 2, 58 X .46 = 1, 19

(iii) L’intervalle de confiance à 99% s’étend de M - 2, 58 SE M à M + 2, 58 SE M

Maintenant 2, 58 SE M = 2, 58 X .46 = 1, 19

Ainsi, M-2, 58 SE M = 50-1, 19 = 48, 81

et M +2, 58 SE M = 50 + 1, 19 = 51, 19

L'intervalle de confiance à 99% varie de 48, 81 à 51, 19.

Exemple 4:

Pour un groupe donné de 500 soldats, le score AGCT moyen est de 95, 00 et l’échelle SD de 25.

(ii) Déterminez l'intervalle de confiance, 99 pour la moyenne vraie.

(ii) Il est peu probable que la moyenne réelle soit supérieure à quelle valeur?

Solution:

(i) L’intervalle de confiance à 99% va de M à 2, 58 SE M à M + 2, 58 SE M.

Maintenant 2, 58 SE M = 2, 58 x 1, 12 = 2, 89

Ainsi, M-2, 58 SE M = 95, 0-2, 89 = 92, 11

et M + 2, 58 SE M = 95, 0 + 2, 89 = 97, 89

. . . L'intervalle de confiance de 99% varie de 92, 11 à 97, 89.

À partir de notre moyenne d'échantillon de 95, 0, nous estimons que la moyenne réelle est une valeur fixe comprise entre 92, 11 et 97, 89, et nous disons que notre confiance est de 99%.

(ii) Notre moyenne d'échantillon de 95, 0 ne manquera pas la moyenne réelle de plus de 2, 89, c'est-à-dire que la valeur réelle n'est pas supérieure à 97, 89.

(B) Calcul de la SE M dans un petit échantillon:

Il est classique d'appeler n'importe quel échantillon de plus de 30 fois plus grand. Lorsque N est grand, cela ne vaut pas la peine d’apporter la correction. Mais lorsque N est «petit» (moins de 30), il est conseillé d’utiliser (N - 1) et il est impératif lorsque N est assez petit, disons inférieur à 10.

L'étudiant doit se rappeler (i) que, théoriquement, (N-1) devrait toujours être utilisé lorsque le DD doit être une estimation de la population a; et que (ii) la distinction entre «statistiques de grand échantillon» et «statistiques de petit échantillon» en termes de seuil de N = 30 est arbitraire, et est en partie une question de commodité.

Lorsque N est inférieur à environ 30, la formule pour le σ M ou le SE M devrait être la suivante:

Exemple 5:

Les cinq étudiants suivants ont obtenu des résultats à un test:

Déterminez les limites de la limite de confiance de 95% pour la moyenne de la population.

Les scores sont - 11, 13, 9, 12, 15:

Solution:

M = 12

Ici le df = n- 1 = 5-1 = 4

En se référant au tableau D, avec df = 4, la valeur t au niveau de signification de 0, 05 (c'est-à-dire un niveau de confiance de 95%) est de 2, 78.

L’intervalle de confiance à 95% définit M ± 2, 78 SE M

2, 78 SE M = 2, 78 x 1, 0 = 2, 78

M - 2, 78 SE M = 12 - 2, 78 x 1, 0 = 9, 22 et

M + 2, 78 SE M = 12 + 2, 78 x 1, 0 = 14, 78

. . . Les limites de l'intervalle de confiance à 95% sont de 9, 22 et 14, 78.

Cela signifie que P = 0, 95 que M pop se situe dans l'intervalle 9.22 à 14.78.

Exemple 6:

Dix mesures du temps de réaction à la lumière sont prises par un observateur expérimenté. La moyenne est de 175, 50 ms (millisecondes) et le S est de 5, 82 ms. Déterminez l'intervalle de confiance de 0, 95 pour le M pop ; l'intervalle de confiance .99.

Solution:

n = 10, S = 5, 82 ms, M = 175, 50 ms

Les df (degrés de liberté) disponibles pour déterminer t sont (n - 1) ou (10 - 1) = 9

(i) Détermination de l'intervalle de confiance de 95% (ou 95):

En entrant dans la table D avec 9 df, nous lisons que t = 2, 26 au point 0, 05.

L’intervalle de confiance à 95% pour M pop va de M à 2, 26 SE M à M + 2, 26 SE M.

Maintenant 2, 26 SE M = 2, 26 x 1, 84 = 4, 16

Donc M - 2, 26 SE M = 175, 50 -4, 16 = 171, 34

et M + 2, 26 SE M = 175, 50 + 4, 16 = 179, 66

. . . L'intervalle de confiance de 95% pour M pop va de 171, 34 à 179, 66. Le P indique, 0, 95 que le M pop n'est pas inférieur à 171, 34 ni supérieur à 179, 66. Si nous en déduisons que M pop se situe dans cet intervalle, après une longue série d'expériences, nous devrions avoir raison 95% du temps et tort 5%.

(ii) Détermination de l'intervalle de confiance à 99% (ou 0, 99):

En entrant dans le tableau D avec 9 df, nous lisons que t = 3, 25 au point .01. L'intervalle de confiance de 99% pour M pop va de M à 3, 25 SE M à M + 3, 25 SE M.

Maintenant 3, 25 SE M = 3, 25 x 1, 84 = 5, 98

Ainsi, M - 3, 25 SE M = 175, 50 - 5, 98 = 169, 52

et M + 3, 25 SE M = 175, 50 + 5, 98 = 181, 48

. . . L'intervalle de confiance de 99% pour M pop va de 169, 52 à 181, 48.

Le P indique, 0, 99 que le M pop n’est pas inférieur à 169, 52 ni supérieur à 181, 48. Si nous en déduisons que M pop se situe dans cet intervalle, après une longue série d’expériences, nous devrions avoir raison 99% du temps et tort 1%.

Inférences concernant d'autres statistiques:

Comme toutes les statistiques ont des distributions d'échantillonnage et des erreurs-types, la signification de la médiane, de l'écart par quartile, de l'écart-type, des pourcentages et d'autres statistiques peut être interprétée comme celle de la moyenne et nous pouvons estimer le paramètre.

(i) Erreur standard de la médiane (ou SE Mdn -):

En termes de SD et de Q, les SE de la médiane pour les grands échantillons peuvent être calculées à l'aide des formules suivantes:

dans laquelle σ = écart-type de l'échantillon, n = taille de l'échantillon et Q = écart par quartile de l'échantillon.

Un exemple illustrera l'utilisation et l'interprétation des formules:

Exemple 7:

Sur l'échelle de langue de langue trabue A, 801 garçons de 11 ans ont enregistré l'enregistrement suivant:

Médiane = 21, 40 et Q = 4, 90. Dans quelle mesure cette médiane représente-t-elle la médiane de la population à partir de laquelle cet échantillon est tiré?

Solution:

n = 801, Mdn = 21, 40, Q = 4, 90.

En appliquant la deuxième formule, le

Puisque N est grand, la distribution d'échantillonnage peut être considérée comme normale et l'intervalle de confiance indiqué à la dernière ligne du tableau D. L'intervalle de confiance de 0, 99 pour la population Mdn est de 21, 40 ± 2, 58 x 0, 32 ou 21, 40 ± 0, 83.

Nous pouvons être sûrs que la médiane de la population n’est ni inférieure à 20, 57 ni supérieure à 22, 23. Cet intervalle étroit indique un degré de confiance élevé dans la médiane de l'échantillon.

ii) erreur type de l'écart type (SE σ ):

L’erreur type de l’écart type, comme SE M, est obtenue en calculant la divergence probable de l’échantillon SD par rapport à son paramètre (population SD). La formule pour SE σ est

Exemple 8:

n = 400, σ = 6

Dans quelle mesure ce DS représente-t-il le SD de la population à partir de laquelle l'échantillon est tiré?

Solution:

Lorsque les échantillons sont grands et tirés au hasard dans leur population, la formule ci-dessus peut être appliquée et interprétée de la même manière que SE M.

Etant donné que N est grand, l’intervalle de confiance de 0, 99 pour le pop SD peut être pris en toute sécurité aux limites ± 2, 58 σ σ . En substituant à σ σ, nous avons 6 ± 2, 58 x 0, 21, c’est-à-dire les limites comprises entre (6 - .54) et (6 + .54) ou 5, 46 et 6, 54.

Si nous supposons que la pop SD se situe entre 5, 46 et 6, 54, nous devrions avoir raison 99% du temps et faux 1%.

(iii) Erreur type de la déviation de quartile (ou SE Q ou σ q ):

SE Q peut être trouvé à partir des formules:

Exemple 9:

n = 801, Q = 4, 90

Dans quelle mesure ce Q représente-t-il la déviation du quartile de la population?

Solution:

En appliquant la formule

L’intervalle de confiance de 0, 99 pour le Q Qc est compris entre 4, 90 ± 2, 58 x 0, 203, c’est-à-dire entre 4, 38 et 5, 42. Cette plage montre que l’échantillon Q est une statistique très fiable.

(iv) Erreur type de pourcentage (ou SE% ou σ%):

Indiquez le pourcentage d'occurrences d'un comportement, la question se pose souvent de savoir quelle confiance on peut accorder au chiffre. Quelle est la fiabilité d'un indice, notre pourcentage d'incidence du comportement qui nous intéresse? Pour répondre à cette question,

Nous devons calculer le SE d'un pourcentage par la formule:

dans lequel

p = le pourcentage d'occurrence du comportement, q = (1 - p)

n = nombre de cas.

Exemple 10:

Dans une étude sur la tricherie chez les enfants des écoles primaires, 100 à 25% des 400 enfants de foyers à statut socio-économique élevé se sont avérés avoir triché lors de divers tests. Dans quelle mesure représente-t-il le pourcentage de la population?

Solution:

p = 25% (pourcentage d'occurrence)

q = 75% (100% - 25%)

Intervalle de confiance de 99% pour le pourcentage de population compris entre

25% ± 2, 58 x 2, 17%.

25% - 2, 58 x 2, 17% = 25% - 5, 60% = 19, 4%

et 25% + 2, 58 x 2, 17% = 25% + 5, 60 = 30, 60%

Nous pouvons supposer avec une confiance de 99% que les enfants des écoles primaires à statut socio-économique élevé tricheraient avec au moins 19, 4% et ne dépasseraient pas 30, 60%.

v) erreur type du coefficient de corrélation (SE r ou σ r ):

La formule classique pour le SE de a- est

(SE d'un coefficient de corrélation r lorsque N est grand)

Exemple 11:

n = 120, r = 0, 60.

Quelles sont les limites de l'intervalle de confiance de 99% pour la population r

Solution:

Intervalle de confiance de 99%

= r ± 2, 58 SE r = 0, 60 ± 2, 58 SE r

= 0, 60 ± 0, 15 ou 0, 45 à 0, 75

Termes statistiques importants:

(i) Niveaux:

.05:

Probabilité de se tromper dans 5 échantillons sur 100.

.01:

Probabilité de se tromper dans 1 échantillon sur 100.

ii) confiance:

Au niveau de signification 0, 05, l'expérimentateur a 95% de certitude que les données doivent représenter la population.

Avec un niveau de signification de 0, 01, l'expérimentateur a 99% de certitude que les statistiques de l'échantillon doivent représenter la population.

(iii) Niveaux d'importance:

Avant de tester l'hypothèse, nous devons décider des critères avec lesquels nous voulons accepter ou rejeter l'hypothèse nulle. Nous devons définir le niveau de signification avant le test. Deux niveaux de signification sont généralement utilisés, à savoir les niveaux 0, 05 et 0, 01.

(a) niveau de signification 0, 05:

Nous lisons dans le tableau A que 95% des cas dans une distribution normale se situent dans les limites ± 1, 96 MSE. Si nous prenons les limites spécifiées par M ± 1, 96 SE M, nous définissons un intervalle pour lequel le niveau de confiance est de 0, 95. Si nous fondons notre jugement sur la taille de M, nous estimons que nous avons raison 95% du temps et 5% du moins.

La zone comprise entre - 1, 96 SE M et + 1, 96 SE M est appelée zone d'acceptation de Ho et la zone au-delà de 1, 96 SE M et + 1, 96 SE M est appelée zone de rejet. Si une moyenne d'échantillon se situe dans la zone d'acceptation, nous acceptons le H o . En rejetant le H o, nous admettons que la moyenne de l'échantillon peut tomber à l'extérieur de ± 1, 96 SE M.

Ainsi, en rejetant H o, nous commettons une erreur de 5%, car une moyenne de cet échantillon peut se produire dans 5% des cas. Nous sommes prêts à prendre jusqu'à 5% de risque en rejetant H o quand cela se produit. Ainsi, le critère de rejet de H o indique le niveau de signification.

(b) .01 niveau de signification:

Nous lisons dans le tableau A que 99% des adoucissements d’une distribution normale se situent dans les limites ± 2, 58 SE M. Si nous dépassons les limites spécifiées par M ± 2, 58 SE M, nous définissons un intervalle pour lequel le niveau de confiance est de 0, 99. En fondant notre jugement sur la taille de M pop sur ces limites, nous estimons avoir raison dans 99% des cas et dans une erreur de 1%.

La zone comprise entre - 2, 58 SE M et + 2, 58 SE M serait la zone d'acceptation de H 0 et la zone au-delà serait la zone de rejet de H o . Nous sommes prêts à prendre jusqu'à 1% de risque en rejetant H o quand cela se produit.

Le niveau de signification de 0, 01 est plus exigeant que le niveau de 0, 05 car, dans le niveau de 0, 01, l'erreur de rejet de H o est de 1%, tandis que dans le niveau de 0, 05, cette erreur est de 5%.

(iv) t-Distribution:

Chaque fois que N est inférieur à environ 30, c'est-à-dire que lorsque l'échantillon est petit, la distribution d'échantillonnage est appelée «distribution t ».

La distribution t ne diffère pas beaucoup de la normale sauf si N est assez petit. Lorsque N augmente en taille, la distribution t se rapproche de plus en plus de la forme normale.

Propriétés de la distribution t:

1. Cela ressemble à une courbe en forme de cloche. Mais sa distribution est plus variable avec une asymétrie nulle et 'Ku' supérieur à 3.

2. Il est symétrique par rapport à la ligne t = 0.

3. Il est unimodal avec l'ordonnée maximale à t = 0.

4. Lorsque N est petit, la distribution t se situe sous la courbe normale, mais les extrémités ou les extrémités de la courbe sont plus hautes que les parties correspondantes de la courbe normale.

5. Les unités situées le long de la ligne de base de la distribution t sont en fait des scores σ, c'est-à-dire

v) Degrés de liberté (df):

Le concept de degrés de liberté est très important dans les statistiques de petit échantillon. C'est également crucial dans l'analyse de la variance et dans d'autres procédures. Degrés de liberté signifie liberté de varier.

Choisissons cinq scores dont la moyenne doit être égale à 15. Supposons maintenant que les quatre scores soient 18, 10, 20, 15. Pour que la moyenne soit égale à 15, le cinquième résultat doit être égal à 12. Nous avons, bien entendu, liberté de choisir quatre partitions.

Mais nous ne sommes pas libres de choisir le 5ème score car celui-ci ajuste la variation induite par les quatre premiers scores et en supposant que la moyenne sera de 15. Ici, la restriction N = 5 et une est imposée, c'est-à-dire la moyenne doit être de 15. Donc, le degré de liberté est N - 1 ou 4.

Si nous avons 5 scores 5, 6, 7, 8 et 9, la moyenne est de 7; et les écarts de nos scores de 7 sont - 2, - 1, 0, 1 et 2. La somme de ces écarts est égale à zéro. Sur les 5 écarts, seuls 4 (N - 1) peuvent être sélectionnés «librement» comme condition que la somme égale à zéro limite immédiatement la valeur du cinquième écart.

Le SD est, bien sûr, basé sur les carrés des déviations prises autour de la moyenne. Il existe N df pour calculer la moyenne, mais seul (N - 1) est disponible pour le «S» (écart-type) car un df est perdu lors du calcul de la moyenne.

Dans un autre exemple, où N = 10, les df disponibles pour estimer le M pop ont été définis par 9 ou (N - 1), c’est-à-dire un de moins que le nombre d’observations, à savoir 10. Un df est perdu dans le calcul du M et par conséquent Il ne reste plus que 9 pour estimer la population M à l'aide de 'S' et de la distribution t.

Chaque fois qu'une statistique est utilisée pour estimer un paramètre, la règle est que le df disponible est égal à N moins le nombre de paramètres déjà estimés à partir de l'échantillon. Le M est une estimation de M pop et en calcul nous perdons 1 df .

Dans l'estimation de la fiabilité d'un r, par exemple (qui dépend des déviations de deux moyennes), les df sont (N - 2). Dans le cas des tests du chi carré et de l'analyse de variance, des procédures distinctes sont suivies pour déterminer le df .

(vi) hypothèse nulle:

L'hypothèse nulle est un outil utile pour tester la signification des différences. Cette hypothèse affirme qu'il n'y a pas de vraie différence entre deux moyennes de population et que la différence trouvée entre les moyennes d'échantillon est donc accidentelle et sans importance.

L'hypothèse nulle est liée au principe juridique selon lequel «un homme est innocent jusqu'à ce qu'il soit reconnu coupable». Elle constitue un défi et la fonction d'une expérience est de donner aux faits une chance de réfuter (ou de ne pas réfuter) ce défi.

Pour illustrer cette hypothèse, supposons que l'on affirme que «les normes d'instruction des écoles à équipe unique sont meilleures que les écoles à équipe double». Cette hypothèse est énoncée de manière vague et ne peut être testée avec précision.

Si nous affirmons que «les écoles à équipe unique ne donnent pas de meilleures normes d’enseignement que les écoles à équipe double» (la vraie différence étant zéro). Cette hypothèse nulle est exacte et peut être testée. Si notre hypothèse nulle est non imposable, elle doit être rejetée. La déclaration no-difference suppose que les deux groupes seront testés et jugés égaux.

La forme nulle est préférée par la plupart des chercheurs expérimentés. Cette forme d’énoncé définit plus facilement le modèle mathématique à utiliser dans le test statistique des hypothèses.

Une hypothèse nulle n'est jamais prouvée ou réfutée. Il peut être accepté ou rejeté avec un certain degré de confiance (ou à un certain niveau de signification).

Avant de tester une hypothèse, nous devons prendre en compte les éléments suivants:

1. Si l'échantillon est grand ou petit.

2. Quel est le niveau de signification.

3. Si le test est un test bilatéral ou un test unilatéral.

(vii) Erreurs dans les déductions:

Tout en acceptant ou en rejetant l'hypothèse nulle, il est possible que les chercheurs commettent deux types d'erreurs et que les chercheurs en tiennent compte.

Ce qu'on appelle les erreurs de type I et de type II peuvent être expliquées ci-dessous:

Erreurs de type I:

De telles erreurs sont commises lorsque nous rejetons une hypothèse nulle en marquant une différence significative, bien qu’il n’y ait pas de vraie différence. Supposons que la différence entre deux moyennes de population (M pop - M pop = 0) soit en réalité égale à zéro. (Par exemple, les garçons et les filles peuvent être considérés comme constituant la même population pour la plupart des tests mentaux). Si le test de signification de deux moyennes d'échantillon reflète le fait que la différence entre les moyennes de population est significative, nous commettons une erreur de type I.

Erreurs de type II:

Ce type d'erreur est commis lorsque nous acceptons une hypothèse nulle en marquant une différence non significative, bien qu'il existe une différence réelle. Supposons qu'il y ait une vraie différence entre les deux moyennes de population.

Si notre test de signification appliqué aux deux moyennes d'échantillon nous porte à croire que la différence entre les moyennes de population n'est pas significative, nous commettons une erreur de type II.

Diverses précautions peuvent être prises pour éviter les deux types d’erreurs. Si nous établissons un faible niveau de signification (P est supérieur à 0, 05), nous augmentons la probabilité d'erreurs de type I; alors que, si nous établissons un niveau de signification élevé (P est inférieur à 0, 05), les erreurs de type I seront moindres. La possibilité de tirer des conclusions erronées de type II est renforcée lorsque nous définissons un niveau de signification très élevé.

(viii) Tests de signification bilatéraux et unilatéraux:

Dans l'hypothèse nulle, les différences entre les moyennes obtenues (c'est-à-dire M 1 - M 2 ) peuvent être plus ou moins. Pour déterminer les probabilités, nous prenons les deux queues de la distribution d'échantillonnage.

(ix) Rapport critique (CR):

Le ratio critique (CR) est obtenu en divisant la différence entre les moyennes d'échantillon par son erreur standard (CR = D / SE D ). Lorsque N des échantillons sont grands (30 ou plus est «grand»), on sait que la distribution des CR est normale autour de la vraie différence entre les moyennes de la population, t est un rapport critique dans lequel une estimation plus exacte du σ D est utilisé. La distribution d'échantillonnage de t n'est pas normale lorsque N est petit (moins de 30, par exemple), t est un CR; mais tous les CR ne sont pas des t.

Test bilatéral:

1. Dans le test bilatéral, nous prenons en compte les deux queues de la courbe normale.

2. En cas d'hypothèse alternative sans queue, nous faisons un test bilatéral.

3. Exemple:

Un test d'intérêt est administré à certains garçons dans une vocation. Cours d’entraînement et à certains garçons d’une classe de latin. La différence moyenne entre les deux groupes est-elle significative au niveau 0, 05?

4. La moyenne d'échantillon diffère de M pop dans les deux sens + ou -.

5. H 0 : M 1 - M 2 = 0

H A : M 1 = M 2

6. Valeur d'être significatif:

1, 96 au niveau 0, 05

2, 58 au niveau .01

7. La zone de rejet est divisée aux deux extrémités de la courbe normale (c'est-à-dire 05 en .025 et .025, 01 en .005 et .005).

Test unilatéral:

1. Nous devons prendre en compte un grand, c’est-à-dire à gauche ou à droite de la courbe normale.

2. En cas d'hypothèse alternative directionnelle, nous effectuons un test unilatéral, à savoir M 1 > M 2 . Dans un tel cas, la direction est très claire.

3. Exemple:

Dix sujets se voient attribuer 5 pistes successives sur un test de chiffres-symboles dont seuls les scores des pistes 1 et 5 sont affichés. Le gain moyen du premier au dernier essai est-il significatif?

4. La moyenne de l'échantillon s'écarte de la moyenne de la population dans un sens.

5. H 0 : M 1 = M 2

H A : M 1 > M 2 ou M 1 <m 2

6. Valeur d'être significatif:

1, 62 au niveau 0, 05

2.33 au niveau .01

7. Il y a une zone de rejet à la queue droite de la distribution ou à la queue gauche de la distribution.