Corrélation: signification, types et son calcul

Après avoir lu cet article, vous apprendrez: - 1. Les définitions de la corrélation 2. La signification de la corrélation 3. Le besoin 4. Les types 5. Les méthodes de calcul.

Définitions de corrélation:

Si le changement d'une variable semble s'accompagner d'un changement de l'autre variable, on dit que les deux variables sont corrélées et cette interdépendance est appelée corrélation ou covariation.

En bref, la tendance à la variation simultanée entre deux variables est appelée corrélation ou covariation. Par exemple, il peut exister une relation entre les hauteurs et les poids d’un groupe d’élèves, les scores des élèves de deux matières différentes étant censés avoir une interdépendance ou une relation entre eux.

Mesurer le degré de relation ou de covariation entre deux variables est l’objet de l’analyse de corrélation. Ainsi, la corrélation signifie la relation ou le «rapprochement» ou la correspondance entre deux variables.

En statistique, la corrélation est une méthode permettant de déterminer la correspondance ou la proportionnalité entre deux séries de mesures (ou scores). Pour le dire simplement, la corrélation indique la relation d'une variable avec l'autre.

Signification de corrélation:

Pour mesurer le degré d'association ou de relation entre deux variables de manière quantitative, un indice de relation est utilisé et est appelé co-efficacité de la corrélation.

Le coefficient de corrélation est un indice numérique qui nous indique dans quelle mesure les deux variables sont liées et dans quelle mesure les variations d'une variable changent avec les variations de l'autre. Le coefficient de corrélation est toujours symbolisé par r ou par ρ (Rho).

La notion "r" est connue sous le nom de coefficient de corrélation de moment produit ou coefficient de corrélation de Karl Pearson. Le symbole 'ρ' (Rho) est appelé coefficient de corrélation par différence de rang ou coefficient de corrélation de Spearman.

La taille de ' r ' indique la quantité (ou le degré ou l'étendue) de la corrélation entre deux variables. Si la corrélation est positive, la valeur de ' r ' est + ve et si la corrélation est négative, la valeur de V est négative. Ainsi, les signes du coefficient indiquent le type de relation. La valeur de V varie de +1 à -1.

La corrélation peut varier entre la corrélation positive parfaite et la corrélation négative parfaite. Le haut de l’échelle indiquera une corrélation positive parfaite et commencera à partir de +1, puis passera à zéro, indiquant l’absence totale de corrélation.

Le bas de l'échelle se termine à -1 et indique une corrélation négative parfaite. Ainsi, la mesure numérique de la corrélation est fournie par l'échelle qui va de +1 à -1.

[NB — Le coefficient de corrélation est un nombre et non un pourcentage. Il est généralement arrondi à deux décimales].

Besoin de corrélation:

La corrélation donne un sens à une construction. L'analyse corrélationnelle est essentielle pour la recherche psycho-éducative de base. En effet, la plupart des recherches psychologiques fondamentales et appliquées sont de nature corrélationnelle.

Une analyse corrélationnelle est requise pour:

(i) Recherche des caractéristiques des tests psychologiques et pédagogiques (fiabilité, validité, analyse des éléments, etc.).

(ii) Vérifier si certaines données sont cohérentes avec l'hypothèse.

(iii) Prédire une variable sur la base de la connaissance de l'autre.

(iv) Construire des modèles et des théories psychologiques et éducatifs.

(v) Groupement de variables / mesures pour une interprétation parcimonieuse des données.

(vi) Réalisation de tests statistiques multivariés (Hoteling's T 2 ; MANOVA, MANCOVA, analyse discriminante, analyse factorielle).

(vii) Influence isolante des variables.

Types de corrélation:

Dans une distribution bivariée, la corrélation peut être:

1. corrélation positive, négative et nulle; et

2. Linéaire ou curviligne (non linéaire).

1. Corrélation positive, négative ou nulle:

Lorsque l'augmentation d'une variable (X) est suivie d'une augmentation correspondante de l'autre variable (Y); la corrélation est dite corrélation positive. Les corrélations positives vont de 0 à +1; la limite supérieure, à savoir +1, est le coefficient de corrélation positif parfait.

La corrélation positive parfaite spécifie que, pour chaque augmentation d'unité dans une variable, il y a augmentation proportionnelle dans l'autre. Par exemple, “Chaleur” et “Température” ont une corrélation positive parfaite.

Si, au contraire, l'augmentation d'une variable (X) entraîne une diminution correspondante de l'autre variable (Y), la corrélation est dite corrélation négative.

La corrélation négative va de 0 à -1; la limite inférieure donnant la corrélation négative parfaite. La corrélation négative parfaite indique que pour chaque augmentation d'unité dans une variable, il y a diminution proportionnelle de l'unité dans l'autre.

La corrélation zéro signifie aucune relation entre les deux variables X et Y; c'est-à-dire que la modification d'une variable (X) n'est pas associée à la modification de l'autre variable (Y). Par exemple, poids corporel et intelligence, pointure et salaire mensuel; etc. La corrélation nulle est le point médian de la plage - 1 à +1.

2. Corrélation linéaire ou curvilinéaire:

La corrélation linéaire est le rapport de changement entre les deux variables dans la même direction ou dans la direction opposée, et la représentation graphique de l'une des variables par rapport à l'autre est une ligne droite.

Considérons une autre situation. Premièrement, avec l'augmentation d'une variable, la seconde variable augmente proportionnellement jusqu'à un certain point; après cela, lorsque la première variable augmente, la deuxième variable commence à diminuer.

La représentation graphique des deux variables sera une ligne courbe. Une telle relation entre les deux variables est appelée corrélation curviligne.

Méthodes de calcul de co-efficacité de corrélation:

Pour faciliter la dissociation des données de la distribution bivariée, les trois méthodes suivantes sont utilisées pour calculer la valeur du coefficient de corrélation:

1. Méthode du diagramme de dispersion.

2. Coefficient de corrélation de Pearson's Product Moment.

3. Coefficient de corrélation de l'ordre de classement de Spearman.

1. Méthode du diagramme de dispersion:

Le diagramme de dispersion ou le diagramme de points est un dispositif graphique permettant de tirer certaines conclusions sur la corrélation entre deux variables.

Lors de la préparation d'un diagramme de dispersion, les paires d'observations observées sont tracées par des points sur un papier millimétré dans un espace bidimensionnel en prenant les mesures sur la variable X le long de l'axe horizontal et celle sur la variable Y le long de l'axe vertical.

L'emplacement de ces points sur le graphique révèle l'évolution de la variable, qu'ils changent dans le même sens ou dans le sens opposé. C'est une méthode très facile, simple mais approximative de calcul de corrélation.

Les fréquences ou les points sont tracés sur un graphique en prenant des échelles appropriées pour les deux séries. Les points tracés auront tendance à se concentrer dans une bande de largeur plus ou moins grande selon son degré. La «ligne du meilleur ajustement» est dessinée à main libre et sa direction indique la nature de la corrélation. Les diagrammes de dispersion, à titre d'exemple, illustrant divers degrés de corrélation sont illustrés aux figures 5.1 et 5.2.

Si la ligne monte et que ce mouvement ascendant se fait de gauche à droite, cela montrera une corrélation positive. De même, si les lignes se déplacent vers le bas et que leur direction est de gauche à droite, la corrélation sera négative.

Le degré de pente indiquera le degré de corrélation. Si les points tracés sont dispersés largement, cela montrera l'absence de corrélation. Cette méthode décrit simplement le «fait» que la corrélation est positive ou négative.

2. Coefficient de corrélation de Moment du produit de Pearson:

Le coefficient de corrélation, r, est souvent appelé le «r Pearson» d'après le professeur Karl Pearson qui a développé la méthode du moment produit, à la suite des travaux antérieurs de Gallon et Bravais.

Coefficient de corrélation sous forme de ratio:

Le coefficient de corrélation produit-moment peut être considéré essentiellement comme le rapport qui exprime la mesure dans laquelle les changements d'une variable sont accompagnés de modifications - ou dépendent de ceux d'une seconde variable.

A titre d’illustration, prenons l’exemple simple suivant qui donne les hauteurs et les poids jumelés de cinq étudiants:

La taille moyenne est de 69 pouces, le poids moyen de 170 livres et le o est de 2, 24 pouces et o est de 13, 69 livres, respectivement. Dans la colonne (4), l'écart (x) de la taille de chaque élève par rapport à la taille moyenne, et dans la colonne (5), l'écart (y) du poids de chaque élève par rapport au poids moyen. Le produit de ces écarts appariés (xy) dans la colonne (6) est une mesure de l’accord entre les hauteurs et les poids individuels. Plus la somme de la colonne xy est importante, plus le degré de correspondance est élevé. Dans l'exemple ci-dessus, la valeur de ∑xy / N est 55/5 ou 11. En accord parfait, c'est-à-dire que r = ± 1, 00, la valeur de xy / N dépasse la limite maximale.

Ainsi, ∑ xy / N ne donnerait pas une mesure appropriée de la relation entre x et y. La raison en est qu’une telle moyenne n’est pas une mesure stable, car elle n’est pas indépendante des unités dans lesquelles la taille et le poids ont été exprimés.

En conséquence, ce rapport variera si vous utilisez des centimètres et des kilogrammes au lieu de pouces et de livres. Une façon d'éviter les problèmes liés aux différences d'unités consiste à exprimer chaque écart par un score σ ou un score standard ou un score Z, c'est-à-dire en divisant chaque x et y par son propre σ.

Chaque écart x et y est alors exprimé sous forme de rapport et correspond à un nombre pur, indépendant des unités de test. La somme des produits de la colonne des scores σ (9) divisée par N donne un rapport qui est une expression stable de la relation. Ce rapport est le coefficient de corrélation «moment du produit». Dans notre exemple, sa valeur de 0, 36 indique une corrélation positive assez élevée entre la taille et le poids dans ce petit échantillon.

L'élève doit noter que notre ratio ou coefficient est simplement le produit moyen des scores σ des mesures correspondantes en X et en Y, c'est-à-dire

Nature de r xy :

(i) r xy est un moment de produit r

(ii) r xy est un rapport, = r xy .

(iii) r xy peut être + ou - lié par des limites allant de 1, 00 à + 1, 00.

(iv) r xy peut être considéré comme une moyenne arithmétique (r xy est la moyenne des produits de score standard).

(v) r xy n'est affecté par aucune transformation linéaire des scores sur X ou Y, ni sur les deux.

(vi) Lorsque les variables sont sous la forme du score standard, r donne une mesure de la quantité moyenne de changement d'une variable associée au changement d'une unité de l'autre variable.

(vii) r xy = √b yx b xy où b yx = coefficient de régression de Y sur X, b xy = coefficient de régression de X sur Y. r xy = racine carrée des pentes des lignes de régression.

(viii) r xy n'est pas influencé par la magnitude des moyennes (les scores sont toujours relatifs).

(ix) r xy ne peut pas être calculé si l'une des variables n'a pas de variance S 2 x ou S 2 Y = 0

(x) rxy sur 60 implique la même amplitude de relation que r xy = - .60. Le signe indique la direction de la relation et l’ampleur de la force de la relation.

(xi) df pour r xy est N - 2, qui est utilisé pour tester l’importance de r xy . Test de la signification de r teste la signification de la régression. La ligne de régression implique une pente et une intersection, ce qui entraîne une perte de 2 df . Ainsi, lorsque N = 2, r xy est égal à + 1, 00 ou à - 1, 00 car il n’ya aucune liberté pour la variation d’échantillonnage de la valeur numérique de r.

A. Calcul de r xy (données non groupées) :

Ici, l’utilisation de la formule de calcul de r dépend de «l’origine des écarts». Dans différentes situations, il est possible de prendre des écarts par rapport à la moyenne réelle, à zéro ou à AM Le type de formule appliqué de manière appropriée pour le calcul de la corrélation de coefficient dépend de la valeur moyenne (en fraction ou en totalité).

(i) La formule de r lorsque les écarts sont pris des moyennes des deux distributions X et Y.

où r xy = corrélation entre X et Y

x = écart de tout score X par rapport à la moyenne du test X

y = écart du score Y correspondant par rapport à la moyenne du test Y.

∑xy = Somme de tous les produits de déviations (X et Y)

σ x et σ y = écarts types de la distribution des scores X et Y.

dans laquelle x et y sont les écarts par rapport aux moyennes réelles et x 2 et ∑y 2 sont les sommes des écarts carrés dans x et y tirés des deux moyennes.

Cette formule est préférée:

je. Lorsque les valeurs moyennes des deux variables ne sont pas en fraction.

ii. Quand trouver la corrélation entre les séries courtes et non groupées (par exemple, environ vingt-cinq cas).

iii. Lorsque des écarts doivent être pris par rapport aux moyennes réelles des deux distributions.

Les étapes nécessaires sont illustrées dans le tableau 5.1. Ils sont énumérés ici:

Étape 1:

Listez dans des colonnes parallèles les scores X et Y appariés, en vous assurant que les scores correspondants sont ensemble.

Étape 2:

Détermine les deux moyennes M x et M y . Dans le tableau 5.1, il s'agit de 7, 5 et 8, 0, respectivement.

Étape 3:

Déterminer pour chaque paire de scores les deux déviations x et y. Vérifiez-les en trouvant des sommes algébriques, qui devraient être nulles.

Étape 4:

Place tous les écarts, et liste en deux colonnes. Ceci dans le but de calculer σ x et σ y .

Étape 5:

Additionnez les carrés des écarts pour obtenir x 2 et y 2 Recherchez le produit xy et additionnez-les pour xy.

Étape 6:

À partir de ces valeurs, calculez σ x et σ y .

Une solution alternative et plus courte:

Il existe un itinéraire alternatif plus court qui omet le calcul de σ x et de σ y, s’ils ne sont pas nécessaires à d’autres fins.

Formule d'application (28):

(ii) Le calcul de r xy à partir des scores originaux ou des scores bruts:

C'est une autre procédure avec des données non groupées, qui ne nécessite pas l'utilisation de déviations. Il traite entièrement des partitions originales. La formule peut sembler décourageante mais elle est vraiment facile à appliquer.

Cette formule est préférée:

je. Quand calculer r à partir de scores bruts directs.

ii. Scores originaux ft. Lorsque les données sont petites et non groupées.

iii. Lorsque les valeurs moyennes sont en fractions.

iv. Quand une bonne machine à calculer est disponible.

X et Y sont les scores originaux des variables X et Y. D'autres symboles indiquent ce qu'on en fait.

Nous suivons les étapes illustrées dans le tableau 5.2:

Étape 1:

Place toutes les mesures X et Y.

Étape 2:

Trouvez le produit XY pour chaque paire de partitions.

Étape 3:

Faites la somme des X, des Y, du X 2, du Y 2 et du XY.

Étape 4:

Appliquer la formule (29):

(ii) Calcul de r xy lorsque les écarts sont pris par rapport à la moyenne supposée:

La formule (28) est utile pour calculer r directement à partir de deux séries de scores non groupées, mais elle présente les inconvénients, car elle nécessite une «méthode longue» de calcul des moyennes et des σ . Les écarts x et y pris par rapport aux moyennes réelles sont généralement des nombres décimaux et la multiplication et la quadrature de ces valeurs est souvent une tâche fastidieuse.

Pour cette raison, même lorsque vous travaillez avec de courtes séries non groupées, il est souvent plus facile d'assumer des moyennes, de calculer des écarts par rapport à ces MA et d'appliquer la formule (30).

Cette formule est préférée:

je. Lorsque les moyennes réelles sont généralement des nombres décimaux et que la multiplication et la mise au carré de ces valeurs est souvent une tâche fastidieuse.

ii. Lorsque les déviations sont prises de AM.

iii. Quand on doit éviter les fractions.

Les étapes de l'informatique r peuvent être décrites comme suit:

Étape 1:

Trouvez la moyenne du test 1 (X) et la moyenne du test 2 (Y). La moyenne est indiquée dans le tableau 5.3, M X = 62, 5 et M Y = 30, 4 respectivement.

Étape 2:

Choisissez les AM de X et Y, c.-à-d. AM X 60, 0 et AM Y 30, 0.

Étape 3:

Trouvez l'écart de chaque résultat du test 1 par rapport à AM, 60.0 et entrez-le dans la colonne x '. Recherchez ensuite l’écart de chaque résultat dans le test 2 par rapport à son heure, 30.0, et entrez-le dans la colonne y '.

Étape 4:

Mettez en carré tous les x et tous les et entrez ces carrés dans la colonne x ' 2 et y' 2, respectivement. Additionnez ces colonnes pour obtenir ∑x ' 2 et ∑y' 2 .

Étape 5:

Multipliez x 'et y' et entrez ces produits (en tenant compte du signe) dans la colonne x'y '. Total x'y 'colonne, en tenant compte des signes, pour obtenir "x'y".

Étape 6:

Les corrections C x et C y sont obtenues en soustrayant AM X de M x et AM y de M y . Ensuite, C x est égal à 2, 5 (62, 5 - 60, 0) et C y à 0, 4 (30, 4 - 30, 0).

Étape 7:

Remplacez ∑x'y ', 334, par ∑x' 2, 670 et par y ' 2, 285 dans la formule (30), comme indiqué dans le tableau 5.3, et résolvez pour r xy.

Propriétés de r :

1. La valeur du coefficient de corrélation r reste inchangée lorsqu'une constante est ajoutée à une ou aux deux variables:

Afin d'observer l'effet sur la corrélation de coefficient r lorsqu'une constante est ajoutée à l'une des variables ou aux deux, considérons un exemple.

Maintenant, nous ajoutons un score de 10 à chaque score en X et de 20 à chaque score de Y et représentons ces scores par X 'et Y' respectivement.

Les calculs permettant de calculer r pour des paires d'observations originales et nouvelles sont présentés dans le tableau 5.4.

En utilisant la formule (29), le coefficient de corrélation du score initial sera:

La même formule pour les nouvelles partitions peut être écrite comme suit:

Ainsi, nous observons que la valeur du coefficient de corrélation r reste inchangée lorsqu'une constante est ajoutée à une ou aux deux variables.

2. La valeur du coefficient de corrélation r reste inchangée lorsqu'une constante est soustraite d'une ou des deux variables:

Les étudiants peuvent examiner cela en prenant un exemple. Lorsque chaque score d'une ou des deux variables est soustrait d'une constante, la valeur du coefficient de corrélation r reste également inchangée.

3. La valeur du coefficient de corrélation r reste inchangée lorsqu'un ou les deux ensembles de valeurs de variable sont multipliés par une constante:

Pour observer l'effet de la multiplication des variables par une constante sur la valeur de r, nous multiplions arbitrairement les scores initiaux des premier et deuxième ensembles de l'exemple précédent par 10 et 20 respectivement.

Le r entre X 'et Y' peut alors être calculé comme suit:

La corrélation du coefficient entre X 'et Y' sera:

Ainsi, nous observons que la valeur du coefficient de corrélation r reste inchangée lorsqu'une constante est multipliée par un ou les deux ensembles de valeurs variables.

4. La valeur de r restera inchangée même si un ou les deux ensembles de valeurs de variable sont divisés par une constante:

Les étudiants peuvent examiner cela en prenant un exemple.

B. Coefficient de corrélation dans les données groupées :

Lorsque le nombre de paires de mesures (N) sur deux variables X et Y est grand, voire modéré, et qu’aucun calculateur n’est disponible, la procédure habituelle consiste à regrouper les données dans X et Y et à former un diagramme de dispersion. ou diagramme de corrélation qui est également appelé distribution de fréquence bidirectionnelle ou distribution de fréquence bivariée.

Le choix de la taille de l'intervalle de classe et des limites d'intervalle suit à peu près les mêmes règles que celles données précédemment. Pour clarifier l'idée, considérons des données à deux variables relatives aux scores obtenus par une classe de 20 étudiants en examen de physique et de mathématiques.

Préparer un diagramme de dispersion:

Lors de la configuration d'un double regroupement de données, une table est préparée avec des colonnes et des lignes. Ici, nous classons chaque paire de variables simultanément dans les deux classes, l’une représentant le score en physique (X) et l’autre en mathématiques (Y), comme indiqué dans le tableau 5.6.

Les scores de 20 étudiants en physique (X) et en mathématiques (Y) sont indiqués dans le tableau ci-dessous:

Nous pouvons facilement préparer une table de distribution de fréquence à deux variables en mettant des tableaux pour chaque paire de scores. La construction d'un diagramme de dispersion est assez simple. Nous devons préparer un tableau comme indiqué dans le diagramme ci-dessus.

Le long de la marge de gauche, les intervalles de classe de la distribution X sont répartis de bas en haut (par ordre croissant). En haut du diagramme, les c.i de la distribution Y sont mis à pied de gauche à droite (par ordre croissant).

Chaque paire de scores (X et Y) est représentée par un décompte dans la cellule respective. Le premier étudiant en a obtenu 32 en physique (X) et 25 en mathématiques (Y). Son score de 32 dans (X) le place au dernier rang et de 25 dans (Y) au deuxième colonne. Ainsi, pour les deux scores (32, 25), un décompte sera marqué dans la deuxième colonne de la 5ème rangée.

De la même manière, dans le cas d'un élève n ° 2, pour les scores (34, 41), nous ferons un décompte dans la 4ème colonne de la 5ème ligne. De même, 20 points seront placés dans les lignes et les colonnes respectives. (Les lignes représenteront les scores X et les colonnes représenteront les scores Y).

Sur la marge droite de la colonne f x, le nombre de cas dans chaque ci, de la distribution X, est indiqué et, au bas du diagramme, dans la rangée f y, le nombre de cas dans chaque ci, de la distribution Y: tabulé.

Le total de la colonne f x est égal à 20 et celui de la ligne f y est également égal à 20. Il s’agit en fait d’une distribution bi-variable, car elle représente la distribution conjointe de deux variables. Le diagramme de dispersion est alors un «tableau de corrélation».

Calcul de r à partir d'un tableau de correspondance:

Les grandes lignes suivantes des étapes à suivre pour calculer r seront mieux comprises si l’élève se réfère constamment au tableau 5.7 au fur et à mesure de la lecture de chaque étape:

Étape 1:

Construire un diagramme de dispersion pour les deux variables à corréler et en tirer un tableau de corrélation.

Étape 2:

Compter les fréquences de chaque ci de la distribution - X et l’écrire dans la colonne f x . Comptez les fréquences pour chaque ci de distribution - Y et remplissez la rangée f y .

Étape 3:

Supposons une moyenne pour la distribution X et marque le ci en doubles lignes. Dans le tableau de corrélation donné, supposons la moyenne au niveau ci, 40 - 49 et mettons des lignes doubles comme indiqué dans le tableau. Les déviations au dessus de la ligne AM seront (+ ve) et les déviations en dessous seront (- ve).

La déviation par rapport à la ligne AM, c'est-à-dire par rapport à la ci, où nous supposons que la moyenne est marquée 0 (zéro) et au-dessus de celle-ci, les d sont notés +1, +2. 13 et au-dessous, il est noté que d est égal à - 1. La colonne dx est maintenant remplie. Puis multiplie f x . et dx de chaque ligne pour obtenir fdx . Multipliez dx et fdx de chaque ligne pour obtenir fdx 2 .

[Note: En calculant le SD dans la méthode de la moyenne supposée, nous supposions une moyenne, en marquant le d et en calculant fd et fd 2 . Ici aussi la même procédure est suivie.]

Étape 4:

Adoptez la même procédure qu'à l'étape 3 et calculez dy, fdy et fdy 2 . Pour la distribution-Y, supposons la moyenne dans le ci 20-29 et mettons des lignes doubles pour marquer la colonne comme indiqué dans le tableau. Les déviations à gauche de cette colonne seront négatives et à droite positives.

Ainsi, d pour la colonne où la moyenne est supposée est marqué 0 (zéro) et le d à gauche est marqué - 1 et les d à sa droite sont marqués +1, +2 et +3. Maintenant, la colonne est remplie. Multipliez les valeurs de fy et dy de chaque colonne pour obtenir fdy . Multipliez les valeurs de dy et fdy dans chaque colonne pour obtenir fdy 2 .

Étape 5:

Comme cette phase est importante, nous devons marquer avec soin pour le calcul de dy pour différents Ci de la distribution X et dx pour différents ci de la distribution -Y.

dy pour différents noms de la distribution-X: Dans la première ligne, 1 f est sous la colonne, 20-29 dont dy est 0 (regardez en bas. L'entrée dy de cette ligne est 0). Encore une fois, 1 f est sous la colonne, 40- 49 dont le dy est égal à + 2. Ainsi, dy pour la première ligne = (1 x 0) + (1 x 2) = + 2.

Dans la deuxième rangée, nous constatons que:

1 f est sous la colonne, 40-49 dont dy est + 2 et

2 f s sont sous la colonne, 50-59 dont les dy` s sont à + 3 chacun.

Donc, dy pour la 2e rangée = (1 x 2) + (2 x 3) = 8.

Dans la troisième rangée,

2 f s sont sous la colonne, 20-29 dont les dy sont 0 chacun,

2 f s sont sous la colonne, 40-49 dont les dy sont +2 chacun, et 1 f est sous la colonne, 50-59 dont dy est +3.

Donc, dy pour la 3ème rangée = (2 x 0) + (2 x 2) + (1 X 3) = 7.

Au 4ème rang,

3 f s sont sous la colonne, 20-29 dont les dy sont 0 chacun,

2 f s sont sous la colonne, 30-39 dont les dy sont +1 chacun et 1 f est sous la colonne, 50-59 dont dy est + 3,

Donc, dy pour la 4ème rangée = (3 X 0) + (2 X 1) + (1 x 3) = 5.

De même au 5ème rang

dy pour la 5ème rangée = (2 x - 1) + (1 x 0) + (1 x 2) = 0

dx pour différents ci, 'v de distribution - Y:

Dans la première colonne,

2 f sont contre la rangée, 30-39 dont dx est - 1.

Donc dx de la 1ère colonne = (2 x - 1) = - 2

Dans la deuxième colonne,

1 f est contre le ci, 70-79 dont dx est +3,

2 f s sont contre le ci, 50-59 dont les dx sont +1 chacun,

3 f s sont contre le ci, 40-49 dont les dx sont 0 chacun,

1 f est contre le ci, 30-39 dont dx est - 1.

Donc, dx pour la 2e colonne = (1 x 3) + (2 X 1) + (3 X 0) + (1 x - 1) = 4. Dans la troisième colonne,

dx pour la 3ème colonne = 2 × 0 = 0

Dans la quatrième colonne,

dx pour la 4ème colonne = (1 x 3) + (1 x 2) + (2 x 1) + (1 x - 1) = 6.

Dans la cinquième colonne,

dx pour la 5ème colonne = (2 x 2) + (1 x 1) + (1 x 0) = 5.

Étape 6:

Maintenant, calculez dx.dy chaque ligne de la distribution - X en multipliant les entrées dx de chaque ligne par dy entrées de chaque ligne. Calculez ensuite dx.dy pour chaque colonne de distribution - Y en multipliant dy entrées de chaque colonne par les entrées dx de chaque colonne.

Étape 7:

Maintenant, prenons la somme algébrique des valeurs des colonnes fdx, fdx 2, dy et dx.dy (pour la distribution - X). Prendre la somme algébrique des valeurs des lignes fdy, fdy 2, dx et dx.dy (pour la distribution - Y)

Étape 8:

Σ. dx.dy de la distribution X = ∑ dx.dy de la distribution Y

fdx = total de la ligne dx (c'est-à-dire ∑ dx )

fdy = total de la colonne dy (c.-à-d. Dy )

Étape 9:

Les valeurs des symboles tels que trouvés

Fdx = 13, fd 2 x = 39

Fdy = 22, ∑ fd 2 y = 60

dx.dy = 29 et N = 20.

Pour calculer le coefficient de corrélation dans un tableau de corrélation, on peut appliquer la formule suivante:

Nous pouvons noter que, dans le dénominateur de la formule (31), nous appliquons la formule pour un x et un y à l'exception de no i's. On peut noter ici que C x, Cy, σx, σv sont tous exprimés en unités d'intervalles de classe (c'est-à-dire en unités de i). Ainsi, lors du calcul de σ x et σ y, aucun i n'est utilisé. Ceci est souhaitable car tous les écarts de produits, c'est-à-dire les ∑ dx.dy, sont en unités d'intervalle.

Ainsi, nous calculons:

Interprétation du coefficient de corrélation:

Le simple calcul de la corrélation n'a aucune signification tant que nous ne déterminons pas quelle doit être la taille du coefficient pour être significatif, et que nous dit la corrélation sur les données? Qu'entendons-nous par la valeur obtenue du coefficient de corrélation?

Mauvaise interprétation du coefficient de corrélation:

Parfois, nous interprétons mal la valeur du coefficient de corrélation et établissons la relation de cause à effet, c’est-à-dire une variable causant la variation de l’autre. En fait, nous ne pouvons pas interpréter de cette manière à moins d'avoir une base logique solide.

Le coefficient de corrélation nous donne une détermination quantitative du degré de relation entre deux variables X et Y et non une information sur la nature de l'association entre les deux variables. La causalité implique une séquence invariable - A conduit toujours à B, alors que la corrélation est simplement une mesure d'association mutuelle entre deux variables.

Par exemple, il peut exister une forte corrélation entre l'inadaptation et l'anxiété:

Mais sur la base d'une corrélation élevée, nous ne pouvons pas dire que l'inadaptation cause l'angoisse. Il est possible que l'anxiété soit la cause de l'inadaptation. Cela montre que l'inadaptation et l'anxiété sont des variables associées. Prenons un autre exemple.

Il y a une forte corrélation entre l'aptitude dans une matière à l'école et la réussite dans la matière. À la fin des examens, cela reflétera-t-il une relation de cause à effet? Cela peut ou non.

L'aptitude à étudier une matière provoque certes des variations dans la réussite de la matière, mais la réussite de l'élève dans la matière ne résulte pas uniquement de la grande aptitude; cela peut aussi être dû aux autres variables.

Ainsi, lorsqu’on interprète la taille du coefficient de corrélation en termes de cause à effet, il est approprié, si et seulement si, les variables à l’étude fournissent une base logique pour une telle interprétation.

Facteurs influant sur la taille du coefficient de corrélation:

Nous devons également être conscients des facteurs suivants qui influencent la taille du coefficient de corrélation et peuvent conduire à une interprétation erronée:

1. La taille de «r» dépend beaucoup de la variabilité des valeurs mesurées dans l'échantillon corrélé. Plus la variabilité est grande, plus la corrélation sera forte, toutes choses égales par ailleurs.

2. La taille de «r» est modifiée lorsqu'un enquêteur sélectionne un groupe extrême de sujets afin de les comparer à certains comportements. «R» obtenu à partir des données combinées des groupes extrêmes serait supérieur à «r» obtenu à partir d'un échantillon aléatoire du même groupe.

3. L'ajout ou la suppression des cas extrêmes du groupe peut entraîner une modification de la taille de «r». L'ajout du cas extrême peut augmenter la taille de la corrélation, tandis que l'abandon des cas extrêmes abaissera la valeur de «r».

Utilisations du produit moment r:

La corrélation est l’un des procédés analytiques les plus largement utilisés dans le domaine de la mesure et de l’évaluation éducatives et psychologiques. Il est utile dans:

je. Décrire le degré de correspondance (ou de relation) entre deux variables.

ii. Prédiction d'une variable - la variable dépendante sur la base d'une variable indépendante.

iii. Valider un test; par exemple, un test d'intelligence de groupe.

iv. Déterminer le degré d'objectivité d'un test.

v. Orientation scolaire et professionnelle et prise de décision.

vi. Déterminer la fiabilité et la validité du test.

vii. Déterminer le rôle de divers corrélats à une certaine capacité.

viii. Technique d'analyse factorielle permettant de déterminer la charge en facteurs des variables sous-jacentes des capacités humaines.

Hypothèses du moment du produit r :

1. Distribution normale:

Les variables à partir desquelles nous voulons calculer la corrélation doivent être distribuées normalement. L'hypothèse peut être posée à partir d'un échantillonnage aléatoire.

2. linéarité:

La corrélation produit-moment peut être représentée en ligne droite appelée corrélation linéaire.

3. série continue:

Mesure de variables sur des séries continues.

4. Homoscédasticité:

Il doit satisfaire à la condition d'homoscédasticité (variabilité égale).

3. Coefficient de corrélation de rang de Spearman:

Il existe certaines situations en éducation et en psychologie où les objets ou les individus peuvent être classés et classés par ordre de mérite ou de compétence sur deux variables et lorsque ces deux ensembles de rangs sont covary ou s’accordent entre eux, nous mesurons les degrés de relation par corrélation de rang .

Là encore, il existe des problèmes pour lesquels la relation entre les mesures effectuées est non linéaire et ne peut pas être décrite par le moment du produit r.

Par exemple, l’évaluation d’un groupe d’élèves sur la base de son aptitude à diriger, l’ordre des femmes dans un concours de beauté, les étudiants classés par ordre de préférence ou les images peuvent être classées en fonction de leurs valeurs esthétiques. Les employés peuvent être classés par les superviseurs en fonction du rendement.

Les écoliers peuvent être classés par les enseignants en adaptation sociale. Dans de tels cas, les objets ou les individus peuvent être classés et classés par ordre de mérite ou de compétence sur deux variables. Spearman a développé une formule appelée Coefficient de corrélation de rangs pour mesurer l'étendue ou le degré de corrélation entre 2 ensembles de rangs.

Ce coefficient de corrélation est noté par la lettre grecque ρ (appelée Rho) et est donné par:

où, ρ = rho = coefficient de corrélation de rang de Spearman

D = Différence entre les rangs appariés (dans chaque cas)

N = Nombre total d'éléments / individus classés.

Caractéristiques de Rho (ρ):

1. Dans le coefficient de corrélation de rangs, les observations ou les mesures de la variable à deux variables sont basées sur l’échelle ordinale sous forme de rangs.

2. La taille du coefficient est directement affectée par la taille des différences de rang.

(une) Si les rangs sont les mêmes pour les deux tests, chaque différence de rang sera égale à zéro et finalement, D 2 sera égale à zéro. Cela signifie que la corrélation est parfaite. soit 1, 00.

(b) Si les différences de rang sont très grandes et que la fraction est supérieure à un, la corrélation sera négative.

Hypothèses de Rho (ρ):

je. N est petit ou les données sont fortement asymétriques.

ii. Ils sont libres ou indépendants de certaines caractéristiques de la répartition de la population.

iii. Dans de nombreuses situations, des méthodes de classement sont utilisées, lorsque les mesures quantitatives ne sont pas disponibles.

iv. Bien que des mesures quantitatives soient disponibles, les rangs sont substitués pour réduire le travail arithmétique.

v. Ces tests sont décrits comme non paramétriques.

vi. Dans de tels cas, les données sont composées d'ensembles de nombres ordinaux, 1er, 2ème, 3ème… .Nth. Ceux-ci sont remplacés par les nombres cardinaux 1, 2, 3, ………, N aux fins du calcul. La substitution des nombres cardinaux aux nombres ordinaux suppose toujours l'égalité des intervalles.

I. Calculer ρ à partir des résultats de tests:

Exemple 1:

Les données suivantes donnent les notes de 5 étudiants en mathématiques et en sciences générales, respectivement:

Calculez la corrélation entre les deux séries de résultats de test par la méthode de la différence de rang.

La valeur du coefficient de corrélation entre les résultats en mathématiques et en sciences générales est positive et modérée.

Étapes du calcul du coefficient de corrélation de Spearman:

Étape 1:

Énumérez les élèves, leurs noms ou leurs numéros de série dans la colonne 1.

Étape 2:

Dans les colonnes 2 et 3, écrivez les résultats de chaque élève ou individu aux tests I et II.

Étape 3:

Prenez un ensemble de scores de la colonne 2 et attribuez un rang de 1 au score le plus élevé, qui est 9, un rang de 2 au prochain score le plus élevé qui est 8 et ainsi de suite, jusqu'à ce que le score le plus bas soit égal à N; qui est 5.

Étape 4:

Prenez l'ensemble II des scores de la colonne 3 et attribuez le rang 1 au score le plus élevé. Dans la deuxième série, le score le plus élevé est 10; hence obtain rank 1. The next highest score of B student is 8; hence his rank is 2. The rank of student C is 3, the rank of E is 4, and the rank of D is 5.

Étape 5:

Calculate the difference of ranks of each student (column 6).

Étape 6:

Check the sum of the differences recorded in column 6. It is always zero.

Étape 7:

Each difference of ranks of column 6 is squared and recorded in column 7. Get the sum ∑D 2 .

Step 8:

Put the value of N and 2D 2 in the formula of Spearman's co-efficient of correlation.

2. Calculating from Ranked Data:

Exemple 2:

In a speech contest Prof. Mehrotra and Prof. Shukla, judged 10 pupils. Their judgements were in ranks, which are presented below. Determine the extent to which their judgements were in agreement.

The value of co-efficient of correlation is + .83. This shows a high degree of agreement between the two judges.

3. Calculating ρ (Rho) for tied Ranks:

Exemple 3:

The following data give the scores of 10 students on two trials of test with a gap of 2 weeks in Trial I and Trial II.

Compute the correlation between the scores of two trials by rank difference method:

The correlation between Trial I and II is positive and very high. Look carefully at the scores obtained by the 10 students on Trial I and II of the test.

Do you find any special feature in the scores obtained by the 10 students? Probably, your answer will be “yes”.

In the above table in column 2 and 3 you will find that more than one students are getting the same scores. In column 2 students A and G are getting the same score viz. 10. In column 3, the students A and B, C and F and G and J are also getting the same scores, which are 16, 24 and 14 respectively.

Definitely these pairs will have the same ranks; known as Tied Ranks. The procedure of assigning the ranks to the repeated scores is somewhat different from the non-repeated scores.

Look at column 4. Student A and G have similar scores of 10 each and they possess 6th and 7th rank in the group. Instead of assigning the 6th and 7th rank, the average of the two rank ie 6.5 (6 + 7/2 = 13/2) has been assigned to each of them.

The same procedure has been followed in respect of scores on Trial II. In this case, ties occur at three places. Students C and F have the same score and hence obtain the average rank of (1 + 2/2 = 1.5). Student A and B have rank position 5 and 6; hence are assigned 5.5 (5 + 6/2) rank each. Similarly student G and J have been assigned 7.5 (7 + 8/2) rank each.

If the values are repeated more than twice, the same procedure can be followed to assign the ranks:

Par exemple:

if three students get a score of 10, at 5th, 6th and 7th ranks, each one of them will be assigned a rank of 5 + 6 + 7/3= 6.

The rest of the steps of procedure followed for calculation of ρ (rho) are the same as explained earlier.

Interprétation:

The value of ρ can also be interpreted in the same way as Karl Pearson's Coefficient of Correlation. It varies between -1 and + 1. The value + 1 stands for a perfect positive agreement or relationship between two sets of ranks while ρ = – 1 implies a perfect negative relationship. In case of no relationship or agreement between ranks, the value of ρ = 0.

Advantages of Rank Difference Method:

1. The Spearman's Rank Order Coefficient of Correlation computation is quicker and easier than (r) computed by the Pearson's Product Moment Method.

2. It is an acceptable method if data are available only in ordinal form or number of paired variable is more than 5 and not greater than 30 with minimum or a few ties in ranks.

3. It is quite easy to interpret p.

Limites:

1. When the interval data are converted into rank-ordered data the information about the size of the score differences is lost; eg in the Table 5.10, if D in Trial II gets scores from 18 up to 21, his rank remains only 4.

2. If the number of cases are more, giving ranks to them becomes a tedious job.