8 types importants d'échantillonnage de probabilité

Cet article met en lumière les huit types importants d'échantillonnage probabiliste utilisés pour mener des recherches sociales. Les types sont: 1. Échantillonnage aléatoire simple 2. Échantillonnage systématique 3. Échantillonnage aléatoire stratifié 4. Échantillonnage stratifié proportionné 5. Échantillonnage stratifié disproportionné 6. Échantillon d'allocation optimale 7. Échantillonnage en grappes 8. Échantillonnage multiphase.

Type # 1. Échantillonnage aléatoire simple:

L'échantillonnage aléatoire simple est en quelque sorte le thème de base de tout échantillonnage scientifique. C'est le principal plan d'échantillonnage probabiliste. En effet, toutes les autres méthodes d'échantillonnage scientifique sont des variantes de l'échantillonnage aléatoire simple. La compréhension d’une procédure d’échantillonnage variée ou complexe suppose une compréhension de l’échantillonnage aléatoire simple.

Un échantillon aléatoire simple est sélectionné selon un processus qui non seulement donne à chaque élément de la population une chance égale d’être inclus dans l’échantillon, mais rend également tout aussi probable la sélection de toutes les combinaisons possibles de cas dans la taille souhaitée de l’échantillon. Supposons, par exemple, qu’un d’entre eux compte six enfants, à savoir A, B, C, D, E et F.

Les combinaisons possibles suivantes de cas, chacune comprenant deux éléments de cette population, à savoir, AB, AC, AD, AE, AF, BC, BD, BE, BF, CD, CE, EF, DE, DF et EF, c'est-à-dire dans les 15 combinaisons.

Si nous écrivons chaque combinaison sur des cartes de taille égale, mettons les cartes dans un panier, mélangez-les soigneusement et laissez une personne aux yeux bandés en choisir une, chacune des cartes aura la même chance d'être sélectionnée / incluse dans l'échantillon.

Les deux cas (la paire) écrits sur la carte ramassée par la personne aux yeux bandés constitueront ainsi l'échantillon aléatoire simple souhaité. Si l'on souhaite sélectionner des échantillons aléatoires simples de trois cas parmi la population susmentionnée de six cas, les échantillons possibles, chacun des trois cas, seront: ABC, ABD, ABE, ABF, ACD, ACE, ACF, ADE, ADF, BCD, BCE, BCF, BDE, BDF, BEF, CDE, CDF, CEF et DEF, soit 20 combinaisons au total.

Chacune de ces combinaisons aura une chance égale d'être sélectionnée dans l'échantillon. En utilisant la même méthode, on peut sélectionner un échantillon aléatoire simple de quatre cas de cette population.

En principe, cette méthode peut être utilisée pour sélectionner des échantillons aléatoires de toute taille dans une population. Mais dans la pratique, énumérer toutes les combinaisons possibles du nombre souhaité de cas deviendrait une tâche très lourde et dans certains cas impossible. Le même résultat peut être obtenu en sélectionnant des éléments individuels, un par un, en utilisant la méthode ci-dessus (loterie) ou en utilisant un livre de nombres aléatoires.

Le livre de tables comprenant une liste de nombres aléatoires est nommé d'après Tippet qui fut le premier à traduire le concept d'aléatoire en livre de nombres aléatoires.

Ce livre est préparé selon une procédure très compliquée, de telle sorte que les nombres ne montrent aucune preuve d'ordre systématique, c'est-à-dire que personne ne peut estimer le nombre suivant, sur la base du nombre précédent et inversement. Laissez-nous discuter des deux méthodes de tirage d’un échantillon aléatoire simple.

Méthode de loterie:

Cette méthode implique les étapes suivantes:

(a) Chaque membre ou élément de la "population" se voit attribuer un numéro unique. Autrement dit, il n'y a pas deux membres qui ont le même nombre,

(b) Chaque numéro est noté sur une carte ou une puce séparée. Chaque puce ou carte devrait être semblable à toutes les autres en ce qui concerne le poids, la taille, la forme, etc.

(c) Les cartes ou les jetons sont placés dans un bol et mélangés soigneusement.

(d) Une personne aux yeux bandés est priée de prendre une puce ou une carte dans le bol.

Dans ces circonstances, on peut s’attendre à ce que la probabilité de tirer une carte soit la même que la probabilité de tirer une autre carte. Comme chaque carte représente un membre de la population, la probabilité de les sélectionner serait exactement la même.

Si, après avoir sélectionné une carte (puce), elle était replacée dans le bol et que le contenu était à nouveau parfaitement mélangé, chaque puce aurait la même probabilité d'être sélectionnée au deuxième, au quatrième ou au nième tirage. Une telle procédure donnerait finalement un échantillon aléatoire simple.

Sélection d'un échantillon à l'aide de nombres aléatoires :

Nous avons déjà dit ce que sont des nombres aléatoires. Ces chiffres permettent d’éviter tout biais (inégalité des chances) d’éléments constituant une population, d’être inclus dans l’échantillon lors de la sélection de l’échantillon.

Ces nombres aléatoires sont si bien préparés qu'ils remplissent le critère mathématique de l'aléatoire complet. Tout livre standard sur les statistiques contient quelques pages de nombres aléatoires. Ces numéros sont généralement répertoriés dans des colonnes sur des pages consécutives.

Voici une partie d'un ensemble de nombres aléatoires:

L'utilisation des tableaux de nombres aléatoires implique les étapes suivantes:

(a) Chaque membre de la population se voit attribuer un numéro unique. Par exemple, un membre peut avoir le numéro 77 et un autre 83, etc.

(b) Le tableau des nombres aléatoires est saisi à un moment quelconque (avec une marque aveugle sur une page du livre de tableaux) et les cas dont les numéros apparaissent en même temps que vous vous déplacez de ce point dans la colonne sont inclus dans l'échantillon jusqu'à ce que le nombre de cas souhaité est obtenu.

Supposons que notre population soit composée de cinq cents éléments et que nous souhaitons tirer un échantillon de cinquante cas. Supposons que nous utilisions les trois derniers chiffres de chaque nombre de cinq chiffres (puisque la taille de l’univers est de 500, c’est-à-dire trois chiffres).

Nous descendons la colonne en commençant par 42827; mais comme nous avons décidé de n'utiliser que trois chiffres (disons les trois derniers), nous commençons par 827 (en ignorant les deux premiers chiffres). Nous notons maintenant chaque nombre inférieur à 501 (puisque la population est de 500).

L’échantillon serait constitué des éléments de la population portant les chiffres correspondant à ceux choisis. Nous nous arrêtons après avoir sélectionné 50 éléments (la taille choisie par nous). Sur la base de la section ci-dessus du tableau, nous choisirons 12 numéros correspondant à ceux choisis. Nous choisirons 12 cas correspondant aux numéros 237, 225, 280, 184, 203, 190, 213, 027, 336, 281, 288, 251.

Caractéristiques de l'échantillon aléatoire simple:

Nous commencerons par considérer une propriété très importante des échantillons aléatoires simples; En d'autres termes, plus la taille de l'échantillon est grande, plus il est probable que sa moyenne (valeur moyenne) sera proche de la moyenne de la «population», c'est-à-dire de la valeur réelle. Illustrons cette propriété en supposant une population composée de six membres (enfants).

Soit l'âge de ces enfants respectivement: A = 2 ans, B = 3 ans, C = 4 ans, D = 6 ans, E = 9 ans et F = 12 ans. Tirons des échantillons aléatoires de un, deux, trois, quatre et cinq membres de chacun de cette population et voyons comment, dans chaque cas, les moyennes d'échantillon (moyennes) se comportent par rapport à la moyenne réelle de la "population" (c'est-à-dire 2 + 3 + 4 + 6 + 9 + 12 = 36/6 = 6). Le tableau ci-dessous illustre le comportement des moyennes d'échantillon associé à la taille de l'échantillon.

Tableau montrant les échantillons possibles d'un, deux, trois, quatre et cinq éléments (enfants de six enfants âgés de 2, 3, 4, 6, 9 et 12 ans respectivement):

Dans le tableau donné, tous les échantillons aléatoires possibles de différentes tailles (1, 2, 3, 4 et 5) et leurs moyennes correspondantes sont indiqués. La moyenne réelle (population) est de 6 ans. Cette moyenne peut bien entendu être calculée en additionnant les valeurs moyennes des combinaisons totales des éléments de la population pour toute taille d'échantillon donnée.

Dans le tableau, nous voyons, par exemple, que pour la taille d'échantillon de trois éléments, il y a 20 combinaisons d'éléments possibles, chaque combinaison ayant une chance égale d'être sélectionnée comme échantillon selon le principe de probabilité.

En additionnant les valeurs moyennes de ces combinaisons possibles montrées dans le tableau, nous obtenons le score total de 120. La moyenne sera de 120 20 = 6, ce qui est aussi, bien sûr, la moyenne de la population. Cela vaut aussi pour les autres colonnes.

Examinons maintenant attentivement le tableau. Nous verrons que pour les échantillons d’un élément chacun (colonne A), il n’existe qu’une valeur moyenne qui ne s'écarte pas de plus d’une unité de la moyenne de population réelle de 6 ans. Autrement dit, tous les autres, à savoir 2, 3, 4, 9 et 12 s'écartent de plus d'une unité de la moyenne de la population, c'est-à-dire 6. A mesure que nous augmentons la taille de l'échantillon, par exemple dans la colonne B, où la taille de l'échantillon est 2, nous trouvons une plus grande proportion de moyennes (moyennes) qui ne s'écartent pas de la moyenne de la population de plus d'une unité.

Le tableau ci-dessus montre que pour l'échantillon de deux, il y a 15 combinaisons possibles et donc 15 moyens possibles. Sur ces 15 moyens, il existe 5 moyens qui ne s'écartent pas de la moyenne de la population de plus d'une unité.

Autrement dit, 33% des moyennes d'échantillon sont proches de la moyenne de la population dans les unités +1 et -1. Dans la colonne C du tableau, nous voyons qu'il existe 20 combinaisons d'éléments possibles pour la taille d'échantillon de trois éléments, chacune.

Sur les 20 moyennes d'échantillonnage possibles, nous constatons que 10, c'est-à-dire 50%, ne s'écartent pas de la moyenne de la population de plus d'une unité. Pour la taille d'échantillon de quatre éléments, 67% des moyennes se situent dans la plage de +1 et -1 unité par rapport à la moyenne réelle (population).

Enfin, pour la taille d'échantillon de cinq éléments, il y en a beaucoup plus, à savoir 83% de telles moyennes ou estimations. La leçon qui se dégage de nos observations est assez claire, à savoir que plus l'échantillon est grand, plus il est probable que sa moyenne sera proche de la moyenne de la population.

Cela revient à dire que la dispersion des estimations (moyennes) diminue à mesure que la taille de l'échantillon augmente. Nous pouvons le voir clairement dans le tableau ci-dessus. Pour la taille d'échantillon de un (colonne A), la fourchette de moyennes est la plus grande, c'est-à-dire entre 2 et 12 = 10. Pour la taille d'échantillon de deux, la fourchette est comprise entre 2, 5 et 10, 5 = 8.

Pour la taille d'échantillon de trois, quatre et cinq, la fourchette de variabilité des moyennes est respectivement de 3 à 9 = 6, de 3, 8 à 7, 8 = 4 et de 4, 8 à 6, 8 = 2. On verra aussi dans le tableau que plus l'échantillon la moyenne diffère de la population, moins elle est susceptible de se produire.

Nous pouvons représenter clairement ce phénomène lié à l'échantillonnage aléatoire simple à l'aide d'une série de courbes montrant la relation entre la variabilité des estimations et la taille de l'échantillon. Considérons une grande population de résidents. On peut imaginer que leur âge sera compris entre moins de 1 an (au moins) et plus de 80 ans (au plus).

L'attente normale et raisonnable serait qu'il y ait moins de cas à l'approche des extrêmes et que le nombre de cas augmente progressivement et de manière symétrique à mesure que nous nous éloignons de ces extrêmes.

L’âge moyen de la population est, disons, de 40 ans. Une telle répartition des résidents peut être représentée par une courbe connue sous le nom de courbe normale ou en forme de cloche (A dans le diagramme ci-dessous). Supposons maintenant que nous prenons dans cette population divers échantillons aléatoires de tailles différentes, par exemple 10 100 et 10 000. Quelle que soit la taille de l'échantillon, nous obtiendrons un très grand nombre d'échantillons de la population.

Chacun de ces échantillons nous donnera une estimation particulière de la moyenne de la population. Certaines de ces moyennes seront des surestimations et des sous-estimations des caractéristiques de la population (âge moyen ou moyen). Certains moyens en seront très proches, d'autres assez éloignés.

Si nous traçons de telles moyennes d'échantillon pour une taille d'échantillon particulière et si nous joignons ces points, nous obtiendrons dans chaque cas une courbe normale. Différentes courbes normales représenteront donc les valeurs des moyennes d'échantillon pour des échantillons de tailles différentes.

Le diagramme ci-dessus donne une idée approximative du comportement de la moyenne de l'échantillon par rapport à la taille de l'échantillon. La courbe A représente l'emplacement des âges des individus célibataires. La moyenne estimée des échantillons de 10 individus, chacun, de la courbe B montre une assez grande dispersion par rapport à la moyenne de la population réelle (40 ans).

Les moyennes d'échantillons de 100 individus chacune forment une courbe normale C qui montre un écart beaucoup moins important par rapport à la moyenne de la population. Enfin, la moyenne des échantillons de 10 000 à partir d’une courbe très proche de la droite correspondant à la moyenne de la population. L'écart des valeurs représentant la courbe D par rapport à la moyenne de la population serait négligeable, comme le montre clairement le diagramme.

La figure ci-dessus permet également de discerner très facilement que, pour des échantillons de toute taille, la moyenne d'échantillonnage la plus probable est la moyenne de la population. Viennent ensuite les valeurs moyennes proches de la moyenne de la population.

Nous pouvons donc en conclure que plus la moyenne de l'échantillon s'écarte de la moyenne de la population, moins elle est susceptible de se produire. Enfin, nous voyons également ce que nous avons déjà dit à propos du comportement des échantillons, à savoir que plus l'échantillon est grand, plus il est probable que sa moyenne sera proche de la moyenne de la population.

C’est ce type de comportement de la part des échantillons aléatoires simples (probabilités), tant vis-à-vis de la moyenne que des proportions et d’autres types de statistiques, qui nous permet d’estimer non seulement les caractéristiques de la population (par exemple, moyenne), mais aussi la probabilité que l’échantillon diffère d’une valeur donnée de la valeur réelle de la population.

L’échantillonnage aléatoire simple se caractérise généralement par le fait que lorsque la population est importante par rapport à la taille de l’échantillon (plus de dix fois supérieure, par exemple), les variabilités des distributions d’échantillonnage sont davantage influencées par le nombre absolu de cas dans la population. échantillon que par la proportion de la population incluse dans l’échantillon.

En d’autres termes, l’ampleur des erreurs susceptibles de résulter de l’échantillonnage dépend plus de la taille absolue de l’échantillon que de sa proportion dans la population, c’est-à-dire de la taille de son échantillon ou de sa taille. population.

Plus la taille de l'échantillon aléatoire est grande, plus grande est la probabilité qu'il fournisse une estimation raisonnablement bonne de la caractéristique de population, quelle que soit sa proportion par rapport à la population.

Ainsi, l'estimation d'un vote populaire lors d'un scrutin national, dans les limites d'une marge d'erreur tolérable, ne nécessiterait pas un échantillon sensiblement plus grand que celui qui serait requis pour une estimation du vote de la population dans une province donnée où les résultats du sondage est dans le doute.

Pour élaborer le point, un échantillon de 500 (échantillon de 100%) donnera une précision parfaite si une communauté n’avait que 500 résidents. Un échantillon de 500 donnera une précision légèrement supérieure pour une commune de 1 000 habitants par rapport à une ville de 10 000 habitants. Mais au-delà du point où l’échantillon représente une grande partie de «l’univers», il n’ya pas de différence appréciable de précision avec l’augmentation de la taille de «l’univers».

Pour tout niveau de précision donné, des tailles d'échantillon identiques donneraient le même niveau de précision pour des communautés de population différente, allant par exemple de 10 000 à 10 millions. Le rapport entre la taille de l'échantillon et les populations de ces communautés ne signifie rien, même si cela semble important si nous procédons par intuition.

Type n ° 2. Échantillonnage systématique:

Ce type d’échantillonnage est, à toutes fins pratiques, une approximation de l’échantillonnage aléatoire simple. Cela nécessite que la population puisse être identifiée de manière unique par son ordre. Par exemple, les résidents d'une communauté peuvent être répertoriés et leurs noms réorganisés par ordre alphabétique. Chacun de ces noms peut recevoir un numéro unique. Un tel indice est appelé «base de sondage» de la population en question.

Supposons que ce cadre se compose de 1 000 membres, chacun avec un numéro unique, c'est-à-dire de 1 à 1 000. Disons que nous souhaitons sélectionner un échantillon de 100. Nous pouvons commencer par sélectionner un nombre compris entre 1 et 10 (les deux inclus). Supposons que nous effectuions une sélection aléatoire en entrant dans la liste et obtenions 7.

Nous procédons ensuite à la sélection des membres; à partir de 7, avec un intervalle régulier de 10. Les membres sélectionnés pour la sélection: à partir d'un intervalle régulier de 10. L'échantillon sélectionné serait donc constitué d'éléments portant les n ° 7, 17, 27, 37, 47, … 977, 987, 997. Ensemble, ces éléments constitueraient un échantillon systématique.

Il convient de rappeler qu’un échantillon systématique ne peut être considéré comme un échantillon de probabilité que si le premier cas (par exemple, 7) a été sélectionné au hasard, puis un dixième cas de la base de sondage a ensuite été sélectionné.

Si le premier cas n’est pas sélectionné au hasard, l’échantillon obtenu ne sera pas un échantillon de probabilité car, dans la nature du cas, la plupart des cas qui ne se trouvent pas à une distance de dix du nombre initialement choisi auront un zéro (0 ) probabilité d'être inclus dans l'échantillon.

Il convient de noter que dans l'échantillonnage systématique lorsque le premier cas est tiré au hasard, il n'y a pas à l'avance de limitation des chances qu'un cas donné soit inclus dans l'échantillon. Mais une fois le premier cas sélectionné, les chances d’affaires ultérieures sont affectées ou modifiées de manière décisive. Dans l'exemple ci-dessus, les cas autres que 17, 27, 37, 47, etc., n'ont aucune chance d'être inclus dans l'échantillon.

Cela signifie que le plan d'échantillonnage systématique ne permet pas toutes les combinaisons de cas possibles, les mêmes chances d'être inclus dans l'échantillon.

Ainsi, les résultats peuvent être assez trompeurs si les cas de la liste sont rangés dans un ordre cyclique ou si la population n’est pas complètement mélangée aux caractéristiques à l’étude (par exemple revenu ou heures d’étude), c’est-à-dire que chacun des dix membres avait une chance égale d'être choisi.

Type n ° 3. Échantillonnage aléatoire stratifié:

Dans l'échantillonnage aléatoire stratifié, la population est d'abord divisée en un certain nombre de strates. Ces strates peuvent être fondées sur un seul critère, par exemple, le niveau d’éducation, donnant un nombre de strates correspondant aux différents niveaux de scolarité) ou sur la combinaison de deux critères ou plus (par exemple, l’âge et le sexe), les strates de production telles que les hommes 30 ans et hommes de plus de 30 ans, femmes de moins de 30 ans et femmes de plus de 30 ans.

Dans l'échantillonnage aléatoire stratifié, un échantillon aléatoire simple est prélevé dans chacune des strates et ces sous-échantillons sont rassemblés pour former l'échantillon total.

En général, la stratification de l'univers à des fins d'échantillonnage contribue à l'efficacité de l'échantillonnage si elle établit des classes, c'est-à-dire si elle peut diviser la population en classes ou en éléments relativement homogènes et relatifs les uns aux autres, hétérogènes, en ce qui concerne les caractéristiques étudiées. Supposons que l'âge et le sexe sont deux bases potentielles de la stratification.

Maintenant, devrions-nous trouver que la stratification sur la base du sexe (homme / femme) donne deux strates qui diffèrent nettement l'une de l'autre en ce qui concerne les scores d'autres caractéristiques pertinentes à l'étude alors que, d'autre part, l'âge en tant que base de stratification ne Si les strates de rendement diffèrent sensiblement les unes des autres en termes de scores pour les autres caractéristiques significatives, il conviendra de stratifier la population en fonction du sexe plutôt que de l’âge.

En d’autres termes, le critère du sexe constituera dans ce cas une base de stratification plus efficace. Il est tout à fait possible que le processus de décomposition de la population en couches stridentes et homogènes sur le plan interne et relativement hétérogènes en ce qui concerne certaines caractéristiques pertinentes présente un coût prohibitif.

Dans une telle situation, le chercheur peut choisir de sélectionner un grand échantillon aléatoire simple et compenser le coût élevé en augmentant (par le biais d'un échantillon aléatoire simple de grande taille) la taille totale de l'échantillon et en évitant les risques liés à la stratification.

Il faut bien comprendre que la stratification n'a pratiquement rien à voir avec la reproduction de l'échantillon comme une réplique de la population.

En fait, la décision d’opérer une stratification dépend essentiellement de l’homogénéité attendue des strates définies en ce qui concerne les caractéristiques à l’étude et des coûts comparatifs de différentes méthodes permettant d’atteindre la précision. L'échantillonnage aléatoire stratifié comme l'échantillonnage aléatoire simple implique des plans d'échantillonnage représentatifs.

Nous passons maintenant aux discussions sur les formes principales ou l’échantillonnage stratifié. Le nombre de cas sélectionnés dans chaque strate peut être proportionnel à la force de la strate ou disproportionné par rapport à celle-ci.

Le nombre de cas peut être le même d'une strate à l'autre ou varier d'une strate à l'autre en fonction du plan d'échantillonnage. Nous allons maintenant examiner très brièvement ces deux formes, à savoir les échantillons stratifiés proportionnels et disproportionnés.

Type n ° 4. Échantillonnage stratifié proportionnel :

Dans l'échantillonnage proportionnel, les cas sont tirés de chaque strate dans la même proportion que dans l'univers. Supposons que nous sachions que 60% de la «population» est composée d'hommes et que 40% d'entre eux sont des femmes. Un échantillonnage stratifié proportionnel en référence à cette "population" impliquerait de tirer un échantillon de manière à refléter cette même division entre les sexes, à savoir 60:40, dans l'échantillon.

Si la procédure d'échantillonnage systématique est utilisée dans une étude, la base sur laquelle la liste est établie détermine si l'échantillon résultant est un échantillon stratifié proportionnel. Par exemple, si chaque septième nom est sélectionné dans une séquence régulière dans une liste de noms classés par ordre alphabétique, l'échantillon obtenu doit contenir environ un septième des noms commençant par chaque lettre de l'alphabet.

Dans ce cas, l'échantillon résultant serait un échantillon alphabétique stratifié proportionnel. Bien sûr, si la disposition alphabétique n’a aucun lien avec le problème à l’étude, l’échantillon peut être considéré comme un échantillon aléatoire avec certaines limitations typiques des échantillons systématiques décrits ci-dessus.

Diverses raisons peuvent être invoquées pour échantillonner les différentes strates dans des proportions inégales ou différentes. Parfois, il est nécessaire d’augmenter la proportion des échantillons prélevés dans les strates ayant un petit nombre de cas afin d’avoir la garantie que ces strates seront effectivement échantillonnées.

Par exemple, si on prévoyait une étude des ventes au détail de vêtements dans une ville donnée à un moment donné, un simple échantillon aléatoire de magasins de vente au détail de vêtements pourrait ne pas nous donner une estimation précise du volume total des ventes, puisqu’un petit nombre d'établissements avec une très grande proportion du total des ventes, peuvent être exclus de l'échantillon.

Dans ce cas, il serait sage de stratifier la population des magasins de vêtements en fonction de quelques rares magasins de vêtements qui réalisent un très grand volume de ventes constitueront la strate la plus élevée. Le chercheur ferait bien de tous les inclure dans son échantillon.

Autrement dit, il peut parfois être utile de prélever un échantillon de 100% dans cette strate et un pourcentage beaucoup moins élevé de cas dans les autres strates représentant un grand nombre de magasins (avec un volume de rotation faible ou modéré). Un tel échantillonnage disproportionné donnera très probablement des estimations fiables en ce qui concerne la population.

Une autre raison de prendre une proportion plus importante de cas dans une strate plutôt que dans d'autres est que le chercheur peut vouloir subdiviser les cas dans chaque strate pour une analyse plus approfondie.

Les sous-strates ainsi dérivées peuvent ne pas contenir toutes un nombre suffisant de cas pour pouvoir effectuer des échantillonnages et dans la même proportion que les autres sous-strates, de sorte que le nombre de cas ne serait pas suffisant pour servir de base adéquate à une analyse plus poussée. Cela étant, il faudra peut-être prélever un nombre plus élevé de cas dans la sous-strate.

En termes généraux, on peut dire que la plus grande précision et la meilleure représentation peuvent être obtenues si les échantillons des différentes strates reflètent de manière adéquate leurs variabilités relatives en ce qui concerne les caractéristiques étudiées plutôt que de présenter leurs tailles relatives dans la «population».

Il est conseillé de procéder à des échantillonnages plus poussés dans les couches où le chercheur a des raisons de croire que la variabilité d'une caractéristique donnée, par exemple les attitudes ou la participation, serait plus grande.

Par conséquent, dans une étude entreprise pour prédire le résultat des élections nationales en utilisant la méthode de l'échantillonnage stratifié, avec les États comme base de stratification, un échantillon plus lourd devrait être prélevé dans les zones ou régions où le résultat est fortement assombri et fortement mis en doute. .

Type # 5. Échantillonnage stratifié disproportionné :

Nous avons déjà suggéré les caractéristiques de l'échantillonnage disproportionné et également l'un des principaux avantages de cette procédure d'échantillonnage. Il est clair qu’un échantillon stratifié dans lequel le nombre d’éléments tirés de diverses strates est indépendant de la taille de ces strates peut être qualifié d’échantillon stratifié disproportionné.

Ce même effet peut également être obtenu alternativement en tirant de chaque strate un nombre égal de cas, indépendamment de la force ou de la faiblesse de la représentation de la strate dans la population.

Corollaire de la manière dont il est sélectionné, un avantage de l'échantillonnage stratifié disproportionné tient au fait que toutes les strates sont également fiables du point de vue de la taille de l'échantillon. L'économie est un avantage encore plus important.

Ce type d’échantillon est économique, en ce sens que les enquêteurs n’ont pas à s’inquiéter d’obtenir un volume d’informations inutilement important auprès des groupes les plus nombreux de la population.

Toutefois, un tel échantillon peut également révéler les inconvénients combinés d’un nombre inégal de cas, c’est-à-dire la petite taille et la non-représentativité. En outre, un échantillon disproportionné nécessite une connaissance approfondie des caractéristiques pertinentes des différentes couches.

Type # 6. Échantillon d'allocation optimale :

Dans cette procédure d'échantillonnage, la taille de l'échantillon tiré de chaque strate est proportionnelle à la taille et à la dispersion des valeurs dans une strate donnée. Une utilisation précise de cette procédure d'échantillonnage implique l'utilisation de certains concepts statistiques qui n'ont pas encore été introduits de manière adéquate ou convaincante.

Nous savons maintenant quelque chose sur l'échantillonnage aléatoire stratifié et ses différentes manifestations. Voyons maintenant comment planifier les variables ou les critères de stratification.

Les considérations suivantes entrent idéalement dans la sélection des contrôles pour la stratification:

a) L’information propre à l’institution des strates doit être à jour, exacte, complète, applicable à la population et disponible pour le chercheur.

De nombreuses caractéristiques de la population ne peuvent pas être utilisées à titre de contrôle car aucune statistique satisfaisante n’est disponible à leur sujet. Dans une société très dynamique caractérisée par de grands bouleversements au sein de la population, le chercheur qui utilise la stratégie de stratification court généralement le risque de se tromper dans ses estimations concernant la taille des strates qu’il effectue dans son échantillon.

(b) Le chercheur devrait avoir des raisons de croire que les facteurs ou critères utilisés pour la stratification sont significatifs au regard du problème étudié.

c) À moins que la strate considérée ne soit suffisamment grande et que, par conséquent, l'échantillonneur et les agents de terrain n'aient pas beaucoup de difficulté à localiser les candidats, elle ne devrait pas être utilisée.

(d) Lors de la sélection des cas pour la stratification, le chercheur doit essayer de choisir ceux qui sont homogènes en ce qui concerne les caractéristiques qui sont significatives pour le problème étudié. Comme il a été dit précédemment, la stratification est efficace dans la mesure où les éléments de la strate sont similaires et en même temps différents par rapport aux éléments des autres strates.

Examinons maintenant les avantages et les limites de l’échantillonnage aléatoire stratifié de manière générale:

(1) En utilisant la procédure d'échantillonnage aléatoire stratifié, le chercheur peut rester assuré qu'aucun groupe ou catégorie essentiel ne sera exclu de l'échantillon. Une plus grande représentativité de l'échantillon est ainsi assurée et les incidents occasionnels survenant lors d'un échantillonnage aléatoire simple sont ainsi évités.

(2) Dans le cas de populations plus homogènes, une plus grande précision peut être obtenue avec moins de cas.

(3) Comparés aux échantillons aléatoires simples, les échantillons stratifiés sont plus concentrés géographiquement, ce qui réduit les coûts en termes de temps, d'argent et d'énergie nécessaires pour interroger les répondants.

(4) Les échantillons choisis par l'enquêteur peuvent être plus représentatifs si son quota est attribué par la procédure impersonnelle de stratification que s'il doit utiliser son propre jugement (comme dans l'échantillonnage par quota).

La principale limite de l'échantillonnage aléatoire stratifié est que, pour en tirer le maximum d'avantages au cours d'une étude, le chercheur doit en savoir beaucoup sur le problème de la recherche et sur ses relations avec d'autres facteurs. Une telle connaissance n'est pas toujours accessible et l'attente est souvent si longue.

Il convient de rappeler que, du point de vue de la théorie de l'échantillonnage probabiliste, il est indifférent que la stratification soit introduite pendant la procédure d'échantillonnage ou lors de l'analyse des données, sauf dans la mesure où celle-ci permet de contrôler la taille du fichier. échantillon obtenu de chaque strate et ainsi augmenter l'efficacité du plan de sondage.

En d’autres termes, la procédure consistant à tirer un échantillon aléatoire simple puis à le diviser en strates équivaut à tracer un échantillon aléatoire stratifié en utilisant comme base de sondage dans chaque strate, la population de cette strate incluse dans l’échantillon simple donné. échantillon aléatoire.

Type # 7. Échantillonnage en grappes :

En règle générale, l'échantillonnage aléatoire simple et l'échantillonnage aléatoire stratifié entraînent des dépenses énormes lorsqu'il s'agit de populations nombreuses et dispersées sur le plan spatial ou géographique.

Dans les types d'échantillonnage ci-dessus, les éléments choisis dans l'échantillon peuvent être tellement dispersés que leur entretien peut entraîner de lourdes dépenses, une plus grande proportion de temps non productif (consacré au déplacement), une plus grande probabilité d'un manque d'uniformité entre les enquêteurs. interrogatoires, enregistrements et enfin, une lourde dépense de supervision du personnel de terrain.

Il existe également d'autres facteurs pratiques de cet échantillonnage. Par exemple, il peut être jugé moins acceptable et donc acceptable d’administrer un questionnaire à trois ou quatre départements d’une usine ou d’un bureau plutôt que de le gérer sur un échantillon provenant de tous les départements sur une base simple ou stratifiée aléatoire, car cette procédure peut être beaucoup plus perturbant des routines d'usine.

C'est pour certaines de ces raisons que les enquêtes par enquêtes à grande échelle utilisent rarement des échantillons aléatoires simples ou stratifiés; au lieu de cela, ils utilisent la méthode d'échantillonnage par grappes.

Dans l'échantillonnage en grappes, l'échantillonneur prélève d'abord les échantillons de la population, certains grands groupes, c.-à- d. Les " grappes ". Ces grappes peuvent être des quartiers, des ménages ou plusieurs unités géographiques ou sociales. L'échantillonnage des grappes de la population est effectué à l'aide de méthodes d'échantillonnage aléatoire simples ou stratifiées. À partir de ces grappes sélectionnées, les éléments constitutifs sont échantillonnés en recourant à des procédures garantissant le caractère aléatoire.

Supposons, par exemple, qu'un chercheur veuille mener une étude type sur les problèmes des étudiants de premier cycle des collèges du Maharashtra.

Il peut procéder comme suit:

(a) Tout d'abord, il dresse une liste de toutes les universités de l'État et sélectionne un échantillon d'universités sur une base «aléatoire».

(b) Pour chacune des universités de l'État inclus dans l'échantillon, il dresse une liste des collèges sous sa juridiction et prélève un échantillon de collèges sur une base «aléatoire».

(c) Pour chacun des collèges qui ont été inclus dans l'échantillon, il dresse une liste de tous les étudiants de premier cycle inscrits. Parmi ces élèves, il sélectionne un échantillon de la taille souhaitée sur une base «aléatoire» (simple ou stratifiée).

De cette manière, le chercheur obtient une probabilité ou un échantillon aléatoire d'éléments, plus ou moins concentré, géographiquement. De cette façon, il est capable d'éviter de lourdes dépenses qui auraient autrement été engagées s'il avait eu recours à un échantillonnage aléatoire simple ou stratifié, sans toutefois sacrifier les principes et les avantages de l'échantillonnage probabiliste.

De manière caractéristique, cette procédure d'échantillonnage passe par une série d'étapes. Il s’agit donc, dans un sens, d’un échantillonnage «à plusieurs degrés» et parfois connu sous ce nom. Cette procédure d'échantillonnage passe progressivement des unités d'échantillonnage plus inclusives aux unités moins inclusives dans lesquelles le chercheur arrive enfin aux éléments de la population qui constituent son échantillon souhaité.

Il convient de noter qu'avec l'échantillonnage en grappes, il n'est plus vrai que chaque combinaison du nombre souhaité d'éléments de la population a toutes les chances d'être sélectionnée comme échantillon de la population. Par conséquent, le type d'effets que nous avons constaté dans notre analyse d'échantillons aléatoires simples, à savoir la valeur de la population étant la valeur d'échantillon la plus probable, ne peut pas être vu ici.

Mais de tels effets se matérialisent de manière plus compliquée, bien que l'efficacité de l'échantillonnage soit naturellement limitée dans une certaine mesure. Il a été constaté que, sur une base individuelle, l'échantillonnage en grappes est beaucoup moins efficace pour obtenir des informations que l'échantillonnage aléatoire stratifié de même efficacité.

Relativement parlant, dans l’échantillonnage en grappes, la marge d’erreur est beaucoup plus grande. Toutefois, ce handicap est plus que contrebalancé par les économies associées, qui permettent l’échantillonnage d’un nombre suffisamment grand de cas pour un coût total inférieur.

Selon les caractéristiques spécifiques du plan d'échantillonnage correspondant aux objets de l'enquête, l'échantillonnage en grappes peut être plus ou moins efficace qu'un simple échantillonnage aléatoire. Les économies associées à l'échantillonnage par grappes font généralement pencher la balance en faveur de l'utilisation de l'échantillonnage en grappes dans les enquêtes à grande échelle, bien que comparé à l'échantillonnage aléatoire simple, il faut davantage de cas pour le même niveau de précision.

Type # 8. Échantillonnage multiphase:

Il est parfois pratique de limiter certaines questions relatives à des aspects spécifiques de l’étude à une fraction de l’échantillon, tandis que d’autres informations sont collectées à partir de l’ensemble de l’échantillon. Cette procédure est appelée "échantillonnage multiphase".

Les informations de base enregistrées sur l’ensemble de l’échantillon permettent de comparer certaines caractéristiques du sous-échantillon avec celles de l’ensemble de l’échantillon.

Un autre point qui mérite d'être mentionné est que l'échantillonnage en plusieurs phases facilite la stratification du sous-échantillon car les informations collectées à partir de l'échantillon de la première phase peuvent parfois être collectées avant le processus de sous-échantillonnage. On se souviendra que les études de panel comportent un échantillonnage multiphase.