Taille de l'échantillon: problème et mathématiques

Après avoir lu cet article, vous en apprendrez davantage sur le problème et les mathématiques de la taille de l’échantillon.

Le problème de la taille de l'échantillon:

Nous allons maintenant aborder l’un des problèmes les plus délicats en matière d’échantillonnage, à savoir le problème de la taille de l’échantillon. "Quelle devrait être la taille adéquate de l'échantillon par rapport à la taille de la population?" "Quelle doit être la taille d'un échantillon?" Les questions des étudiants de recherche sont-elles fréquentes? On peut donner une réponse décisive à cette question.

En effet, la question de la taille ne peut être résolue que lorsque nous échantillonnons des éléments pour la population de manière à ce que chaque élément ait la même chance d’être inclus dans l’échantillon, c’est-à-dire lorsque nous adoptons le plan de sondage à probabilité.

Seul le plan de probabilité permet de formuler des plans d'échantillonnage représentatifs. Par conséquent, rend possible la formulation de plans d'échantillonnage représentatifs.

Par conséquent, la question «quelle doit être la taille de l'échantillon pour être représentatif de la population d'une taille déterminée?» Présuppose la procédure d'échantillonnage probabiliste. À défaut de cette procédure, la représentativité de l'échantillon, quelle que soit sa taille, ne peut être qu'une question d'espoir et de conjecture.

Les idées fausses sur la taille de l’échantillon sont généralement que la taille de l’univers à partir de laquelle l’échantillon est tiré détermine le nombre de cas nécessaires pour obtenir un échantillon adéquat ou représentatif de cet univers.

Nous ferons bien de noter tout de suite que l’accent doit être mis non pas sur le nombre de cas dans l’univers mais sur leur nombre dans l’échantillon.

Les mathématiques de la taille de l'échantillon:

La question pratique de base «Comment déterminer la taille de l’échantillon qui permettra d’obtenir le degré de précision souhaité, comme le stipule le chercheur pour une étude donnée?». Le problème d’échantillonnage est bien entendu le même dans toutes les études: prédire quelque chose sur la population sur la base de la connaissance de quelque chose sur l'échantillon.

Le chercheur doit savoir quel type de statistiques sur l'échantillon servira l'objectif, par exemple les pourcentages, les moyennes, l'écart type, etc., pour une telle estimation. Cela est important car différents types de statistiques sont utiles en fonction des degrés de précision souhaités dans les déclarations d'échantillon, qui sont à leur tour fournis par différentes tailles d'échantillon.

Les moyennes et les pourcentages sont les statistiques les plus couramment souhaitées. Nous allons donc traiter spécifiquement de la question de la taille des échantillons correspondant aux degrés de précision souhaités en ce qui concerne les moyennes et les pourcentages.

Comme l’échantillon prélevé par le chercheur n’est que l’un des nombreux échantillons de l’univers qu’il aurait pu choisir, il a besoin de savoir dans quelle mesure il peut compter sur cet échantillon en tant que représentant de «l’univers» sur lequel il se base. veut savoir quelque chose ou en référence à quoi il souhaite généraliser.

Il doit connaître la taille de l'échantillon pour lui donner un niveau de précision satisfaisant. Ce calcul est possible par le recours aux mathématiques puisque dans un échantillonnage aléatoire (plan d'échantillonnage probabiliste) où chaque élément de l'univers a une probabilité d'inclusion spécifiable dans l'échantillon, la précision de la prédiction ou de l'estimation est liée à la racine carrée du nombre d'éléments. dans l'échantillon.

Avant de procéder au calcul de la taille requise de l'échantillon pour une étude donnée, il est nécessaire, en pratique, d'obtenir des informations préliminaires sur la population ou l'univers.

Si le chercheur a l’intention d’utiliser l’échantillon pour estimer la mesure moyenne d’une caractéristique donnée dans l’univers, il doit disposer d’une estimation préliminaire de l’écart type (dispersion) de la distribution des valeurs des éléments de l’univers en ce qui concerne à la caractéristique donnée.

Le chercheur qui connaît l’étendue des valeurs (l’étendue) par rapport à une caractéristique particulière de l’univers peut obtenir une estimation préliminaire de l’écart type en divisant cet intervalle par 6, l’écart type de l’univers (fini) pouvant à toutes fins pratiques, être considéré comme représentant environ 1/6 de la plage complète de variation.

En d'autres termes, la plage de dispersion d'une distribution peut être considérée comme comprenant 6 unités d'écart type. Les informations préliminaires sur l’univers peuvent être obtenues au moyen d’une étude pilote, des résultats d’enquêtes précédentes, de rapports publiés par les bureaux de statistique, du calcul des experts sur le terrain, etc.

Avant de procéder au calcul de la taille de l’échantillon, le chercheur doit déterminer le niveau de précision attendu des estimations. Cette attente repose essentiellement sur le but de l’étude.

En d'autres termes, le chercheur doit décider:

(a) combien d'erreur dans l'estimation, à déduire de l'échantillon (par rapport à la valeur réelle, c'est-à-dire la valeur de "l'univers") peut être tolérée (appelée marge d'erreur ou limite de précision) et

(b) Avec quelle assurance peut-on dire que l'estimation tombera dans cette marge d'erreur (appelée niveau de confiance ou probabilité).

Il conviendra toutefois de les examiner plus en détail actuellement:

a) Marge d'erreur ou limite de précision:

La question fondamentale est la suivante: «Quel est le pourcentage ou la moyenne à obtenir de l’étude de l’échantillon susceptible de s’écarter de la moyenne réelle (de la population) et pouvant encore être tolérée? Le chercheur peut tolérer une erreur de 5% ou une précision maximale de 2%.

Tout dépend de la précision ou de l'exactitude avec laquelle il souhaite connaître certains faits. Supposons que le chercheur veuille savoir à l'avance lequel des deux candidats au scrutin va remporter le siège. Si le vote est serré, le chercheur ne peut tolérer qu'une erreur plus petite s'il veut être pratiquement certain.

Il peut, par exemple, définir l’erreur autorisée à moins de 2%. D'autre part, si l'élection semble être unilatérale et très biaisée en faveur d'un candidat particulier, le chercheur peut être en mesure de prédire les résultats même avec une erreur beaucoup plus grande dans l'estimation.

Si l'enquête par sondage révélait que 60% des votes iraient en faveur d'un candidat, une erreur aussi élevée que 9% pourrait être tolérée. Dans ce cas, même si le sondage avait tiré l'échantillon le plus malheureux s'écartant de 9% de la valeur réelle, la valeur réelle serait toujours de 51%, soit 1% au-dessus du seuil critique de 50%.

Ainsi, la valeur estimée de 60% et la valeur réelle de 51% seraient supérieures au point critique (c.-à-d. 50%) et la prévision serait fiable.

b) Probabilité ou niveau de confiance:

Outre la limite de précision, le chercheur doit également décider, en référence à son étude, du degré de confiance qu’il souhaiterait accorder aux estimations de l’échantillon, se situant aussi près de la vraie estimation que dans les limites de tolérance ou de précision définies par lui pour l'étude.

Dans certaines situations, il peut vouloir être extrêmement sûr que ses estimations (basées sur l'échantillon) se situeront à moins de 51% de la valeur réelle, alors que dans certaines autres situations, il pourra se contenter d'un degré d'assurance moindre.

Dans la recherche en sciences sociales, deux degrés de probabilité ou de confiance sont très connus et souvent utilisés.

L’un d’eux est le niveau de probabilité 0, 95, c’est-à-dire qu’il y aura 95 chances sur 100 que l’estimation de l’échantillon ne dépasse pas les limites de tolérance ou la marge d’erreur, et le second niveau est le niveau de probabilité 0, 99, c’est-à-dire est probable que, sur 99 chances sur 100, l'estimation de l'échantillon ne dépasse pas la marge d'erreur recherchée.

Le niveau de confiance peut même être fixé à 0, 999, c'est-à-dire que l'estimation de l'échantillon ne s'écarterait pas de la valeur réelle (de l'univers) au-delà des limites de la tolérance sur 999 chances sur 1 000. À certaines fins, le chercheur peut viser bas et fixez le niveau de probabilité à 0, 67 (soit 2 sur 3).

Les chances qu’un échantillon particulier prélevé pour une étude aboutisse à une estimation de l’univers se situant dans la marge d’erreur dépend de la variation entre les échantillons pouvant être tirés de l’univers. Si les valeurs obtenues des échantillons tendent à s'écarter considérablement de la valeur réelle, les chances qu'une valeur donnée de l'échantillon reste dans les limites d'erreur permises sont faibles.

L'erreur type est la mesure qui nous indique quelles sont les chances pour un échantillon de rester dans les limites admissibles. C'est une mesure de la variation dans l'estimation d'échantillonnage à laquelle on pourrait s'attendre dans un échantillonnage aléatoire. Les échantillons aléatoires ont tendance à suivre les lois de la probabilité et les estimations d'échantillons ont tendance à se regrouper autour de la valeur réelle de l'univers.

Ces estimations peuvent être représentées par une courbe en forme de cloche ou normale. Le point médian de cette courbe représente la valeur vraie (de l'univers) et la variation ou l'écart maximum d'une estimation aléatoire de l'échantillon à partir de cette valeur vraie est environ trois fois l'erreur standard.

L'erreur type correspond donc à environ 1/6 de toute la plage de variation de l'échantillonnage aléatoire. Cependant, à toutes fins pratiques, l’erreur type correspond au 1/4 de la plage de variation, car les variations extrêmes se produisent très rarement.

Les tableaux de probabilité montrent que 95 sur 100 échantillons estimés peuvent se situer dans la limite des erreurs types +2 et -2. Cela signifie que si nous avons fixé notre niveau de confiance ou notre probabilité à 0, 95, notre problème sera de tirer un échantillon aléatoire avec une erreur type représentant environ la moitié (la moitié) de notre marge d'erreur.

Pour un niveau de probabilité plus élevé, nous devrions tirer un échantillon avec une erreur type, c'est-à-dire une fraction encore plus petite de la marge d'erreur.

Il convient de noter que l’erreur type diminue (précision plus grande) à mesure que les échantillons grossissent. Pour doubler la précision, la taille de l'échantillon doit être multipliée par 4, c'est-à-dire multipliée par quatre. pour tripler, la taille de l'échantillon doit être multipliée par 9; pour le quadrupler, par 16 et ainsi de suite.

Cela signifie seulement que la précision augmente en tant que racine carrée du nombre de cas dans l'échantillon. Les statisticiens ont préparé des tableaux indiquant la probabilité que les estimations de l’échantillon se situent dans les diverses limites de l’erreur type.

Ces limites sont généralement indiquées comme + (plus) et - (moins). Ces tableaux montrent aisément, par exemple, que 95% des estimations de l’échantillon aléatoire se situent dans la limite des erreurs types +1, 96 et -1, 96, environ 68% des estimations relèvent des limites de l’erreur standard + 1 et -1 et 99% des erreurs types. les estimations sont comprises entre +2, 57 et -2, 57 erreurs-types, etc.

En tenant pleinement compte de (1) la marge d'erreur et (2) du niveau de probabilité ou de confiance, le chercheur peut procéder au calcul de la taille d'échantillon souhaitée. Mildred Parten a donné la formule suivante pour calculer la taille de l’échantillon, lorsque la statistique à estimer est le pourcentage. Il s’agit évidemment d’une variante transposée d’une formule d’erreur type.

Taille de l'échantillon = PC (100 PC) Z 2 / T 2

Dans la formule ci-dessus, PC signifie l'estimation préliminaire du pourcentage (de l'univers).

Z signifie le nombre d'unités d'erreur type qui sont trouvées (à partir du tableau de probabilités normales) pour correspondre au niveau de probabilité requis.

T signifie la marge d'erreur pouvant être tolérée (5% ou 2%).

Parten a donné la formule suivante pour calculer la taille de l'échantillon afin de prédire ou d'estimer la valeur moyenne de l'univers par rapport à une caractéristique spécifiée avec un certain niveau de confiance et visant une marge ou une erreur ou une limite de tolérance données.

Taille de l'échantillon = (δ + Z / T) 2

Où 8 représente l'estimation préliminaire de l'écart type de l'univers.

Z représente le nombre d'unités d'erreur type correspondant au niveau de probabilité ou de confiance requis.

Prenons un exemple concret et calculons la taille de l'échantillon. Supposons que nous souhaitions estimer le revenu annuel moyen des familles habitant dans une localité de la "classe moyenne" d'une ville.

Disons que nous avons fixé notre marge d'erreur à Rs.100 / -, c'est-à-dire que nous tolérerons l'estimation de l'échantillon à plus ou moins 100 de la moyenne réelle de la population en ce qui concerne le revenu. Supposons que nous ayons défini le niveau de probabilité ou de confiance à 0, 95.

Supposons également que, d'après une enquête menée il y a quelques années, nous estimons que l'écart-type relatif au revenu annuel de la population (localité) est de 500 Rs / -. La valeur de Z, c’est-à-dire que les unités d’erreur type correspondant à la probabilité de 0, 95 est de 1, 96.

En substituant ces valeurs à la formule ci-dessus, nous avons

Taille de simple = (500 × 1, 96 / 100) 2

= (9, 8) 2

= 95

Cela signifie qu’un échantillon aléatoire de 95 cas (les familles, qui sont les unités de l’échantillon) devrait nous donner une estimation de la moyenne de l’univers donné dans la marge d’erreur définie et au niveau de confiance ou de probabilité souhaité, respectivement. de Rs. 100 / - et 0, 95.

Si nous resserrons la marge d'erreur et la fixons à Rs. 50 / -, le nombre d'observations dans l'échantillon, c'est-à-dire que la taille requise de l'échantillon sera quatre fois plus grande (380) que la taille requise pour la marge d'erreur antérieure (Rs. 100 / -).

Si une autre localité se caractérise par une plus grande homogénéité en ce qui concerne le revenu et suppose donc que l'écart type en termes de revenu ne soit que de 100, la taille de l'échantillon pour la marge d'erreur ci-dessus sera beaucoup plus faible.

En d'autres termes, l'utilisation de la formule illustre bien la leçon suivante: plus l'homogénéité est réduite, plus l'échantillon requis est important et plus la précision recherchée est grande, plus la taille de l'échantillon requise est grande.

L'utilisation répétée de termes tels que la marge d'erreur et le niveau de confiance, ainsi que d'autres expressions numériques des probabilités et de la taille des échantillons, peut avoir tendance à donner l'impression qu'une taille d'échantillon calculée à l'aide d'une formule garantira la précision souhaitée.

Cependant, il convient de rappeler que les relations indiquées dans les tableaux statistiques de probabilité représentent des attentes normales dans un échantillonnage aléatoire idéal. Mais dans la mesure où l’échantillonnage réel est rarement idéal, les relations exprimées dans les tableaux ne peuvent pas durer.

La difficulté générale et la rareté de l’échantillonnage idéal devraient naturellement rendre sceptique des résultats qui correspondent exactement aux attentes.

Cela ne signifie toutefois pas que le chercheur ne doit pas utiliser ou préférer la taille exacte de l'échantillon calculée à l'aide de la formule de probabilité. En fait, c’est précisément ce qu’il devrait faire car c’est son meilleur pari. Il ne devrait toutefois pas insister sur cette taille exacte si des considérations pratiques le rendent inopérant.

Le "test de stabilité" est une approche sensiblement différente du problème de la détermination de la taille d'échantillon souhaitée. Cela consiste à collecter des données pour des sous-échantillons relativement petits et à conserver un enregistrement de la distribution des déclarations.

Lorsque, après un point, l’ajout de plus de sous-échantillons ne modifie pas les résultats de manière significative, le chercheur peut supposer que l’échantillon total prélevé jusqu’à présent est devenu suffisant, en termes de taille. Mais cette procédure peut fort bien être considérée comme une perte de temps, car il s’agit en réalité d’un chercheur qui participe à une série d’enquêtes distinctes étalées sur une période de temps considérable.

On a fait valoir que cette procédure n’était pas économique dans la mesure où il fallait collecter plus de programmes qu’il n’était réellement nécessaire, étant donné que la diminution progressive jusqu’au point de stabilité approximative ne peut être localisée avec certitude que si la courbe a maintenu son niveau pendant un certain temps.

Mais cela ne semble pas être une limitation sérieuse par rapport à la pratique conservatrice de nombreuses études réputées qui collectent plus que le nombre nécessaire / minimum d'éléments comme échantillon.

Le principal avantage de ce type d’essai de stabilité est qu’au lieu de dépendre de calculs fondés sur des informations préliminaires, il suffit simplement d’augmenter l’unité globale de la taille de l’échantillon, ce qui est jugé suffisant. La vérification empirique consistant à surveiller les rendements et à s’arrêter quand ils se stabilisent semble simple et convaincante.

Le principal danger de cette procédure réside dans le fait que les sous-échantillons successifs collectés ne risquent pas de se répandre dans l'univers. Les résultats peuvent se stabiliser même s'ils ne représentent pas la population.

En fait, moins le sous-échantillon est représentatif, plus l'ajout de plusieurs cas est susceptible de donner le même résultat et de donner l'apparence d'une stabilisation. À moins que le sous-échantillon ne soit une coupe transversale de l'univers, il n'y aura pas d'échantillon hypersensible sur lequel observer la stabilisation imminente.

L'exigence de base de cette procédure est qu'un échantillon représentatif croissant soit disponible pour l'observation. Les dépenses et la difficulté de collecter des sous-échantillons successifs répartis sur l’univers sont les principales raisons pour lesquelles cela n’est pas susceptible d’être représentatif.

Le test de stabilité empirique peut toutefois s'avérer très efficace lorsque les sous-échantillons sont correctement prélevés et collectés. La méthode est la plus appropriée pour les enquêtes par interview couvrant des zones ou des communautés relativement petites, telles qu'une ville ou une ville, car il n'est donc pas difficile ni coûteux de faire de chaque sous-échantillon un échantillon aléatoire de la population.

Une forme plus raffinée de contrôle empirique par rapport au test de stabilité est un développement relativement récent appelé analyse séquentielle. La procédure générale utilisée ici consiste à continuer à ajouter à l'échantillon tout en continuant à tester la signification de l'échantillon jusqu'à ce que soit atteint l'échantillon minimum qui fournira le niveau de signification requis.