Notions statistiques pour l’analyse de données d'enquêtes

    Échantillon et incertitude

    Bon nombre de données diffusées par l’Institut sont issues d’enquêtes statistiques. Pour bien comprendre ce que celles-ci disent sur la population, il faut connaître certaines notions statistiques.

    L’échantillon désigne ici l’ensemble des répondants obtenu lors qu’une enquête statistique. Pour avoir une idée des caractéristiques de la population, on utilise les données de l’échantillon pour calculer des estimations. Celles-ci peuvent être plus ou moins précises. La précision est liée à l’incertitude venant du fait que l’on n’observe qu’une partie de la population. Plus une donnée est précise, moins il y a d’incertitude.

    À partir des enquêtes statistiques, on veut également pouvoir dire si certaines sous-populations présentent des caractéristiques différentes ou encore s’il y a eu des changements des caractéristiques de la population au fil du temps. Il y a là aussi de l’incertitude : on se base sur ce qu’on observe dans l’échantillon pour parler de ce qui se passe dans la population. Les principes de l’inférence appliqués dans les tests d’hypothèse servent à vérifier la « signification statistique » d’une réponse à de telles questions. Les prochaines sections donnent plus de détails sur ces différents concepts.

    Estimation, pondération et précision

    Les résultats d’une enquête statistique sont des estimations de caractéristiques inconnues de la population étudiée. Quand on présente les résultats d’une enquête, on indique clairement que les estimations sont basées sur un échantillon de répondants : dans les publications de l’Institut on utilise des expressions montrant qu’il ne s’agit pas de valeurs exactes, par exemple « près de » ou « environ ».

    L’estimation

    L’estimation est une étape importante, où l’on procède à l’approximation des paramètres inconnus de la population au moyen d’une partie de la population (l’échantillon). La composition de l’échantillon n’est en général pas identique à celle de la population. C’est pourquoi les estimations sont pondérées.

    La pondération

    La pondération est essentielle pour produire des résultats à partir d’une enquête statistique. Elle permet de faire des inférences adéquates à la population visée, même si celle-ci n’a pas été sondée dans sa totalité. Elle consiste à attribuer à chaque unité répondante un poids statistique correspondant au nombre d’unités qu’elle représente au sein de la population visée. Ce poids doit tenir compte, entre autres, de la probabilité de sélection de l’unité, prédéterminée par le plan d’échantillonnage, et de la non-réponse à l’enquête.

    La précision

    La précision, au sens statistique, est une mesure de l’incertitude dans l’estimation obtenue à partir de l’échantillon : l’estimation déduite de l’échantillon diffère habituellement de la vraie valeur parce qu’une seule partie de la population est observée. La précision d’une information statistique est en fait sa conformité à la réalité qu’elle doit décrire.

    L’erreur-type

    L’erreur-type est la plus simple des mesures de précision d’une estimation; elle correspond à la racine carrée de la variance de l’estimation. Plus l’erreur-type est près de 0, plus l’estimation est précise.

    Le coefficient de variation

    Le coefficient de variation (CV) est une mesure relative de la précision d’une estimation. Elle est égale à l’erreur-type divisée par l’estimation elle-même. On l’exprime en général en pourcentage. Plus le coefficient de variation est petit, plus l’estimation est précise.

    L’indicateur de qualité

    Un indicateur de qualité des estimations basé sur l’une ou l’autre des mesures de précision disponibles accompagne souvent les données diffusées par l’Institut. Par exemple, dans certaines diffusions, les estimations dont le coefficient de variation est supérieur à 25 % sont marquées d’un double astérisque (**) pour signaler leur faible précision et indiquer qu’elles doivent être utilisées avec circonspection.

    L’intervalle de confiance

    La longueur de l’intervalle de confiance nous informe également sur la précision d’une estimation. L’intervalle de confiance illustre en quelque sorte l’étendue des valeurs que peut prendre l’estimation. Par exemple, s’il est construit avec un niveau de confiance de 95 % on l’interprète de la façon suivante : si l’échantillonnage est reproduit un très grand nombre de fois, chaque échantillon produira son propre intervalle de confiance, alors 95 % des intervalles contiendraient la vraie valeur du paramètre de la population étudiée.

    Signification statistique et tests d’hypothèses

    La signification statistique témoigne de la probabilité qu’un résultat soit réel ou simplement dû au hasard. Elle est établie à partir d’un test d’hypothèse, choisi pour répondre à une question particulière d’analyse. On dit d’un résultat qu’il est statistiquement significatif (ou simplement significatif) si un test d’hypothèse indique qu’il est invraisemblable qu’il soit uniquement le fruit du hasard.

    Par exemple, pour vérifier si les Québécois et les Québécoises d’une population visée ont des habitudes de vie semblables, on réalise des tests de comparaison de proportions. Il s’agit alors de répondre à des questions comme la suivante : la proportion de fumeurs est-elle la même chez les hommes et chez les femmes de la population visée? L’échantillon de l’enquête permet de calculer les estimations de la proportion de fumeurs chez les hommes et chez les femmes; ces estimations sont ensuite utilisées pour faire un test d’hypothèse statistique et émettre une conclusion portant sur la population. On rattache à cette conclusion un risque d'être erronée : on se base sur ce qu’on observe dans l’échantillon pour dire ce qui se passe dans la population.

    Le seuil de signification

    Le seuil de signification d’un test est fixé a priori, et correspond au risque de tirer une mauvaise conclusion. Dans l’exemple présenté, si on fixe le seuil de signification du test à 5 %, on choisit de limiter à 5 % le risque de déclarer qu’il y a une différence entre les proportions de fumeurs chez les hommes et chez les femmes, alors qu’elles sont semblables dans la population. En pratique, on veut que ce risque soit le plus faible possible. Le plus souvent, dans les publications de l’Institut, le seuil des tests d’hypothèse est fixé à 5 % ou à 1 %.

    En général, dans le but de faire ressortir les principaux résultats d’une enquête, seules les différences significatives au seuil théorique fixé sont mentionnées dans les documents d’analyse. Par exemple, il arrive que deux proportions dont les estimations semblent différentes ne le soient pas d’un point de vue statistique. Lorsqu’on décide de mentionner un tel résultat, on dit alors qu’il n’y a pas de différence statistiquement significative, ou que l’enquête ne permet pas de détecter de différence.

    Les données d’enquêtes permettent de révéler des associations ou des corrélations entre les caractéristiques étudiées. En général, elles ne peuvent pas servir à établir de lien de cause à effet.

    Protection des renseignements personnels et données confidentielles

    L’Institut de la statistique du Québec a l’obligation légale d’assurer la protection des renseignements qu’il recueille ou qui lui sont confiés. Les données qu’il publie sont traitées en conséquence : par exemple, certaines données sont regroupées ou simplement supprimées.

    Une donnée confidentielle est une donnée qui ne peut pas être diffusée afin d’assurer la protection de renseignements personnels.

    Évaluation de page
    L'information sur cette page vous a-t-elle été utile?