Skip to content
Sur cette page

Définition des classes

Maintenant que l'on sait ce que sont les classes, et la découpe en intervalles, voyons comment les définir à partir des observations réalisées sur un échantillon, pour une variable quantitative continue donnée.

On va d'abord déterminer le nombre de classes à définir, ensuite calculer la longueur qu'elles doivent avoir et enfin définir leurs intervalles.

Nombre de classes

La première étape consiste à déterminer combien de classes doivent être définies. Il n'y a pas une seule et unique approche pour répondre à cette question. Par contre, on va pouvoir s'appuyer sur deux formules différentes qui vont nous donner une indication sur le nombre de classes qu'il faudrait avoir, sur base de la taille de l'échantillon.

Règle de Sturges

La première règle que l'on peut utiliser pour déterminer le nombre de classes qu'il faut définir pour un échantillon est la règle de Sturges. On peut obtenir une approximation du nombre de classes à l'aide d'une version simplifiée de la règle.

Définition

La règle de Sturges permet de déterminer le nombre de classes à définir pour un échantillon de taille :

Une approximation de la règle de Sturges, plus facile à utiliser avec les calculatrices simples qui ne possèdent pas de touche pour le logarithme en base 2, mais bien une pour celui en base 10, est :

Le nombre de classes devant être un nombre entier, on arrondit généralement le résultat obtenu au nombre entier le plus proche.

Exemple

Si l'on revient à notre exemple précédent, pour lequel on avait un échantillon avec individus, on devrait définir :

Règle de Yule

Une autre règle pour déterminer le nombre de classes pour un échantillon est la règle de Yule. Cette règle, qui utilise une racine en base 4, est plus difficilement calculable sur une calculatrice simple.

Définition

La règle de Yule permet de déterminer le nombre de classes à définir pour un échantillon de taille :

Les deux règles que l'on vient de voir produisent généralement des résultats plutôt proches, et du coup identiques après arrondi. Il n'y a pas vraiment de règle à privilégier entre les deux présentées. L'utilisation de l'une ou de l'autre dépendra des possibilités de calcul à disposition.

Exemple

Si l'on revient à notre exemple précédent, pour lequel on avait un échantillon avec individus, on devrait définir :

Étendue et longueur

Une fois le nombre de classes connu, on va devoir déterminer la longueur des classes. Dans les découpes que l'on étudie dans ce cours, on part du principe que toutes les classes ont la même longueur.

Étendue de l'échantillon

La première information dont on a besoin est l'étendue de l'échantillon, à savoir la différence entre la plus grande et la plus petite observation faite sur les individus de l'échantillon, pour la variable sur base de laquelle on souhaite effectuer la découpe en classes.

Définition

L'étendue d'un échantillon, notée , pour la variable est la différence entre la plus grande observation et la plus petite réalisées pour la variable sur les individus de l'échantillon :

L'étendue nous donne donc la « longueur » totale qu'il faut découper en intervalles. Intuitivement, l'étendue correspond simplement à la distance qui sépare la valeur de début du premier intervalle et la valeur de fin du dernier intervalle .

Exemple

Si l'on revient à notre exemple précédent, on obtient une étendue de :

Visuellement, on peut représenter ce que l'on sait déjà comme suit :

Longueur des classes

Une fois l'étendue de l'échantillon connue, on va chercher la longueur des classes. Comme rappelé plus haut dans ce chapitre, on considère ici des découpes en classes ayant toutes la même longueur.

Définition

La longueur des classes, notée , pour un échantillon d'étendue découpé en classes, vaut :

Intuitivement, il suffit de diviser l'étendue de l'échantillon par le nombre de classes pour obtenir la longueur de ces dernières.

Exemple

Si l'on revient à notre exemple précédent, on trouve que l'on doit définir des classes avec une longueur de :

Intervalles des classes

Enfin, une fois la longueur des classes connue, on va pouvoir réaliser la découpe en classes en définissant les intervalles qui sont couverts par chaque classe. On doit donc définir classes et, pour chacune, déterminer les valeurs entre lesquelles elle s'étend.

Définition

La e classe se note et l'intervalle correspondant se note :

La e classe va contenir tous les individus dont les observations associées ont une valeur comprise entre (inclus) et (exclu). Comme on le verra dans l'exemple plus loin, cette règle est adaptée pour la dernière classe pour qui la fin est également incluse.

Concrètement, pour définir les classes, on démarre avec la plus petite observation de l'échantillon pour obtenir le début de l'intervalle de la première classe et on lui ajoute la longueur des classes pour obtenir sa fin. La première classe se définit donc par l'intervalle suivant :

Ensuite, l'intervalle de la deuxième classe débute là où celui de la classe précédente se termine, et ainsi de suite. La deuxième classe se définit en conséquence par l'intervalle suivant :

Notez que la dernière classe possède comme particularité que l'intervalle est fermé des deux côtés, la fin devant être incluse.

Définition

Étant donné une longueur de classe de et la plus petite observation de l'échantillon , la e classe se note :

Notez que puisque la fin du dernier intervalle correspond à la plus grande observation de l'échantillon.

Exemple

Revenons à l'exemple d'étude statistique sur la taille des Belges. Pour rappel, la plus petite observation est et la longueur des classes est . La première classe se définit par l'intervalle :

Pour rappel, l'échantillon devait être découpé en classes. Les intervalles des quatre classes suivantes sont :

On voit bien que la fin du dernier intervalle est incluse.

Visuellement, on peut représenter les échantillons de notre exemple ainsi que la découpe en classes comme suit :

Propulsé par AEI Consulting.