Faire parler les nombres...

J'ai souhaité, dans ce dossier, montrer aux novices que l'apprentissage des statistiques peut être facile et passionnant.

Dans de nombreuses circonstances, j'ai pu rencontrer des décideurs pour qui l'apprentissage des techniques statistiques est une démarche longue et laborieuse. Aussi, ces personnes préfèrent-elles "se débrouiller sans".
A ces personnes je leurs propose dans cette page de découvrir les bases des techniques statistiques qui leur permettront d'appuyer leurs décisions au quotidien.

 

Définition

Le mot statistiques peut être défini comme la science qui

  • Collecte des données,
  • Classe,
  • Résume,
  • Interprète,
  • Explique les données.

 

Une population désigne une collection complète d'objet ou d'individu.

Un échantillon est un sous ensemble d'une population.

Un paramètre est un nombre qui décrit une des caractéristique de la population ( ex : moyenne, variance...)

Une statistique est nombre qui décrit une des caractéristiques d'un échantillon.

 

 

 

Etape 1 : Identifier les données

Lorsque les données sont recueillies, la première étape consiste à identifier et décrire les variables :

  • Variable qualitative : réponse textuelle. Exemple : "appartement", "maison", "studio" ou encore une réponse du type "oui / non"...
  • Variable quantitative : réponse chiffrée qui peut soit être :
    • variable discrète : Nombre entier relatif tel que le "nombre d'habitants", le "nombre de téléphone par maison"...
    • variable continue : Nombre réel. Par exemple ou pourra trouver le "poids", la "température", la "longueur d'un trajet"...

La carte d'identité peut prendre cette forme :

Désignation: Intitulé avec lequel sera désignée la variable.
exemple : note obtenue à l'examen
Type:

Nature de la variable
exemple : quantitative discrète

Etape 2 : Ranger les données

En ce qui concerne les valeurs quantitatives, la première chose à faire consiste à ranger les données.

Cela permet de tout de suite constater quelles sont les valeurs minimum et maximum. Le rangement des données permet aussi compter le nombre de valeurs et de déceler la répétition de valeurs particulières en parcourant le tableau.

Note de l'examen
1
4
2
7
3
9
4
9
5
9
6
9
7
11
8
15
9
16
10
19

Dés que le nombre de données augmente on se rend compte que le rangement des données devient insuffisant.

Etape 3 : Distribution des fréquences

Comme nous l'avons constaté ci-dessus, dés que le nombre de données augmente le seul rangement des données ne suffit plus. Il est nécessaire de recourir à d'autres méthodes pour résumer les informations.

Une de ces méthodes est de regrouper les valeurs proches. Nous pouvons prendre pour exemple les notes obtenues à un examen.

Il est facile de prendre les copies des élèves et d'en faire "des tas". Un premier tas pourrait être celui des copies ayant reçues une note de 0 à 4. Un deuxième pourra être celui des copies ayant reçues une note de 4 à 7... Chaque intervalle s'appel une classe.

Une fois que les tas sont formés il ne reste plus qu'à compter le nombre de copies dans chaque tas. C'est ce que l'on appelle les fréquences de classe.

La "Distribution des fréquences" consiste à regrouper les données dans des classes.

Pour réaliser le travail de distribution des fréquences, nous devons déterminer:

  • le nombre de classes : Habituellement le nombre de classe est d'environ 10 classes ± 5 classes.
  • la largeur des classes dépend de chaque cas de figure. Il est cependant possible d'utiliser la formule :
    Largeur = (Valeur max - Valeur min )/nombre de classe.
    Note : D'une façon générale, on utilisera des largeurs de classe identiques. Il n'y a cependant pas de règles. La largeur de classe et le nombre de classe peut être établi de façon empirique.

Le tableau ci dessous fourni un exemple de distribution :

  • Nombre de classe = 6
  • Largeur de classe = Variable :
    La première et la dernière classe on une largeur égale à 4, les autres classes ont une largeur de classe égale à 3.
Classe Fréquence
note de 0 à 4
0
note de 4 à 7
1
note de 7 à 10
5
note de 10 à 13
1
note de 13 à 16
1
note de 16 à 20
2

La fréquence est le nombre d'occurrence comptabilisé pour une classe donnée. En lisant le tableu ci-dessus on pourra annoncer que la classe "note de 7 à 10" a une fréquence égale à 5.

 

Etape 4 : Construire une représentation graphique

Les tableaux laisseront avantageusement la place aux graphiques lorsqu'il est nécessaire de présenter les données. Nous pourrons utiliser deux représentations différentes :

  • l'histogramme et

Histogramme

  • le polygone de fréquences.

Polygone

 

Le choix de l'une ou l'autre de ces représentations est propre à chaque contexte. L'histogramme permet de représenter clairement la fréquence pour chaque classe. Le polygone des fréquences sera plus approprié pour comparer deux distributions.

Etape 5 : Mesure de tendance centrale

 

Plusieurs paramètres donnent des indications sur la tendance centrale des observations :

  • La moyenne : Il s'agit du paramètre le plus connu et du plus utilisé. C'est le point d'équilibre des observations.
    La moyenne se calcule de la façon suivante :

Moyenne

 

emoyenne

  • La médiane, à la différence, de la moyenne n'est pas issue d'un calcul. Il s'agit de la valeur qui sépare les observations en 2 parties égales telles qu'il y ait autant d'observation au-dessus qu'au-dessous.
    La médiane sera avantageusement utilisée lorsque le nombre de valeurs est important.

Cas d'un nombre impair d'observation :

Q étant le numéro de la place de la valeur médiane une fois la série ordonnée.

 

Cas d'un nombre d'observation pair :

 

Lorsqu'il y a un nombre pair d'observation, il faut procéder au calcul de la médiane en faisant la moyenne des deux valeurs centrales.

 

Md=( Q^ème  observation+〖(Q+1)〗^ème  observation)/2

 

Md=(9+9)/2 =9

 

Avantage : La médiane a le grand avantage d'être peu sensible aux valeurs extrêmes.

 

  • Le mode est la valeur la plus fréquente constatée dans les observations.

Mode = 9 ( car la fréquence associée à "9" est égale à 5). C'est "le tas" le plus haut...

 

Etape 6 :Symétrie de la distribution

Si la distribution est symétriquement répartie la moyenne, la médiane et le mode ont des valeurs égales.

Distribution symétrique

distribution symetrique

 

Distribution avec dissymétrie positive

Distribution avec dissymétrie négative

 

L'asymétrie d'une distribution peut être indiquée par le coefficient d'asymétrie. Cet indicateur renseigne sur l'asymétrie de la distribution par rapport à sa moyenne. Une valeur nulle ou approximativement nulle de ce coefficient indique une symétrie de la distribution par rapport à la moyenne. Une valeur positive indique une queue de distribution étalée vers la droite (valeurs plus élevée que la moyenne). Une valeur négative indique l'inverse.

Ce coefficient se calcule comme suit :

 

coefficientasymetrie

 

Nous verrons par la suite comment se calcul l'écart-type α.

 

Etape 6 : Mesure de dispersion

L'exploitation, seule, des indicateurs de tendance centrale ne suffit pas à décrire convenablement les observations. Nous devrons aussi nous intéresser à la manière avec laquelle sont réparties les observations autour de la tendance centrale. C'est ce que l'on désigne par la dispersion.

Prenons l'exemple des résultats d'une classe d'université. Le directeur demande au professeur de mathématique de lui donner les résultats d'une de ses classes. Celui-ci annonce que les notes la classe sont en moyenne de 11.8. Ce qui est une moyenne tout à fait courante. Mais en y regardant de plus près le directeur aurai découvert que les 5 étudiants Lituanien arrivé en début d'année avec un un niveau en math exceptionnellement élevé avaient obtenu 5 notes de 19/20. Sans ces étudiants la moyenne n'aurai été que de 8.9 ce qui aurai immédiatement interpellé le directeur sur le faible niveau de la classe.

Par conséquent, les calculs de dispersion, nous permettent de nous intéresser à la représentativité de la moyenne. ( Est ce que la moyenne annoncée représente bien l'ensemble des données ?)

Plusieurs mesures de dispersion existent :

  • La première, la plus simple, est l'étendue. Elle se calcule par la différence entre la plus grande et la plus petite valeur.

 

  • La seconde est l'écart moyen. L'écart moyen se calcule en réalisant la différence de chaque valeur avec la moyenne.
    Le calcul se fera en déterminant l'écart absolu des observations par rapport à la moyenne.

EM

 

L'écart type est calculé en se basant sur les écarts autour de la moyenne. Contrairement à l'écart moyen l'écart type se calcule sans faire intervenir de valeurs absolues. Il est égale à :

 

 

Nous pouvons cependant décomposer le calcul grâce au tableau suivant:

 

  Note Report de la moyenne Ecart à la
moyenne
Ecart à la
moyenne élevé au carré
 
4
10,8
6,8
46,24
 
7
10,8
3,8
14,44
 
9
10,8
1,8
3,24
 
9
10,8
1,8
3,24
 
9
10,8
1,8
3,24
 
9
10,8
1,8
3,24
 
11
10,8
-0,2
0,04
 
15
10,8
-4,2
17,64
 
16
10,8
-5,2
27,04
 
19
10,8
-8,2
67,24
 
Moyenne
10,8
Nombre de valeurs
10
Somme des écarts
185,56
Moyenne des écarts
18,56
Racine de la variance
4,3

Pour résumer le calcul de l'écart type voici les étapes :

  1. Calcul de la moyenne arithmétique
  2. Calcul des différences avec la moyenne pour chacune des valeurs
  3. Calcul des écarts élevés au carré
  4. Calcul de la somme des écarts au carré.
  5. Calcul de la variance qui est égale à la moyenne des écarts au carré.
  6. Calcul de l'écart type en réalisant l'extraction de la racine carré de la variance.

Remarque : La variance représente bien la dispersion observée dans la série de donnée. Cependant elle a l'inconvénient de ne pas être dans la même unité que la série de donnée car les valeurs sont élevées au carré. C'est pour cette raison que lui sera préféré l'écart type pour représenter la dispersion.

 

Etape 7 : Exploitation de l'écart type

On observe que la fréquence des observations diminue à mesure que les valeurs s'éloignent de la moyenne. Dans le cas d'une distribution normale, la distribution prend la forme d'une courbe en cloche.

 

Sur le graphique vous pouvez voir une loi normale centrée sur le Zéro. L'unité en écart type permet d'appréhender la dispersion. Plus on s'éloigne de la valeur 0, plus la probabilité diminue.

La valeur de + 1σ représente la valeur en x du point d'inflexion de la courbe.


De ce graphique, on peut conclure que :

68.7% des valeurs sont comprises dans l'intervalle 0±1σ.

95.4% des valeurs sont comprises dans l'intervalle 0±2σ.

99.7% des valeurs sont comprises dans l'intervalle 0±3σ.

 

 

Etape 8 : Les intervalles semi-quartile

Pour représenter la dispersion nous pouvons utiliser l'étendue interquartile qui représente 50% des valeurs centrales de la distribution. Nous devons donc connaître:

  • La valeur min
  • La valeur du premier quartile
  • La valeur médiane ( ou second quartile)
  • La valeur du 3ème quartile
  • La valeur max

 

 

Pour trouver les valeurs de Q1 et Q3 on procédera de façon similaire à l'obtention de la médiane.

Cette représentation est auussi appelée "boîte à moustache" ou "Boxplot"

 

Etape 8 : Mesure de la dispersion relative

Il est possible de faire le rapport entre les paramètres de centrage et les paramètres de dispersion. Ce rapport est établi en calculant la dispersion relative. Elle répond au besoin de comparaison de plusieurs populations de natures différentes. (Comparer la longueur des carottes avec les notes des élèves...). Pour réaliser la comparaison, nous allons utiliser le coefficient de variation.

 

Le rôle du coefficient de variation est voisin de celui de l'écart type. Il permet aux spécialistes de juger de la pertinence de la moyenne, c'est coefficient est cependant plus pratique car dépourvu d'unité. Malheureusement il n'a pas de référence standard, un seuil au-delà duquel on dirait que la moyenne n'a pas de sens. Dans certains domaines de recherche un CV supérieur à 6 % condamne la moyenne alors que dans d'autres la pertinence de la moyenne sera rejetée pour un CD supérieur à 12 % par exemple.

 

Contactez le créateur du site

Les nombres sont omniprésents dans notre existence. Les bases de données sont de plus en plus nombreuses et le besoin en visibilité toujours plus grand. Pour donner un sens à ces données, il faut les recueillir, les classer; les synthétiser et les expliquer en les plaçant dans un contexte. Dans cette première partie nous avons vu comment les techniques de statistique répondent à ces problématiques.

 

J'espère que les informations contenues dans cette page vous ont été utiles. Merci de me faire parvenir vos remarques ou demandes de précision à l'adresse : commentprogresser@gmail.com.

>