Responsive image

Les distributions statistiques

Je veux classifier mes données

Qu'est ce qu'une distribution ?

Une distribution est une fonction qui fait associe une fréquence d'apparition à une classe de valeur. Cette fonction permet de résumé l'information contenue dans un ensemble de données.
Une distribution n'est pas un graphique. C'est une erreur répendue. Une distribution est souvent associé à un graphique mais n'en est pas un.
Une distribution est une fonction qui est liée avec un ensemble de données sous-jacentes.
Une distribution est une fonction qui nous dit quelle est la probabilité d'avoir une valeur donnée losque l'on fait un prélèvement aléatoire dans notre enesmble de donnée.
Responsive image

Exemples avec une variable discète et une variable continue

Exemple : Distribution des classes d'âges

Une enquête est réalisée auprès de 1000 individus hommes qui ont été interrogés au sujet de leur classe d'âge. Ces individus on été choisis au hasard sur l'avenue des Champs Elysée. Cette enquête donne le jeu de donnée suivant ci-dessous.

Responsive image

Vous avez ici un extrait des 21 premières valeurs. On remarquera tout de suite qu'il s'agit de variables discrètes. Par exemple : Une personne ayant 52 ans appartient à la classe d'âge 50. La variable classe d'âge est une variable discrète car il y a une rupture entre les différentes classes d'âge.

Maintenant je vous pose la question suivante :
"Quelle est la probabilité que si nous interrogions une nouvelle personne, sa classe d'âge soit 30 ?"

C'est grâce à notre connaissance de la distribution que nous pourront répondre à cette question.

Représentation de la distribution sous forme de tableau :

Responsive image

Ici on peut clairement observé l'association d'une fréquence à une classe de valeur.

Il est possible à partir de ce moment de déterminer une probabilité. Cette probbilité est calculé en faisant le rapport entre la fréquence et l'effectif total de la population.

Par exemple pour la classe d'âge 50, on ferale calcul : 272/1000=0.272. ce résulta est arrondi à 0.3 dans le tableau suivant:

Responsive image

A partir ce cette distribution il est possible de répondre à la question soulevée plus haut : "Quelle est la probabilité que si nous interrogions une nouvelle personne, sa classe d'âge soit 30 ?" La réponse sera 0.174, On pourra alors affirmé que nous avons environ 20% de chance que cette personne soit de la classe d'âge 30.

A partir de maintenant vous pouvez toucher du doigt la puissance des statistiques qui permet de présager d'un résultat avant même d'en d'avoir fait une expérience.

Grâce à ce tableau si vous deviez miser 10$ sur la classe d'âge de la prochaine personne interrogée vous miseriez sur la classe d'âge 50 car c'est elle qui a la probabilité d'occurence la plus grande.

Représentation de la distribution sous forme de graphique:

Responsive image

La représentation d'une distribution pour une variable discrète se représente sous de graphique en barres. Il est possible représenter la distribution de cette variable sous forme de barre car il n'y a qu'un nombre limité et fini de catégories.

Exemple : Distribution des poids

Le poids de 1000 individu est receuilli et donne le jeu de donnée suivant ci-dessous.

Responsive image

Vous avez ici un extrait des 21 premières valeurs. On remarquera tout de suite qu'il s'agit de variables continues.

Maintenant je vous pose la question suivante :
"Quelle est la probabilité que si nous interrogions une nouvelle personne, son poid soit égale à 68.1 kg?"

C'est grâce à notre connaissance de la distribution que nous pourront répondre à cette question.

Représentation de la distribution sous forme de tableau :

Responsive image

Ici on peut clairement observé l'association d'une fréquence à une classe de valeur.

Il est possible à partir de ce moment de déterminer une probabilité. Cette probbilité est calculé en faisant le rapport entre la fréquence et l'effectif total de la population.

Par exemple pour la classe d'âge 50, on ferale calcul : 272/1000=0.272. ce résulta est arrondi à 0.3 dans le tableau suivant:

Responsive image

A partir ce cette distribution il est possible de répondre à la question soulevée plus haut : "Quelle est la probabilité que si nous interrogions une nouvelle personne, sa classe d'âge soit 30 ?" La réponse sera 0.174, On pourra alors affirmé que nous avons environ 20% de chance que cette personne soit de la classe d'âge 30.

A partir de maintenant vous pouvez toucher du doigt la puissance des statistiques qui permet de présager d'un résultat avant même d'en d'avoir fait une expérience.

Grâce à ce tableau si vous deviez miser 10$ sur la classe d'âge de la prochaine personne interrogée vous miseriez sur la classe d'âge 50 car c'est elle qui a la probabilité d'occurence la plus grande.

Représentation de la distribution sous forme de graphique:

Responsive image

La représentation d'une distribution pour une variable discrète se présente sous la forme d'une ligne continue. Il n'est pas possible représenter la distribution de cette variable sous forme de barre car il y a un nombre infini de catégories.

Cette ligne s'appele la fonction de densité de probabilité.

Responsive image

Si l'on souhaite connaître la probabilité associé au poids de 60kg, on ne peux pas juste lire la valeur associée : Responsive imageEn effet il n'y a pas 19.5% de personnes qui ont exactement un poids de 60kg. La probabilité qu'une personne sélectionné au hasard fasse exactement 60kg est quasiment de 0.

Dans ce cas là, les probabilité sont représenté par les aires en dessous de la courbe. Dans le cas suivant l'air entre 59 et 61.


Responsive image

Classe et fréquence

Responsive image

Ensemble de données

Responsive image

A quoi cela peut-il servir ?

Par exemple, cela peut servir à déterminer quoi resemblerai une nouvelle valeur d'un individu prélevé dans une population.

I) Les lois de distribution de probabilités

Une distribution de probabilités est simplement, une énumération de tous les résultats possibles d'une expérience avec leurs probabilités respectives. Par exemple le résultat d'un lancé de dés est soit 1,2,3,4,5, ou 6. Ces chiffres correspondent aux résultats possibles. Pour chacun de ces chiffres on associera une probabilité.

La même logique peut être employée pour déterminer les probabilités relatives des résultats de 2 lancés de dés.

Pour réaliser cette étude il faut d'abord énumérer dans un tableau les résultats possibles :

Résultats Note de l'examen
2
1/36
3
2/36
4
3/36
5
4/36
6
5/36
7
6/36
8
5/36
9
4/36
10
3/36
11
2/36
12
1/36
Total
36/36=1

Dans le tableau ci-dessus tous les résultats possibles sont listés. On notera que la somme de toutes les probabilités est égale à 1.

Nous verrons ci-dessous l'application de plusieurs méthodes de distribution :

  • La distribution binomiale,
  • la distribution de poisson et
  • la distribution normale.

II) La distribution binomiale

La distribution binomiale décrit la distribution de probabilités lorsqu'il y a 2 résultats possibles à chaque essai. Le résultat d'un essai doit être indépendant des résultats des autres essais.

La loi binomiale s'applique donc quand il y un nombre défini de répétitions d'une même expérience dans les mêmes conditions.

Cas d'utilisation de la loi binomiale Exemple
Variables discrètes
1,2,3,4...
Deux résultats possibles
Nombre "pair "ou"impair"; "coté pile" ou "coté face" ; produit "bon" ou "défectueux"
Essais répétitif et dans les mêmes conditions
Les lancés de pièces de monnaie dans des conditions identiques.
Essais indépendants
Le résulat du premier lancé de pièces n'a pas d'incidence sur le second lancé.

La notion de combinaison doit être présentée avant d'aborder l'utilisation des probabilités binomiales.

Notation :

  • n correspond au nombre d'objet de l'ensemble
  • r correspond au nombre d'objet du sous ensemble choisi parmi les n objets.

Imaginons que nous ayons 4 jetons de quatres couleurs différentes: Vert, bleu, jaune et rouge.

On demande à une personne de piocher à l'aveugle deux jetons.
Combien de combinaisons ( de couples ) possible la personne pourra telle tirer ?

Interprétation de l'énoncé : Il y a 4 jetons dans l'ensemble donc n sera égale à 4. L'individu sélectionne 2 jetons parmis 4 donc r sera égale à 2. On cherche le nombre de combinaisons possibles qui sera calculé avec la formule ci-dessous.

Responsive image

Rappel le symbole"!" signifie factoriel et se calcule comme suit: n!=n*(n-1)(n-2)...

Le résultat de notre exemple donne:

Responsive image

Responsive image

Il y a donc 6 combinaisons possibles.

La formule de calcul du nombre de combinaisons est utilisée par la formule de la loi binomiale.

La loi binomiale a deux résultats possibles appellés "succès" et "échec". Le succès est le résultat pour lequel nous souhaitons déterminer la distribution de probabilité. Pour calculer la probabilité d'obtenir r succès en n essai il faut utiliser la formule suivante :

Responsive image

Notation :

  • n correspond au nombre d'objet de l'ensemble
  • r correspond au nombre d'objet du sous enemble choisi parmi les n objets
  • p est la probabilité de succès à un essai
  • q est la probabilité d'échec à un essai.
  • Probabilité d'obtenir r succès

Lors du même essai la somme de la probabilité de succès p et de la probabilité d'échec q est égale à 1

Exemple : Dans le service de contrôle d'entrée, un qualitaticien souhaite savoir quel risque il prend lors du contrôle des pièces d'un fournisseur "laqualitécameconnait". Le qualitaticien sait par expérience que ce fournisseur lui fournit 5% de pièces non-conformes et livre des lots d'une quantité de 400 pièces.
Le contrôle qualité effectue habituelement un contrôle par échantillonnage de 8 pièces sur les 400 livrées.

Quel est le risque que sur les 8 pièces prélevés qu'1 défaut soit détecté soit détecté alors que le lot présente 5% de pièces non-conformes ?

Responsive image

Ce qui intéressera le qualitaticien est la probabilité de détecté un défaut ou plus dans l'échantillon. Pour ce faire nous devons additionner les probabilité de détecter 1, 2, 3...8 défauts.

Résultats Note de l'examen
P(r=0) 66,34%
P(r=1) 28%
P(r=2) 5,15%
P(r=3) 0,54%
P(r=4) 0,04%
P(r=5) 0%
P(r=6) 0%
P(r=7) 0%
P(r=8) 0%
Total
100%

Avec ce type d'échantillonnage le contrôle d'entrée ne détectera de pièces non-conformes que dans 33% des cas.

27,93% 5,15% 0,54% 0,04%= 33%

Il y a donc seulement 33% de chances de détecter des non conformités avec cette taille de prélèvement.

Note : Il est possible d'arriver à ce résultat sans passer par le calcul. En effet il existe une table binomiale qui permet de trouver les résultats de façon rapide. Elle est disponible sur le lien suivant : Table de la loi binomiale .

 

III) La distribution de Poisson

La distribution de Poisson décrit la distribution de probabilités lorsque les événements étudiés ont lieux dans une fouchette de temps délimité ou dans un lieu défini.

 

Cas d'utilisation de la loi de Poisson
Exemple
Variables discrètes
1,2,3,4...
Nombre d'occurence d'un événement
Comptabilisation du nombre de fois que l'événement survient.
Espace ou temps défini.
Les lancés de pièces de monnaiesont réalisés dans des conditions identiques.

Notation :

  • x correspond au nombre d'occurence observé
  • μ correspond au nombre moyen d'occurence dans l'intervalle de temps ou dans l'espace considéré.
  • P(x) probabilité d'obervé x occurence de l'événement
  • e est une contsante , la base logarrithmique naturels(=2.71828)
  •  

    Responsive image

     

Exemple : Dans un village, un collégien assis sous le porche d'une maison compte le nombre voiture qui passent devant lui en 10 minutes. Il sait, suite à de nombreuses obsercations, que ce nombre est en moyenne de 25. Quelle est la probilité que ce collégien compte demain un nombre 30 voitures.

 

Responsive image

 

 

Note : Il est possible d'arriver à ce résultat sans passer par le calcul. En effet il existe une table de poisson qui permet de trouver les résultats de façon rapide. Elle est disponible sur le lien suivant : Table de la loi de poisson .

Dans un premier temps il faut repérer la colonne correspondant à la valeur de μ, i faut ensuite trouver la ligne correspondant à la valeur de x.

 

III) La distribution normal

A la différence de la loi de Poisson ou de la la loi binomiale qui étaient des distributions de probabilité discrète, la distribution normal est une distribution de probabilité continue. La variable utilisée est continue, c'est à dire qu'elle peut prendre un nombre indéfini de valeurs. La coube normale a la particularité d'être symétrique. Cette courbe a deux paramètres : μ et

A la différence des autres distributions, il faut considérer l'aire sous la courbe entre 2 valeurs, par exemple a=20 et b=25 qui seront placé en abscisse.

 

Responsive image

Courbe n°1

 

Pour déterminer la probabilité, il faut déterminer l'aire sous la coube. Pour ce faire nous utilisons une table d'aires. Ne pouvant pas construire une table pour chaque courbe, on utilise celle construite pour la coube normale centrée réduite dont on extrapolera les résultats pour chaque distribution normale étudiée.

Elle est disponible en suivant le lien : Table de la loi normale .

Cette table fonctionne en prenant comme point de repère la moyenne μ de la distribution. La table nous donne l'aire sous la courbe entre la moyenne et un nombre donné d'écart type à partir de la moyenne. Ce nombre d'écarts type est désigné sous la lettre Z et se calcule comme suit :

Responsive image

 

Z représente le nombre d'écart type entre une valeur x( ex: x=25) et la moyenne μ ( ex μ =20) en connaissant la valeur de σ ( σ=2).

 

  Responsive image

On sait grâce à ce calcul qu'il y a 2.5 σ entre 25 et 20. Si le signe de Z est positif cela signifie que l'on se situe à 2.5σ à droite de la moyenne.

Dans cet exemple, l'intervalle est égale à 5 unités. Cependant, l'aire sous la courbe ne dépend pas seulement de Z, il dépend aussi de la position de l'IT étudié. Comme le montrent les schémas ci-dessous, pour un même Z calculée, les aires sous la courbes sont différentes.

 

Responsive image

Courbe n°2

  • μ=20
  • σ=2
  • Limite inférieure = 26
  • Limite supérieure =28
  • Intervalle = 2

 

Responsive image

Courbe n°3

  • μ=20
  • σ=2
  • Limite inférieure = 24
  • Limite supérieure =26
  • Intervalle = 2

Comme on le remarque les courbes n°2 et n°3 ont les mêmes paramètres : L'intervalles est pour les deux courbes égales à 2 unité. Cependant l'aire sous la courbe est visiblement différente.

 

Si l'on considère l'aire total sous la courbe elle est égale à 1. La probabilité est directement associé à l'aire et est également égale à 1.

Responsive image

 

Pour déterminer les différentes probabilités il faudra utiliser la table de la loi normale. Dans cette table on retrouvera les valeurs de Z. Les Z avec une décimale sont listés dans la première colonne. Les centièmes sont listés sur la première ligne.

Reprenons le cas de la courbe n°3, l'aire sous la courbe est déterminé en retrouvant la valeur de Z=2.5. La probabilité associé est égale à 0.9938. La valeur de 0.9938 correspond à la probabilité associèe à toutes les valeurs inférieurs à 25. Pour obtenir la probabilité associé à l'intervalle de [20-25] il faut retrancher les probabilités associées à toute la partie gauche de la courbe soit 0.5. Ainsi la probilité est égale à 0.9938-0.5 = 0.498.

 

 

Restons en contact !






Ce site doit aussi progresser pour combler au mieux vos attentes, alors je suis à votre écoute si vous souhaitez me communiquer vos commentaires à l'adresse : commentprogresser@gmail.com.