Responsive image

Les distributions statistiques

"Je veux classifier mes données"

Mise à jour le 7 octobre 2018

Avant de commencer

Si vous êtes novice en statistique ou si vous voulez parfaire vos connaissances, vous trouverez sur ce site un programme complet vous permettant de vous approprier les notions fondamentales en statistique en suivants les liens suivant classés dans l'ordre logique d'apprentissage :

  1. Vision d'ensemble des statistiques
  2. Les variables
  3. Les tableaux
  4. Les graphiques
  5. Paramètres statistiques
  6. Distribution statistiques
  7. Distribution normale
  8. Echantillonnage
  9. Demarche

Qu'est ce qu'une distribution ?

Une distribution est une fonction qui fait associe une fréquence d'apparition à une classe de valeur. Cette fonction permet de résumé l'information contenue dans un ensemble de données.
Une distribution n'est pas un graphique. Cette erreur est très répendue. Une distribution est souvent associé à un graphique mais n'en est pas un.
Une distribution est une fonction qui est liée avec un ensemble de données sous-jacentes.
Une distribution est une fonction qui nous dit quelle est la probabilité d'avoir une valeur donnée losque l'on fait un prélèvement aléatoire dans notre enesmble de donnée.
Responsive image

Distinction entre distribution de fréquences relatives et distribution de probabilité

La distibution de fréquences relatives comptabilise le nombre de foi qu'un "événement" d'intérêt intervient. Il se base sur des observations. Par exemple on lance 100 fois un dés et on compte combien de fois chaque face apparaît.

La distribution de probabilité elle permettent d'approximer la la distribution de fréquence d'une population qui est étudié. Elle n'est pas le fruit d'observations.

 

Distibution de fréquences relatives

Exemples avec une variable discète et une variable continue

VARIABLE DISCRETE : Distribution des classes d'âges

Une enquête est réalisée auprès de 1000 individus hommes qui ont été interrogés au sujet de leur classe d'âge. Ces individus on été choisis au hasard sur l'avenue des Champs Elysée. Cette enquête donne le jeu de donnée suivant ci-dessous.

Responsive image

Vous avez ici un extrait des 21 premières valeurs.
Pour réaliser l'enquête, la classe d'age a été déterminé à partir de l'age des individus. Ainsi, une personne ayant 52 ans appartient à la classe d'âge 50. La variable classe d'âge est une variable discrète car il y a une rupture entre les différentes classes d'âge.

Maintenant je vous pose la question suivante :
"Quelle est la probabilité que si nous interrogions une nouvelle personne, sa classe d'âge soit 30 ?"

C'est grâce à notre connaissance de la distribution que nous pourront répondre à cette question.

Représentation de la distribution sous forme de tableau :

Responsive image

A partir du jeu de donnée, on peut établir le tableau de fréquence ci-dessus simplement en dénombrant les individus appartenant à chaque catégorie. Ici on peut clairement observé l'association d'une fréquence à une classe de valeur.

Il est possible à partir de ce moment de déterminer une probabilité. Cette probabilité est calculé en faisant le rapport entre la fréquence et l'effectif total de la population.

Par exemple pour la classe d'âge 50, on ferale calcul : 272/1000=0.272. ce résultat est arrondi à 0.3 dans le tableau suivant:

Responsive image

A partir ce cette distribution il est possible de répondre à la question soulevée plus haut : "Quelle est la probabilité que si nous interrogions une nouvelle personne, sa classe d'âge soit 30 ?" La réponse sera 0.174, On pourra alors affirmé que nous avons environ 20% de chance que cette personne soit de la classe d'âge 30.

A partir de maintenant vous pouvez toucher du doigt la puissance des statistiques qui permet de présager d'un résultat avant même d'en d'avoir fait une expérience. Grâce à ce tableau si vous deviez miser 10$ sur la classe d'âge de la prochaine personne interrogée vous miseriez sur la classe d'âge 50 car c'est elle qui a la probabilité d'occurence la plus grande.

Représentation de la distribution sous forme de graphique:

Responsive image

La représentation d'une distribution pour une variable discrète se représente sous de graphique en barres. Il est possible représenter la distribution de cette variable sous forme de barre car il n'y a qu'un nombre limité et fini de catégories.

VARIABLE CONTINUE : Distribution des poids

Le poids de 1000 individu est receuilli et donne le jeu de donnée suivant ci-dessous.

Responsive image

Vous avez ici un extrait des 21 premières valeurs. On remarquera tout de suite qu'il s'agit de variables continues.

Maintenant je vous pose la question suivante :
"Quelle est la probabilité que si nous interrogions une nouvelle personne, son poid soit égale à 60 kg?"

C'est grâce à notre connaissance de la distribution que nous pourront répondre à cette question.

Représentation de la distribution sous forme de graphique:

Responsive image

La représentation d'une distribution pour une variable discrète se présente sous la forme d'une ligne continue. Il n'est pas possible représenter la distribution de cette variable sous forme de barre car il y a un nombre infini de catégories.

Cette ligne s'appele la fonction de densité de probabilité.

Responsive image

Si l'on souhaite connaître la probabilité associé au poids de 60kg, on ne peux pas juste lire la valeur associée : Responsive image En effet il n'y a pas 19.5% de personnes qui ont exactement un poids de 60kg. La probabilité qu'une personne sélectionné au hasard fasse exactement 60kg est quasiment de 0.

Pour pallier à ce problème, il est possible de changer légèrement l'énoncer du problème et au lieu de spécifier une valeur précise, préciser plutôt une plage de valeur. Dans le cas suivant l'air entre 59 et 61 : P (59<x<61). Dans une situation avec des variables continues, les probabilités sont représentés par les aires en dessous de la courbe. Plus l'aire sera grande plus la probabilité sera grande.

Ce calcul pourra se faire en obtenant les valeurs grâce  aux tables de la loi normale.

Il est possible de compresser les données les exploiter


Responsive image

Etes-vous curieux ? Alors je vous conseille...

Livre très pratique pour faire des statistiques avec excel rapidement. Cette page a été inspirée de méthodes décrites dans ce livre.
Dans le top 10 des livres que je recommande !


Pour aller plus loin consulter également le site qui constitue une importante source de connaissance : http://onlinestatbook.com/

I) Les lois de distribution de probabilités

Les distributions on des fonctions de densité de probabilité qui leur sont attachés. Elle constitue des lois qui permettent de décrire la manière avec laquelle sont distribué les valeurs..

Une distribution de probabilités est simplement, une énumération de tous les résultats possibles d'une expérience avec leurs probabilités respectives. Par exemple le résultat d'un lancé de dés est soit 1,2,3,4,5, ou 6. Ces chiffres correspondent aux résultats possibles. Pour chacun de ces chiffres on associera une probabilité.

La même logique peut être employée pour déterminer les probabilités relatives des résultats de 2 lancés de dés.

Pour réaliser cette étude il faut d'abord énumérer dans un tableau les résultats possibles :

Résultats Probabilité
2
3
4
5
6
7
8
9
10
11
12
Total

Puis on associe les probabilités (

Résultats Probabilité
2
1/36
3
2/36
4
3/36
5
4/36
6
5/36
7
6/36
8
5/36
9
4/36
10
3/36
11
2/36
12
1/36
Total
36/36=1

Dans le tableau ci-dessus tous les résultats possibles sont listés. On notera que la somme de toutes les probabilités est égale à 1.

Nous verrons ci-dessous l'application de plusieurs méthodes de distribution :

  • La distribution binomiale,
  • la distribution de poisson 
  • la distribution normale.

I) La distribution binomiale

La distribution binomiale décrit la distribution de probabilités lorsqu'il y a 2 résultats possibles à chaque essai. (appelé succès ou échec)

Le résultat d'un essai doit être indépendant des résultats des autres essais.

La loi binomiale s'applique donc quand il y un nombre défini de répétitions d'une même expérience dans les mêmes conditions.

La probabilité de succès est constante à chaque tirage.

Cas d'utilisation de la loi binomiale
Exemple
Variables discrètes
1,2,3,4...
Deux résultats possibles
Nombre "pair "ou"impair"; "coté pile" ou "coté face" ; produit "bon" ou "défectueux"
Essais répétitif et dans les mêmes conditions
Les lancés de pièces de monnaie dans des conditions identiques.
Essais indépendants
Le résulat du premier lancé de pièces n'a pas d'incidence sur le second lancé.

La notion de combinaison doit être présentée avant d'aborder l'utilisation des probabilités binomiales.

Combinaison

Notation :

  • n correspond au nombre d'objet de l'ensemble
  • r correspond au nombre d'objet du sous ensemble choisi parmi les n objets.

Une combinaison est une sélection de r élément parmi un jeu de n objets distincts (sans prise en compte de l'ordre) parmis lesquels les r éléments sont sélectionnés. Le symbole nCr est utilisé pour désigner le nombre de possibilité de choisir r élément parmi n.

Responsive image

  • n! représente le produit de tous les entier de n à 1
  • r! représente le produit de tous les entier de r à 1

Rappel le symbole"!" signifie factoriel et se calcule comme suit: n!=n*(n-1)(n-2)...

Exemple : Jetons

Imaginons que nous ayons 4 jetons de quatres couleurs différentes : Vert, bleu, jaune et rouge. On demande à une personne de piocher à l'aveugle deux jetons.
Combien de combinaisons (de couples) possibles la personne pourra t'elle tirer ?

Interprétation de l'énoncé : Il y a 4 jetons dans l'ensemble donc n sera égale à 4.
L'individu sélectionne 2 jetons parmi 4 donc r sera égale à 2. On cherche le nombre de combinaisons possibles qui sera calculé avec la formule ci-dessous.

Le résultat de notre exemple donne:

Responsive image

Responsive image

Il y a donc 6 combinaisons possibles.

Calcul de la probabilité binomiale avec une formule 

La formule de calcul du nombre de combinaisons est utilisée par la formule de la loi binomiale.

La loi binomiale a deux résultats possibles appellés "succès" et "échec". Le succès est le résultat pour lequel nous souhaitons déterminer la distribution de probabilité. Pour calculer la probabilité d'obtenir r succès en n essai il faut utiliser la formule suivante :

Responsive image

Notation :

  • n correspond au nombre d'objet de l'ensemble
  • r correspond au nombre d'objet du sous enemble choisi parmi les n objets
  • p est la probabilité de succès à un essai
  • q est la probabilité d'échec à un essai.
  • P(r) est la probabilité d'obtenir r succès

Lors du même essai la somme de la probabilité de succès p et de la probabilité d'échec q est égale à 1: p+k=1

Exemple : Contrôle d'entrée marchandise

Dans le service de contrôle d'entrée, un qualitaticien souhaite savoir quel risque il prend lors du contrôle des pièces d'un fournisseur "laqualitécameconnait". Le qualitaticien sait par expérience que ce fournisseur lui fournit 5% de pièces non-conformes et livre des lots d'une quantité de 400 pièces.
Le contrôle qualité effectue habituelement un contrôle par échantillonnage de 8 pièces sur les 400 pièces livrées.

Quel est le risque que sur les 8 pièces prélevés qu'un défaut soit détecté alors que le lot présente 5% de pièces non-conformes ?

Interprétation de l'énoncé :

  • n=8
  • r=1
  • p=0.05
  • q=95
Responsive image
Responsive image

Il a donc 28% de chance de tomber sur 1 défaut.

Ce qui intéressera le qualitaticien est la probabilité de détecté un défaut ou plus dans l'échantillon. Pour ce faire nous devons additionner les probabilités de détecter 1, 2, 3...8 défauts.

Résultats Note de l'examen
P(r=0) 66,34%
P(r=1) 28%
P(r=2) 5,15%
P(r=3) 0,54%
P(r=4) 0,04%
P(r=5) 0%
P(r=6) 0%
P(r=7) 0%
P(r=8) 0%
Total
100%

Avec ce type d'échantillonnage le contrôle d'entrée ne détectera de pièces non-conformes que dans 33% des cas.

27,93% 5,15% 0,54% 0,04%= 33%

Il y a donc seulement 33% de chances de détecter des non conformités avec cette taille de prélèvement.

Note : Il est possible d'arriver à ce résultat sans passer par le calcul. En effet il existe une table binomiale qui permet de trouver les résultats de façon rapide. Elle est disponible sur le lien suivant : Table de la loi binomiale .

II) La distribution de Poisson

La distribution de Poisson est une distribution de probabilité discrète.

La distribution de Poisson décrit la distribution de probabilités lorsque les événements étudiés ont lieux dans une fouchette de temps délimité ou dans un lieu défini.

La probabilité qu'un événement survienne est la même pour chaque unité de temps et d'espace.

Le nombre d'événement qui survient dans une unité de temps et d'espace est indépendant du nombre d'événement qui survient dans une autre unité.

Cas d'utilisation de la loi de Poisson
Exemple
Variables discrètes
1,2,3,4...
Nombre d'occurence d'un événement
Comptabilisation du nombre de fois que l'événement survient.
Espace ou temps défini.
Les lancés de pièces de monnaie sont réalisés dans des conditions identiques.

Notation :

  • x correspond au nombre d'occurence observé
  • μ correspond au nombre moyen d'occurence dans l'intervalle de temps ou dans l'espace considéré.
  • P(x) probabilité d'obervé x occurence de l'événement
  • e est une constante , la base logarithmique naturels(=2.71828)
  • La formule est la suivante : Responsive image

Exemple : Village

Exemple : Dans un village, un collégien assis sous le porche d'une maison compte le nombre voiture qui passent devant lui en 10 minutes. Il sait, suite à de nombreuses observations, que ce nombre est en moyenne de 25. Quelle est la probilité que ce collégien compte demain un nombre 30 voitures ?

Responsive image

Note : Il est possible d'arriver à ce résultat sans passer par le calcul. En effet il existe une table de poisson qui permet de trouver les résultats de façon rapide. Elle est disponible en page 4 en suivant le lien suivant : Table de la loi de poisson .

Dans un premier temps il faut repérer la colonne correspondant à la valeur de μ, i faut ensuite trouver la ligne correspondant à la valeur de x.

Menu

Réseaux sociaux
Les cours de statistiques

Etes-vous curieux ? Alors je vous conseille...

Livre synthétique et pratique pour découvrir le Pareto et beaucoup d'autres outils...

Le créateur du site a besoin de vous !

Suggérez lui des améliorations ou posez lui vos questions par mail commentprogresser@gmail.com

Card image