Les Bases en Biostatistiques – Chapitre III

Dans ce troisième épisode, il est temps de nous attaquer aux variables aléatoires ! Tout au long de cette suite de cette série d’articles consacrés aux bases de statistiques utiles au naturaliste, nous aurons besoin de traiter de données, et plus précisément des valeurs prises par nos variables aléatoires.

Ce troisième chapitre est donc indispensable afin de progresser par la suite en statistiques. En effet, il donne bon nombre d’opérateurs élémentaires pour la transformation de variables aléatoires. Cela ouvrira la voie aux différents calculs nécessaires pour les lois de probabilités, convergences, estimateurs… Il est donc indispensable de bien le connaître avant d’ouvrir la boîte à outils du biologiste. Ce n’est qu’assurés d’une bonne maîtrise de la notion de variables aléatoires qui nous pourrons pénétrer dans la jungle des tests statistiques.

3. Les Variables Aléatoires

3.1. Présentation

Une variable aléatoire correspond à toute donnée mesurée ou interprétée dont nous ne connaissons pas à l’avance le résultat. L’exemple le plus classique est de considérer un lancer de dé comme générateur d’une variable aléatoire (comprise entre 1 et 6).

Les variables aléatoires sont donc très fréquentes en sciences. Il peut s’agir de variables continues (biométrie, température, vitesse, dénombrement…), discrètes (âge, degré d’alcool, pourcentage de protéines…) ou de variables ordinales (attribution d’une note en lettres, enquête de satisfaction…).

Il est aussi possible d’attribuer une probabilité à une variable aléatoire (par exemple, la probabilité de tirer un 6 au dé est de P(x=6) = 1/6). De même, une série de variables aléatoires peut être obtenue en multipliant les tirages (n). Ce qui équivaut à effectuer un échantillonnage n au sein d’une population N. Le cinquième chapitre s’interrogera ainsi sur les estimateurs des variables aléatoires ainsi compilées, et donc à l’élaboration d’intervalles de confiance.

3.2. Peut-on exclure des données ?

Une fois nos données collectées, il peut apparaître quelques résultats incohérents ou valeurs extrêmes. La première chose à faire, bien-sûr, est de vérifier ces valeurs. Est-ce un problème de transcription, une erreur de mesure expérimentale ? A-t-on pris en compte des individus visiblement hors critères ? Et surtout, quels étaient ces fameux critères d’observation ?

Vous l’aurez compris, la première chose à faire avant toute modification de ses données consiste à correctement rédiger son protocole d’observateur. Par exemple lors d’une étude sur les orchidées, on exclura les rosettes détruites par le gel ou broutées par les herbivores qui n’apporteront aucune information pertinente.

Cependant, s’il est recommandé de préparer son protocole et de relire ses données brutes avant analyse statistique, il serait malhonnête de modifier ses variables après analyse dans le seul but d’obtenir de « plus jolies stats ». Éliminer des données reste donc possible, mais tout en faisant preuve de bon sens et en conservant une certaine honnêteté.

3.3. Définitions mathématiques

En mathématiques, la notion de variable aléatoire s’interprète comme une application ou fonction f. Pour une partie A contenue dans un ensemble E, il est possible de définir son image f(A) dans un ensemble F. Mais l’application réciproque f-1(A) inclus dans F permet également de revenir vers A inclus dans E.

Prenons un exemple plus concret. Soit une variable aléatoire X décrivant le résultat d’un jet de dé. Chaque score soigneusement noté correspond à une variable discrète dans un espace ℝ. La probabilité associée à chaque score possible vaut P(ω) = 1/6 , soit une mesure de probabilité dans un espace fondamental Ω . La variable aléatoire X est donc l’application mathématique permettant de basculer de l’ensemble Ω vers l’ensemble ℝ.

L’application réciproque va donc être particulièrement utile, puisque conceptuellement c’est elle qui permettra de « probabiliser » les variables aléatoires. Autrement dit, à partir d’une série de données, je recherche quel était ma probabilité d’événement associée.

3.3.1. Théorèmes d’applications directes et réciproques

Toutes ces réflexions nous mènent aux deux théorème suivants :

Dans un espace probabilisé d’espace fondamental Ω et de mesure de probabilité P(ω) , on appelle variable aléatoire sur cet espace toute application X de Ω dans ℝ :

X : ω ∈ Ω → X(ω) ∈ ℝ

Soit un espace probabilisé d’espace fondamental Ω et de mesure de probabilité P(ω), et X une variable aléatoire. Si B est une partie de et x un nombre de , on définit alors P(X ∈ B) et P(X = x) par :

P(X ∈ B) = P(X-1(B))

P(X = x) = P(X-1({x}))

3.4. Les variables aléatoires discrètes

Nous avons vu dans le chapitre premier que les variables aléatoires discrètes sont des variables quantitatives ne prenant qu’un nombre fini de valeurs possibles. Par exemple, le nombre d’as tirés d’un paquet de cartes.

Elle est également caractérisée par l’ensemble des valeurs qu’elle peut prendre xi = (x1+ x2+ x3+ … + xn) et par l’expression mathématique de la probabilité que peuvent prendre ces valeurs. Cette expression mathématique correspond à la loi de probabilité de la variable aléatoire (voir chapitre 4).

3.4.1. Représentation graphique

Il est souvent plus commode de représenter une variable aléatoire par distribution de probabilités. La représentation graphique la plus commune est l’histogramme.

Il est également possible de créer un histogramme cumulé pour représenter la fonction de répartition F(x) = P(X ≤ x) = ∑xi de la variable aléatoire discrète X. Graphiquement, elle cumule les probabilités au fur et à mesure que les valeurs de X sont passées en revue, jusqu’à atteindre F = 1 lorsque l’ensemble des valeurs prises est fini.

3.4.2. Espérance mathématique

L’espérance mathématique d’une variable aléatoire discrète X correspond à la somme des produits des valeurs prises par X et de leurs probabilités.

3.4.3. Variance

La variance correspond, pour une variable aléatoire discrète, à l’espérance du carré de l’écart X – E(X). Plus communément, il est admis que E(X) équivaut à X̅, comme illustré dans les équations suivantes :

3.5. Les variables aléatoires continues

Dans le cas d’une variable aléatoire quantitative dite continue, l’ensemble des valeurs que peut prendre X est infini. La mesure de probabilité se retrouve alors comme « étalée » sur l’intervalle de définition, et la probabilité pour que nous tombions sur une valeur précise vaut donc P(xi) = 1/∞ = 0 !

Nous allons devoir changer d’approche. Cette fois-ci, nous allons travailler par intervalles de valeurs [a; b] et calculer la probabilité d’intervalle P(a≤X≤b). La loi de probabilité de la variable aléatoire continue X devrai permettre, d’une manière ou d’une autre, d’obtenir l’intervalle recherché ou sa probabilité associée (voir chapitre 6).

3.5.1. Fonction de répartition et densité de probabilité

Nous pouvons ainsi associer à une variable aléatoire continue une fonction de répartition F(x) définie sur ℝ , de sorte que F(x) = P(X ≤ x). Par exemple, pour F(a), nous obtenons la probabilité d’intervalle P(X ≤ a) pour la demi-droite ] -∞ ; a ]. Si nous prenons en considération l’intervalle de valeurs entier [a; b] , alors P(a≤X≤b) = F(b) – F(a).

Cela signifie que la fonction de répartition F(x) est donc dérivable, nous obtenons ainsi la densité de probabilité f(x) :

f(x) = F'(x)

La densité de probabilité est également intégrable entre des valeurs [a; b] pour obtenir de nouveau la probabilité P(a≤X≤b) = F(b) – F(a) = ∫ f(x).dx . Enfin, intégrer la densité de probabilité entre les deux bornes infinies donne la totalité de la probabilité de l’ensemble des valeurs de X et alors donc P = 1 .

3.5.2. Espérance mathématique

Pour une variable aléatoire continue X, son espérance mathématique correspond donc à l’intégration de sa densité de probabilité en fonction des valeurs prises par X :

3.5.3. Variance

La variance d’une variable aléatoire continue X est l’intégrale du produit de l’espérance du carré de l’écart (X – E(X)) et de la densité de probabilité f(x) . Dans cette formulation, E(X) peut être remplacé par μ , une autre écriture de l’espérance mathématique de la variable aléatoire X.

3.6. Transformations de variables aléatoires

3.6.1. Opérations élémentaires

Pour de multiples raisons, il peut être nécessaire d’effectuer des opérations mathématiques sur vos données. La transformation de ces variables collectées peut consister à changer d’unité de mesure, à tester rapidement une hypothèse d’observateur, ou encore à transformer des variables aléatoires entre-elles.

Quelques opérations simples sont listées dans le tableau ci-dessous. La lettre C équivaut à une valeur constante utilisée dans notre transformation de la variable X. La moyenne µ et la variance notée σ² nous permettront à chaque fois d’évaluer les effets de l’opération sur notre série de données.

Variable aléatoireMoyenne (µ)Variance (V = σ²)
Xµσ²
X + Cµ + Cσ²
X – Cµ – Cσ²
C.XC.µC².σ²
X-µ0σ²
X/σµ/σ1
(X-µ)/σ01

Vous remarquerez que les opérations d’addition ou de soustraction ne modifient pas la variance. A l’inverse, la multiplication (et donc la division, remplacez C par 1/C) modifient la variance. Il est également possible d’effectuer des traitements de donnée avec la moyenne µ (centrage) et l’écart-type σ (réduction). Dans la dernière ligne, vous obtenez une variable dite centrée-réduite ((X-µ)/σ). Cet opérateur nous sera utile pour les lois statistiques.

3.6.2. Variables aléatoires de transition

Au lycée, ces transformations sont aussi appelées variables aléatoires de transition Y. Elles consistent à transformer un tableau de variables aléatoires en appliquant à chaque ligne une fonction de type Y = a.X + b .

Soient les transformations suivantes pour la moyenne µ, la variance V et l’espérance E :

  • µ(Y) = µ(aX+b) = a.µ(X) + b
  • V(Y) = V(aX+b) = a².V(X) car la variance de b (constante) vaut zéro.
  • E(Y) = E(aX+b) = a.E(X) + b
3.6.3. Combinaisons de variables aléatoires

Enfin, il est possible de combiner des variables aléatoires indépendantes entre-elles. La moyenne comme la variance en seront affectées. Notez que la dispersion au terme de cette opération ne peut qu’augmenter, du fait de la combinaison de deux variables à distribution aléatoire ! La variance augmente donc, même dans le cas d’une soustraction entre variables X.

Variable aléatoireMoyenne (µ)Variance (V = σ²)
X(a) + X(b)µ(a) + µ(b)σ²(a) + σ²(b)
X(a) – X(b)µ(a) – µ(b)σ²(a) + σ²(b)

Enfin, il existe d’autres opérations possibles, mais elles ne nous servirons pas pour le moment. Vous aurez donc compris que ces opérations sont possibles, mais qu’il faudra à chaque fois recalculer en conséquence la moyenne, la variance ou l’espérance.

Quelle est la suite ? Dans l’épisode IV, la revanche des Lois de Probabilité, nous verrons comment les statistiques interférentielles se rappellent à notre bon souvenir. Nous reverrons alors différentes Lois indispensables aux statistiques par échantillonnage.

Les commentaires sont clos.