Les Bases en Biostatistiques – Chapitre VIII

Les tests d’hypothèses font partie des bêtes noires des biologistes échaudés par les statistiques. Et pourtant, ils sont particulièrement utiles au traitement de données expérimentales ! Peut-être que cette mauvaise opinion provient de la présentation parfois ardue de certains tests, assénée de tables de valeurs brandies par les enseignants telles des tables de commandements divins.

Pourtant, il suffit d’un peu d’imagination pour apprivoiser ces tests d’hypothèses. Figurons-nous le personnage fictif de Tyron Lannister. Notre test statistique est en quelque sorte la main du Roi de Westeros. Il est là pour nous conseiller, avec son cynisme habituel et probablement une coupe de vin à la main. Mais il nous revient de prendre la décision finale. Allons-nous l’écouter, ou faire preuve de témérité ? Dans quelle mesure nos choix seront-ils entachés d’erreurs ? Avec un tel allié à vos côtés, les tests d’hypothèses deviennent déjà bien plus attrayants ! Vous êtes sur la bonne voie. Il ne reste plus qu’à développer ce chapitre.

8. Les tests d’hypothèses

Un test d’hypothèse permet de prendre une décision au vu d’un échantillon. Doit-on rejeter ou non l’hypothèse statistique formulée, et quelle conclusion en tirer sur nos observations ou expérience ? L’hypothèse elle-même porte alors sur la nature d’une ou plusieurs distributions, ou sur ses propres paramètres.

Par choix, seuls les tests de Student illustreront cet article. Cela nous permettra de revenir plus en détails sur les tests de khi-deux, de Fisher ou encore l’ANOVA dans une autre série d’articles spécifiques.

8.1. Principes généraux des tests statistiques

8.1.1. Hypothèses simples et composées

Si par exemple, nous souhaitons comparer une espérance µ inconnue, approchée par une moyenne observée X̅, avec une valeur théorique µ0. Le principe du test sera de formuler une hypothèse, comme par exemple µ = µ0. Il s’agit d’une hypothèse simple.

Nous pourrions tout aussi bien considérer des hypothèses comme (µ ≠ µ0) , (µ < µ0) , (|µ – µ0| ≤ ϵ ) , alors nous envisagerions des hypothèses composées. En calcul probabiliste, il est plus prudent de tester des hypothèses simples, ou des hypothèses simples contre leur hypothèse composée complémentaire, plutôt que d’aborder les autres hypothèses envisageables. La raison est mathématique, et nous évite des écueils presque inextricables.

Mais alors, si nous ne teston par exemple que l’hypothèse simple µ = µ0 , nous considérons une hypothèse trop restrictive. En sciences expérimentales, nous ne pouvons pas rejeter l’hypothèse parce que l’égalité n’est pas strictement vérifiée ! Il nous faut accepter une marge de manœuvre. En quelque sorte, que la différence X̅ – µ0 soit suffisamment faible pour supposer la différence µ – µ0 comme nulle. Ou qu’au contraire, cette différence soit trop grande et que l’hypothèse soit rejetée.

8.1.2. Risques d’erreurs et tests d’hypothèses

Supposons une hypothèse simple H0 (souvent désignée comme hypothèse nulle) et un test la vérifiant. La prise de décision au regard de H0 peut être résumée sous la forme d’un tableau :

décision vs. réalitéH0 vraieH0 fausse
H0 non-rejetécorrectfaux positif
(risque β de seconde espèce)
H0 rejetéfaux négatif
(risque α de première espèce)
correct

Le test ne permet donc pas de prendre une décision robuste à coup sûr, le risque d’erreur existe toujours. Au statisticien de décider dans quelle mesure il peut suivre ou non les conclusions du test.

Ce risque (ou seuil d’erreur) est noté α . A l’inverse, il peut être désigné par l’intervalle de confiance 1 – α . Son interprétation est simple : rejeter l’hypothèse nulle du test est un pari, et le risque de se tromper vaut p = P(H0).α . Par exemple, un test avec une marge d’erreur de α = 5 % ou encore moins est un « bon » test, au sens qu’il induit une faible probabilité d’erreur.

8.1.3. Modus operandi des tests d’hypothèses

Le principe de base d’un test statistique est le suivant: plaçons-nous dans un « espace mathématique » abstrait, et représentons notre problème comme deux points de l’espace. L’un d’entre-eux est l’hypothèse testée H0 , l’autre est l’échantillon observé. Définissons ensuite un écart tobs entre ces deux points et fixons-nous un risque d’erreur α .

A ce risque correspond un écart critique tα : si tobs > tα alors on rejette l’hypothèse H0 . Si tobstα , alors l’hypothèse H0 est vraie.

Les tests d’hypothèses se retrouvent donc codifiés en trois étapes précises :

  • Première étape : choisir une hypothèse nulle H0 , une variété de test (et ses paramètres), un risque d’erreur α .
  • Deuxième étape : déterminer les valeurs tobs et tα indispensables à la comparaison du test.
  • Troisième étape : effectuer le test et conclure.

La troisième étape a déjà été discutée dans l’encadré précédent. Revenons cependant sur quelques aspects de la prise de décision. Le non-rejet intervient idéalement lorsque tobs << tα . Mais si tobstα , alors il peut être sage de rejeter l’hypothèse en rappelant le risque d’erreur α fixé. Il est même possible de suggérer de réviser cette valeur α ! Le non-rejet s’exprime donc avec prudence à mesure que l’écart entre tobs et tα s’amenuise.

Il est donc toujours sage de se rapporter au risque d’erreur α avant de conclure. Par exemple, « au risque d’erreur α , la différence entre les résultats observés et ceux qui résulteraient de H0 peut s’expliquer par des fluctuations d’échantillonnage normales » . A l’inverse, le rejet de l’hypothèse H0 est beaucoup moins prudente, car tobs > tα n’appelle pas d’objection. Il peut cependant exister un risque de première espèce, il faut donc toujours rappeler le risque d’erreur α de l’hypothèse.

8.2. Tests de comparaisons de moyennes (tests de Student)

Ces tests d’hypothèses se nomment tests de Student, du pseudonyme du statisticien anglais William Sealy Gosset (1876-1937). Embauché par la brasserie Guinness en tant que chimiste, il invente le test de Student comme moyen de contrôle qualité de la bière produite. Mais l’entreprise lui refuse le droit de publier sa découverte mathématique sous son vrai nom. Il aura alors recours au pseudonyme de Student, toujours employé en mathématiques. William Gosser fit tout de même une brillante carrière chez Guinness avant de décéder brutalement d’une crise cardiaque à l’âge de 61 ans.

8.2.1. Comparaison d’une moyenne à une valeur donnée

Soit une population N sur laquelle un caractère est distribué selon une loi d’espérance mathématique µ et de variance σ² . L’hypothèse nulle à tester est H0 {µ=µ0} pour un risque d’erreur α . Soit un échantillon de n observations (x1+ x2+ x3+ … + xn) dont la moyenne est notée :

La variance sans biais sera également prise en compte :

Enfin, l’écart à tester t se place pour t = |X̅-µ0|/ s* avec s* = s / √n . La valeur de tα est lue dans les tables de la loi de Student avec le ddl = n -1 .

Par exemple : des géologues calculent en sédimentologie la constante de sédimentation d’un dépôt organique. à partir de quatre mesures expérimentales. Ils obtiennent ainsi les valeurs x = {3,23 ; 3,28 ; 3,46 ; 3,23}. Ils disposaient comme information que cette constante valait µ0 = 3,14. Est-ce le cas pour α = 5% ? Soit Y la variable aléatoire de constante de sédimentation. E(Y) = 3,3 , Var(Y) = s² = Σ(xi – X̅)² / (n-1) = 0,01193 et s = 0,109. D’après le test de Student, t = |X̅-µ0|/ s* = |X̅-µ0|/ (s/√n) = (3,3-3,14)/(0,109/2) = 2,935. D’après la table de Student pour un ddl = 4-1 = 3 la valeur tα =3,182 .Soit t < tα pour une marge d’erreur de 5% nous ne rejetons pas l’hypothèse H00 = 3,14}.

8.2.2. Comparaison d’une probabilité à une valeur donnée

Dans le cas d’un échantillon n ≥ 30 pour une probabilité P(A) = p telle que n.p ≥ 10 et n.(1-p) ≥ 10 , alors l’écart à tester est le suivant :

t = |p-p0|/s* pour lequel s* = √(p(1-p)/n)

Comme à chaque fois, les tables de la loi de Student indiquent la valeur de tα avec le ddl = n -1.

8.2.3. Comparaison de deux moyennes

Considérons deux populations A et B sur lesquelles sont définis deux caractères numériques X et Y distribués selon des lois d’espérance mathématique µ1 et µ2 et de même écart-type σ. L’hypothèse à tester H01 = µ2} pour un risque d’erreur α.

Nous disposons ainsi de deux échantillons n1 et n2 , pour lesquels sont disponibles les moyennes m1 et m2 et écarts-types s1 et s2. Sommes-nous en présence d’une même population A∩B ou de deux populations distinctes ?

Nous avons besoin pour ce test de calculer l’estimation globale s :

s = √[((n1-1).(s1)² + (n2-1).(s2)²)/(n1+n2-2)]

Ce calcul effectué, nous prenons donc comme écart à tester :

t = |m1 m2|/s* avec s* = s.√[(1/n1)+(1/n2)]

De plus, les tables de la loi de Student indiquent la valeur de tα . Mais cette fois-ci avec le ddl = n1+n2-2 .

8.2.4. Comparaison de deux probabilités

Soit deux événements de probabilités inconnues. L’hypothèse consiste alors à tester H0 {P(A1) = P(A2)} pour un risque d’erreur α. A partir de deux séries d’observations n1 et n2 de pourcentages observés p1 et p2 nous calculons l’estimation globale p et l’écart à tester t :

p = (n1.p1 + n2.p2)/(n1 + n2)

t = |p1 p2|/s* avec s* = √[p.(1-p)].√[(1/n1)+(1/n2)]

De nouveau, les tables de la loi de Student indiquent la valeur de tα avec le ddl = n1+n2-2 .

Notez qu’il est aussi possible de tester P(A1) = P(A2) avec un test du khi-deux. Pour conclure, ces deux tests sont fort heureusement identiques et de manière usuelle, il est plus facile de passer par un test du khi-deux.

8.3. Autres tests statistiques

Les tests de Student ne sont pas les seuls tests d’hypothèses à notre disposition ! Cependant, nous avons fait le choix de les présenter dans des articles spécifiques. Nous reviendrons donc sur quatre autres tests statistiques :

  • Le test du χ² ou khi-deux : il étudie notamment la liaison entre deux variables qualitatives.
  • Le test de Fisher. Il analyse la comparaison exacte de deux variances observées.
  • L’analyse de la variance (ANOVA). Elle permet de comparer entre elles plusieurs échantillons observés selon un plan expérimental prédéterminé.
  • Le test de Kolmogorov-Smirnov, très proche du khi-deux. Mais il s’applique plutôt aux variables aléatoires continues.

Quelle est la suite ? Nous arrivons ainsi au terme de cette série d’articles consacrée aux bases en biostatistiques. J’espère que vous avez apprécié ce voyage mathématique, et mieux compris l’intérêt de la discipline pour le biologiste, l’écologue ou encore le naturaliste ! Dans les prochains articles, nous aborderons donc plusieurs tests statistiques particuliers, des méthodes d’analyses de données ou encore des tutoriels consacrés au langage R. Bonne découverte !

Les commentaires sont clos.