14 Tests de significativité

Les tests de significativité permettent d’affirmer que des communautés sont réellement différentiées. En complément, les intervalles de confiance des mesures de diversité peuvent être calculés sous l’hypothèse d’une distribution multinomiale.

La diversité \(\beta\) calculée entre plusieurs échantillons successifs d’une même communauté n’est pas nulle : par simple fluctuation des effectifs due au hasard, les distributions des échantillons ne sont pas identiques. Des tests statistiques ont été développés pour rejeter cette hypothèse nulle à partir de données d’inventaires.

Ce chapitre ne traite pas de la diversité de différentiation : les tests correspondants ont été présentés en section 11.6.

14.1 Test de non-nullité

L’objectif est de tester si deux communautés ne sont pas simplement deux échantillons d’une même communauté, dont les différences ne sont que des fluctuations dues au hasard. Sous l’hypothèse nulle, les observations \(\hat{q}_{s|i}\) sont des réalisations des mêmes probabilités \(p_s\). Il est possible (Crist et al. 2003) mais controversé (D. Jones et Matloff 1986) de tester la significativité de la différence entre communautés. Une meilleure approche consiste à calculer l’intervalle de confiance de la diversité \(\beta\) due à l’incertitude sur les estimateurs de probabilités.

Le test est réalisé de la façon suivante (Marcon et al. 2014) :

  • Les effectifs de chaque communauté \(i\) sont tirés dans une loi multinomiale \({\mathcal M}(n_{+i},{n_{s,i}}/{n_{+i}})\) et \({\tilde{H}}_{\beta}\) est estimé ;
  • La simulation est répétée un grand nombre de fois, par exemple 10000, et les valeurs extrêmes sont éliminées. Au seuil de risque \(\alpha=5\%\), les 251 et 9750 valeurs simulées définissent les bornes de l’intervalle de confiance de l’hypothèse nulle.

L’hypothèse nulle est rejetée si la valeur observée de \({\tilde{H}}_{\beta}\) n’est pas dans cet intervalle, en général au-delà de la borne supérieure. Il peut arriver que les deux communautés soient plus semblables que sous l’hypothèse nulle, c’est-à-dire que les fréquences varient moins que dans le tirage d’une loi multinomiale, si deux communautés ont été créées artificiellement avec le même nombre d’individus de chaque espèce par exemple.

Lorsque les données sont issues de communautés réelles, le sens même de ce type de test est remis en question (D. Jones et Matloff 1986) : les communautés réelles ne pouvant pas être exactement identiques, il suffit d’augmenter la taille de l’échantillonnage pour prouver leur différence.

14.1.1 Intervalle de confiance

L’intervalle de confiance de l’estimateur de \(H_{\beta}\) (Marcon et al. 2014) peut être calculé en simulant les communautés par des tirages dans des lois multinomiales suivant leurs fréquences : \({\mathcal M}\left(n_{+i},{n_si}/{n_+i}\right)\).

Si l’intervalle de confiance ne contient pas 0, l’égalité des distributions est rejetée.

Estimation de la diversité de la méta-communauté Paracou618.

Figure 14.1: Estimation de la diversité de la méta-communauté Paracou618.

Calcul sous R : la fonction DivEst produit un graphique avec l’intervalle de confiance (figure 14.1).

Code R :

de <- DivEst(q = 1, Paracou618.MC, Simulations = 1000)
plot(de)

Par défaut, DivEst ne corrige pas les biais d’estimation. Les résultats sont présentés sous forme de diversité et non d’entropie, la valeur attendue en cas d’égalité des communautés est 1.

14.1.2 Correction des biais

Les simulations nécessaires aux tests créent un biais d’estimation : les espèces les plus rares dans les communautés sont souvent éliminées par les tirages. La correction du biais des tirages recentre leur distribution autour des valeurs originales des communautés non débiaisées. Il n’existe pas de correction analytique pour corriger successivement le biais dû aux simulations (dû à la perte des espèces rares des communautés réelles) puis celui dû à l’échantillonnage des communautés elles-mêmes (dû à la non-observation des espèces rares de la communauté). Marcon et al. (2012), comme Chao et Jost (2015), effectuent la deuxième correction par un recentrage de la distribution de \(H_{\beta}\) simulée autour de sa valeur observée débiaisée, ce qui permet d’obtenir l’intervalle de confiance de l’estimateur de \(H_{\beta}\).

14.2 Analyse de la variabilité

On se place maintenant dans un cadre un peu différent : les communautés sont elles-mêmes obtenues par regroupement de placettes d’échantillonnage. Pour tester la significativité de la diversité \(\beta\) entre communautés, l’approche pourrait être celle de l’analyse de variance : l’entropie totale de la méta-communauté est la somme des entropies des sites, de l’entropie \(\beta\) entre sites des communautés et de l’entropie \(\beta\) entre communautés. L’entropie \(\beta\) inter-communautés pourrait être comparée à l’entropie \(\beta\) intra-communautés en calculant une statistique F. Cette approche souffre de la dépendance de l’entropie \(\beta\) à l’entropie \(\alpha\) : si une communauté est plus diverse que l’autre, son entropie \(\beta\) sera forcément plus faible.

Le test correct porte sur la diversité plutôt que sur l’entropie (Richard-Hansen et al. 2015). La statistique de test est le ratio de la diversité \(\beta\) inter-communautés sur la la diversité \(\beta\) intra-communautés. Sa valeur observée est comparée à la distribution de sa valeur simulée en redistribuant les placettes aléatoirement dans les communautés.