23 fƩvrier 2024

GƩnƩralitƩs

Objectifs

Comprendre les principes des mĆ©thodes dā€™ordination, aussi appelĆ©es analyses multivariĆ©es.

ConnaƮtre les principales mƩthodes et savoir les appliquer.

Pour quoi faire ?

Discipline cible : Ʃcologie des communautƩs.

ProblĆ©matique : analyse des effets de nombreux facteurs sur de nombreuses espĆØces, sans modĆØle (ou presque).

MƩthode : rƩduction de dimensionnalitƩ.

Typologie des mƩthodes

Statistiques multivariƩes :

  • Classification (automatique).

  • Ordination : arrangement dā€™espĆØces le long de gradients

    • Analyse directe.
    • Analyse indirecte.

Forme des donnƩes

Tableaux de donnƩes :

  • Lignes = Ć©chantillons (sites).
  • Colonnes = prĆ©sence / absence ou abondance dā€™espĆØces.

Pour les mĆ©thodes dā€™analyse directe, colonnes supplĆ©mentaires = facteurs environnementaux (quantitatifs ou qualitatifs).

ParticularitƩs

Grand nombre de dimensions dans les donnĆ©es brutes, mais hypothĆØse que les relations importantes se rĆ©sument Ć  un nombre rĆ©duit (2 ou 3 dimensions dans lā€™idĆ©al).

DonnĆ©es avec de nombreux zĆ©ros, trĆØs bruitĆ©es et redondantes : peu adaptĆ©es Ć  des modĆØles classiques (du type prĆ©sence de lā€™espĆØce \(s\) ~ environnement).

MĆ©thodes exploratoires seulement.

RƩponse linƩaire, analyse indirecte

Analyse en Composantes Principales

Pearson, K. (1901) On lines and planes of closest fit to systems of points in space. Philosophical Magazine 2:559-572. Anglais : PCA, FranƧais : ACP.

Objectif : reprƩsenter un tableau de donnƩes multidimensionnel par rƩduction du nombre de dimensions.

ModĆØle : RĆ©ponse linĆ©aire de la prĆ©sence des espĆØces aux gradients.

ACP : MĆ©thode

Rotation du nuage de points original (espĆØces dans lā€™espace des sites). Les donnĆ©es peuvent ĆŖtre centrĆ©es et rĆ©duites.

Le premier axe reprƩsente la variabilitƩ maximale.

Les axes suivants sont orthogonaux et reprƩsentent le maximum de variabilitƩ rƩsiduelle.

Exemple

Simulation de donnƩes corrƩlƩs en 3 dimensions

library(MASS) # Attention Ć  MASS::select()
# Matrice de covariance
Sigma <- matrix(
  c(
    1,   0.8, 0.6, 
    0.8, 1,   0.8,
    0.6, 0.8, 1
  ), 
  nrow = 3
)
# Simulation de X et Y
XYZ <- mvrnorm(10, mu = rep(0, 3), Sigma = Sigma)

Points

Premier axe

DeuxiĆØme axe

ACP : Pratique

stats::prcomp() ou ade4::dudi.pca() ou FactoMineR::PCA(). Visualisation avec factoextra.

# ACP
XYZ_pca <- prcomp(XYZ, scale = TRUE)
library("factoextra")
fviz_eig(XYZ_pca)

Affichage des valeurs propres.

ACP : Pratique

fviz_pca_ind(
  XYZ_pca,
  col.ind = "cos2", # Color by the quality of representation
  gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
  repel = TRUE     # Avoid text overlapping
)

ACP : Pratique

fviz_pca_var(
  XYZ_pca,
  col.var = "contrib", # Color by contributions to the PC
  gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"),
  repel = TRUE     # Avoid text overlapping
)

ACP : Pratique

fviz_pca_biplot(
  XYZ_pca, 
  repel = TRUE,
  col.var = "#2E9FDF", # Variables color
  col.ind = "#696969"  # Individuals color
)

Analyse des Correspondances Multiples

Tenenhaus, M. & Young, F.W. (1985) An analysis and synthesis of multiple correspondence analysis, optimal scaling, dual scaling, homogeneity analysis ans other methods for quantifying categorical multivariate data. Psychometrika, 50:91-119.

Anglais : MCA, FranƧais : ACM

ACM : objectif

Identique Ć  lā€™ACP mais les donnĆ©es sont toutes qualitatives (factors dans R) et les catĆ©gories ne sont pas ordonnĆ©es.

Chaque variable est ƩclatƩe en autant de variables que de modalitƩs.

ade4::dudi.acm().

Analyse de Hill-Smith

Hill, M. O., and A. J. E. Smith. 1976. Principal component analysis of taxonomic data with multi-state discrete characters. Taxon, 25:249-255.

Objectif : traiter des donnƩes mixtes quantitatives et qualitatives ordonnƩes ou non.

ade4::dudi.hillsmith().

Analyse en CoordonnƩes Principales

Gower, J. C. (1966) Some distance properties of latent root and vector methods used in multivariate analysis. Biometrika, 53: 325ā€“338.

Anglais : PCoA

Objectif : identique Ć  lā€™ACP, mais on dispose dā€™une matrice de distances entre relevĆ©s, pas de coordonnĆ©es.

PCoA : MĆ©thode

Si la matrice de distance est euclidienne, les relevĆ©s sont reprĆ©sentĆ©s dans lā€™espace, une ACP suit pour les projections.

Pas de biplot : seules les distances entre relevƩs sont connues.

ade4::dudi.pco().

Non-Metric Multidimensional Scaling

Kruskal, J.B. 1964. Multidimensional scaling by optimizing goodness of fit to a nonmetric hypothesis. Psychometrika 29:1-27

Anglais : NMDS

Objectif : identique Ć  la PCoA mais sans projection. Les sites sont placĆ©s dans un espace de dimension choisie de faƧon Ć  maximiser la corrĆ©lation entre lā€™ordre de leurs distances dans les deux espaces.

NMDS : mƩthode

Optimisation par itĆ©ration : les points sont dĆ©placĆ©s alĆ©atoirement. Calcul trĆØs lourd, risque de minimum local.

Le choix de la mƩtrique est important.

CritĆØre de choix : le stress, mesure le dĆ©saccord entre lā€™ordination obtenue et une ordination parfaite.

NMDS: pratique

vegan::metaMDS(), distance de Bray-Curtis par dƩfaut.

RƩponse non linƩaire, analyse indirecte

Analyse Factorielle des Correspondances

Hirschfeld, H.O. (1935) “A connection between correlation and contingency”, Proc. Cambridge Philosophical Society, 31: 520ā€“524

Anglais : CA, FranƧais : AFC.

Objectif : identique Ć  lā€™ACP, mais la mĆ©trique est diffĆ©rente.

ade4::dudi.coa().

AFC : moyennes rƩciproques

On suppose que la rĆ©ponse des espĆØces aux gradients est unimodale (et non linĆ©aire).

Reciprocal Averaging Algorithm ; Intuition en 1D :

  • le score du site \(j\) reprĆ©sente sa position sur le gradient environnemental. Lā€™optimum environnemental pour lā€™espĆØce \(i\) est la moyenne des scores des sites pondĆ©rĆ©e par la frĆ©quence de lā€™espĆØce.

  • Raisonnement symĆ©trique pour le score de lā€™espĆØce \(j\) : sa position sur le gradient est la moyenne pondĆ©rĆ©e des scores des sites oĆ¹ elle est prĆ©sente.

AFC : moyennes rƩciproques

En rĆ©alitĆ©, la niche est en n-1 dimensions, les espĆØces sont au centre de gravitĆ© des sites et inversement.

Les sites proches ont les mĆŖmes “caractĆ©ristiques environnementales”. Les espĆØces proches “occupent la mĆŖme niche”.

Une espĆØce est proche dā€™un site si les caractĆ©ristiques du site correspondent aux prĆ©fĆ©rences de lā€™espĆØce.

Ne sā€™applique quā€™Ć  des donnĆ©es de comptage.

AFC : mƩtrique

MĆ©thode Ć©quivalente : BenzĆ©cri, J.P. (1973) Lā€™analyse des donnĆ©es. II Lā€™analyse des correspondances, Bordas, Paris.

Chaque donnƩe \(y_{i,j}\) de la matrice de dƩpart est transformƩe en frƩquence : \(p_{i,j} = y_{i,j} / y_{++}\)

Les coordonnƩes des points sont \(p_{i,j} - p_{i+} p_{+j}\)

Lā€™inertie totale est la statistique du \(\chi^2\) fois \(y_{++}\) : lā€™Ć©cart Ć  lā€™indĆ©pendance des lignes et des colonnes. Lā€™inertie dā€™un point est sa contribution Ć  cette statistique.

La projection capture le maximum dā€™inertie.

AFC : pratique

Le jeu de donnĆ©es dune du package vegan contient des donnĆ©es dā€™abondance de 30 espĆØces vĆ©gĆ©tales sur 20 sites.

library("vegan")
data(dune)
library("FactoMineR")
dune_ca <- CA(dune, graph = FALSE)

AFC : Pratique

fviz_ca_row(
  dune_ca,
  repel = TRUE     # Avoid text overlapping
)

AFC : Pratique

fviz_ca_col(
  dune_ca,
  repel = TRUE     # Avoid text overlapping
)

AFC : Pratique

fviz_ca_biplot(
  dune_ca, 
  repel = TRUE
)

Detrended Correspondence Analysis

Hill, M.O. and Gauch, H.G. (1980). Detrended Correspondence Analysis: An Improved Ordination Technique. Vegetatio 42:47ā€“58.

Anglais : DCA

Objectif : Ć©liminer lā€™effet Guttman (arch effect).

DCA : mƩthode

AprĆØs lā€™AFC, lā€™arc est dĆ©coupĆ© en segments qui sont ensuite alignĆ©s.

vegan::decorana.

Limites : faible support mathƩmatique.

Analyse directe

Objectif

Expliquer un tableau de contingence dā€™espĆØces par un tableau de variables environnementales.

MĆ©thode

Le tableau des espĆØces \(Y\) est dā€™abord rĆ©gressĆ© sur le tableau de lā€™environnement \(X\) (les lignes sont les sites, communs, chaque colonne de \(Y\) est rĆ©gressĆ©e sĆ©parĆ©ment).

RƩsultat : \(\hat{Y}\), part de \(Y\) expliquƩe par \(X\).

Ensuite, ACP ou AFC sur \(\hat{Y}\).

Analyse de Redondance

Rao, C.R. 1964. The use and interpretation of principal component analysis in applied research, SankhyaĆ”, Ser. A, 26:329-358.

Anglais : Redundancy Analysis (RDA)

MĆ©thode: ACP.

Pratique : ade4::pcaiv().

Analyse Canonique de Correspondance

ter Braak, C. 1986, Canonical Correspondence Analysis: A New Eigenvector Technique for Multivariate Direct Gradient Analysis. Ecology, 67:1167-1179.

Anglais : Canonical Correspondence Analysis (CCA)

MĆ©thode: AFC. Il existe une DCCA (Detrended CCA)

Pratique : ade4::pcaiv().

Conclusion

Choix de la mƩthode indirecte

knitr::include_graphics("images/indirect.png")

Choix de la mƩthode directe

knitr::include_graphics("images/direct.png")