23 fƩvrier 2024
Comprendre les principes des mĆ©thodes dāordination, aussi appelĆ©es analyses multivariĆ©es.
ConnaƮtre les principales mƩthodes et savoir les appliquer.
Discipline cible : Ʃcologie des communautƩs.
ProblĆ©matique : analyse des effets de nombreux facteurs sur de nombreuses espĆØces, sans modĆØle (ou presque).
MƩthode : rƩduction de dimensionnalitƩ.
Statistiques multivariƩes :
Classification (automatique).
Ordination : arrangement dāespĆØces le long de gradients
Tableaux de donnƩes :
Pour les mĆ©thodes dāanalyse directe, colonnes supplĆ©mentaires = facteurs environnementaux (quantitatifs ou qualitatifs).
Grand nombre de dimensions dans les donnĆ©es brutes, mais hypothĆØse que les relations importantes se rĆ©sument Ć un nombre rĆ©duit (2 ou 3 dimensions dans lāidĆ©al).
DonnĆ©es avec de nombreux zĆ©ros, trĆØs bruitĆ©es et redondantes : peu adaptĆ©es Ć des modĆØles classiques (du type prĆ©sence de lāespĆØce \(s\) ~ environnement).
MĆ©thodes exploratoires seulement.
Pearson, K. (1901) On lines and planes of closest fit to systems of points in space. Philosophical Magazine 2:559-572. Anglais : PCA, FranƧais : ACP.
Objectif : reprƩsenter un tableau de donnƩes multidimensionnel par rƩduction du nombre de dimensions.
ModĆØle : RĆ©ponse linĆ©aire de la prĆ©sence des espĆØces aux gradients.
Rotation du nuage de points original (espĆØces dans lāespace des sites). Les donnĆ©es peuvent ĆŖtre centrĆ©es et rĆ©duites.
Le premier axe reprƩsente la variabilitƩ maximale.
Les axes suivants sont orthogonaux et reprƩsentent le maximum de variabilitƩ rƩsiduelle.
Simulation de donnƩes corrƩlƩs en 3 dimensions
library(MASS) # Attention Ć MASS::select() # Matrice de covariance Sigma <- matrix( c( 1, 0.8, 0.6, 0.8, 1, 0.8, 0.6, 0.8, 1 ), nrow = 3 ) # Simulation de X et Y XYZ <- mvrnorm(10, mu = rep(0, 3), Sigma = Sigma)
stats::prcomp()
ou ade4::dudi.pca()
ou FactoMineR::PCA()
. Visualisation avec factoextra.
# ACP XYZ_pca <- prcomp(XYZ, scale = TRUE) library("factoextra") fviz_eig(XYZ_pca)
Affichage des valeurs propres.
fviz_pca_ind( XYZ_pca, col.ind = "cos2", # Color by the quality of representation gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"), repel = TRUE # Avoid text overlapping )
fviz_pca_var( XYZ_pca, col.var = "contrib", # Color by contributions to the PC gradient.cols = c("#00AFBB", "#E7B800", "#FC4E07"), repel = TRUE # Avoid text overlapping )
fviz_pca_biplot( XYZ_pca, repel = TRUE, col.var = "#2E9FDF", # Variables color col.ind = "#696969" # Individuals color )
Tenenhaus, M. & Young, F.W. (1985) An analysis and synthesis of multiple correspondence analysis, optimal scaling, dual scaling, homogeneity analysis ans other methods for quantifying categorical multivariate data. Psychometrika, 50:91-119.
Anglais : MCA, FranƧais : ACM
Identique Ć lāACP mais les donnĆ©es sont toutes qualitatives (factors dans R) et les catĆ©gories ne sont pas ordonnĆ©es.
Chaque variable est ƩclatƩe en autant de variables que de modalitƩs.
ade4::dudi.acm()
.
Hill, M. O., and A. J. E. Smith. 1976. Principal component analysis of taxonomic data with multi-state discrete characters. Taxon, 25:249-255.
Objectif : traiter des donnƩes mixtes quantitatives et qualitatives ordonnƩes ou non.
ade4::dudi.hillsmith()
.
Gower, J. C. (1966) Some distance properties of latent root and vector methods used in multivariate analysis. Biometrika, 53: 325ā338.
Anglais : PCoA
Objectif : identique Ć lāACP, mais on dispose dāune matrice de distances entre relevĆ©s, pas de coordonnĆ©es.
Si la matrice de distance est euclidienne, les relevĆ©s sont reprĆ©sentĆ©s dans lāespace, une ACP suit pour les projections.
Pas de biplot : seules les distances entre relevƩs sont connues.
ade4::dudi.pco()
.
Kruskal, J.B. 1964. Multidimensional scaling by optimizing goodness of fit to a nonmetric hypothesis. Psychometrika 29:1-27
Anglais : NMDS
Objectif : identique Ć la PCoA mais sans projection. Les sites sont placĆ©s dans un espace de dimension choisie de faƧon Ć maximiser la corrĆ©lation entre lāordre de leurs distances dans les deux espaces.
Optimisation par itĆ©ration : les points sont dĆ©placĆ©s alĆ©atoirement. Calcul trĆØs lourd, risque de minimum local.
Le choix de la mƩtrique est important.
CritĆØre de choix : le stress, mesure le dĆ©saccord entre lāordination obtenue et une ordination parfaite.
vegan::metaMDS()
, distance de Bray-Curtis par dƩfaut.
Hirschfeld, H.O. (1935) “A connection between correlation and contingency”, Proc. Cambridge Philosophical Society, 31: 520ā524
Anglais : CA, FranƧais : AFC.
Objectif : identique Ć lāACP, mais la mĆ©trique est diffĆ©rente.
ade4::dudi.coa()
.
On suppose que la rĆ©ponse des espĆØces aux gradients est unimodale (et non linĆ©aire).
Reciprocal Averaging Algorithm ; Intuition en 1D :
le score du site \(j\) reprĆ©sente sa position sur le gradient environnemental. Lāoptimum environnemental pour lāespĆØce \(i\) est la moyenne des scores des sites pondĆ©rĆ©e par la frĆ©quence de lāespĆØce.
Raisonnement symĆ©trique pour le score de lāespĆØce \(j\) : sa position sur le gradient est la moyenne pondĆ©rĆ©e des scores des sites oĆ¹ elle est prĆ©sente.
En rĆ©alitĆ©, la niche est en n-1 dimensions, les espĆØces sont au centre de gravitĆ© des sites et inversement.
Les sites proches ont les mĆŖmes “caractĆ©ristiques environnementales”. Les espĆØces proches “occupent la mĆŖme niche”.
Une espĆØce est proche dāun site si les caractĆ©ristiques du site correspondent aux prĆ©fĆ©rences de lāespĆØce.
Ne sāapplique quāĆ des donnĆ©es de comptage.
MĆ©thode Ć©quivalente : BenzĆ©cri, J.P. (1973) Lāanalyse des donnĆ©es. II Lāanalyse des correspondances, Bordas, Paris.
Chaque donnƩe \(y_{i,j}\) de la matrice de dƩpart est transformƩe en frƩquence : \(p_{i,j} = y_{i,j} / y_{++}\)
Les coordonnƩes des points sont \(p_{i,j} - p_{i+} p_{+j}\)
Lāinertie totale est la statistique du \(\chi^2\) fois \(y_{++}\) : lāĆ©cart Ć lāindĆ©pendance des lignes et des colonnes. Lāinertie dāun point est sa contribution Ć cette statistique.
La projection capture le maximum dāinertie.
Le jeu de donnĆ©es dune du package vegan contient des donnĆ©es dāabondance de 30 espĆØces vĆ©gĆ©tales sur 20 sites.
library("vegan") data(dune) library("FactoMineR") dune_ca <- CA(dune, graph = FALSE)
fviz_ca_row( dune_ca, repel = TRUE # Avoid text overlapping )
fviz_ca_col( dune_ca, repel = TRUE # Avoid text overlapping )
fviz_ca_biplot( dune_ca, repel = TRUE )
Hill, M.O. and Gauch, H.G. (1980). Detrended Correspondence Analysis: An Improved Ordination Technique. Vegetatio 42:47ā58.
Anglais : DCA
Objectif : Ć©liminer lāeffet Guttman (arch effect).
AprĆØs lāAFC, lāarc est dĆ©coupĆ© en segments qui sont ensuite alignĆ©s.
vegan::decorana
.
Limites : faible support mathƩmatique.
Expliquer un tableau de contingence dāespĆØces par un tableau de variables environnementales.
Le tableau des espĆØces \(Y\) est dāabord rĆ©gressĆ© sur le tableau de lāenvironnement \(X\) (les lignes sont les sites, communs, chaque colonne de \(Y\) est rĆ©gressĆ©e sĆ©parĆ©ment).
RƩsultat : \(\hat{Y}\), part de \(Y\) expliquƩe par \(X\).
Ensuite, ACP ou AFC sur \(\hat{Y}\).
Rao, C.R. 1964. The use and interpretation of principal component analysis in applied research, SankhyaĆ”, Ser. A, 26:329-358.
Anglais : Redundancy Analysis (RDA)
MĆ©thode: ACP.
Pratique : ade4::pcaiv()
.
ter Braak, C. 1986, Canonical Correspondence Analysis: A New Eigenvector Technique for Multivariate Direct Gradient Analysis. Ecology, 67:1167-1179.
Anglais : Canonical Correspondence Analysis (CCA)
MĆ©thode: AFC. Il existe une DCCA (Detrended CCA)
Pratique : ade4::pcaiv()
.
knitr::include_graphics("images/indirect.png")
knitr::include_graphics("images/direct.png")