2 Méthodes

2.1 Questions similaires et notions opposées

Les méthodes présentées ici ont été développées par la littérature sur la biodiversité. Les écologues ont besoin de mesurer la diversité d’une communauté végétale, composée de plusieurs espèces dont les effectifs sont connus. Une question moins traitée concerne l’ubiquité des espèces, c’est-à-dire pour une espèce donnée la diversité des environnements dans lesquels elle se trouve. Cette notion a été formalisée sous le nom de largeur de niche par Levins (1968), au sens où la niche écologique est l’ensemble des conditions nécessaires au développement et à la reproduction d’un être vivant. Pour fixer les idées et sans perte de généralité, les exemples traités ici concerneront des arbres dans une forêt tropicale. Chaque arbre appartient à une et une seule espèce, et le nombre d’individus de chaque espèce est connu. Les arbres ont une taille qui permet de pondérer leur importance: la mesure classiquement utilisée est la surface terrière, c’est-à-dire la surface (horizontale) du tronc découpé à 1,30 m de hauteur (Kershaw et al. 2017). Les espèces sont situées dans une taxonomie: elles sont regroupées par genres et les genres par familles. Enfin, la forêt est divisée géographiquement en parcelles, elles-mêmes en sous-parcelles.

En économie géographique, la question probablement la plus traitée est celle de la concentration spatiale (Ottaviano et Puga 1998; Combes et Gobillon 2015), source d’externalités positives (Baldwin et Martin 2004). Elle est très semblable à l’ubiquité des espèces des écologues, mais opposée: une forte concentration est synonyme d’une faible ubiquité. La spécialisation (Amiti 1997) est de même la notion inverse de la diversité. Les exemples traités ici en économie concerneront les établissements industriels des pays d’Europe fournis par la base EuroStat en accès libre. Les établissements ont un nombre d’employés, qui permet leur pondération. Ils appartiennent à un secteur d’activité, ici selon la nomenclature NUTS, qui est une taxonomie similaire à celle des espèces biologiques, et leur localisation par pays peut être détaillée par régions (selon la nomenclature NACE) et leurs subdivisions.

La spécialisation et la concentration spatiale (Cutrini 2010), comme la diversité et l’ubiquité (Gregorius 2010) sont mathématiquement liées: l’existence de secteurs très concentrés implique celle de régions spécialisées dans ce secteur. Une approche synthétique peut être développée: Cutrini (2010) définit la localisation globale à cet effet, qui sera généralisée.

2.2 Données et notations

Les données ont été choisies pour leur accessibilité et leur simplicité: il s’agit ici de présenter des méthodes plus que de traiter en détail des questions économiques complexes. Les applications s’appuieront sur les nombres de personnes employées par secteur industriel dans 25 pays européens en 2015. Les données sont disponibles en ligne sur la base EuroStat,1 dans le fichier SBS data by NUTS 2 regions and NACE Rev. 2.

La nomenclature des secteurs économiques est la NACE (Nomenclature statistique des Activités économiques dans les Communautés Européennes) dans sa révision 2. Seuls les secteurs industriels (code NACE : C) ont été retenus. Les secteurs C12 (manufacture de produits du tabac), C19 (manufacture de coke et produits du pétrole raffiné), C21 (Manufacture de produits pharmaceutiques de base et préparations pharmaceutiques) et C30 (Manufacture d’autres équipements de transport) ont été retirés parce qu’ils présentaient des données manquantes dans des pays majeurs (par exemple, C30 en Belgique).

Parmi les 30 pays disponibles, Chypre, Malte, l’Irlande, le Luxembourg et la Slovénie ont été retirés parce qu’ils comportaient trop de données manquantes. La sélection des données se résume donc à un compromis pour conserver l’essentiel de l’information, tout à fait discutable mais suffisant pour les besoins de démonstration méthodologique de cet article.

Après filtrage, les données se présentent donc sous la forme d’une table (appelée tableau de contingence) dont les 19 lignes sont les secteurs industriels et les 25 colonnes les pays retenus. Chaque cellule du tableau contient le nombre de personnes employées dans le secteur et le pays considéré, sans données manquantes.

Les secteurs sont indicés par la lettre \(s\) et les pays par la lettre \(i\). Les effectifs par secteur et pays sont notés \(n_{s,i}\). Les valeurs marginales sont notées \(n_i\) (l’effectif du pays \(i\), tous secteurs confondus) et \(n_s\) (celui du secteur \(s\), tous pays confondus). Pour alléger l’écriture, le niveau d’agrégation correspondant à l’ensemble des secteurs sera appelé l’industrie et celui correspondant à l’ensemble des pays l’Europe: \(n_s\) sera donc appelé le nombre de personnes travaillant dans le secteur \(s\) en Europe. L’effectif total est \(n=\sum_s{n_s}=\sum_i{n_i}\), égal à 27 419 407. Les tailles relatives des pays et des secteurs sont représentées en annexe. La probabilité qu’une personne choisie au hasard travaille dans le secteur \(s\) et le pays \(i\) est notée \(p_{s,i}\) et estimée par sa fréquence observée \(p_{s,i}=n_{s,i}/n\) (pour alléger la notation, la fréquence empirique est notée comme la probabilité théorique plutôt que \(\hat{p}_{s,i}\)). Enfin, les probabilités seront aussi considérées par secteur ou par région: \(p_{s|i}= p_{s,i}/p_i\) est la probabilité pour une personne du pays \(i\) de travailler dans le secteur \(s\) dont la somme sur tous les secteurs vaut 1 (\(\sum_s{p_{s|i}}=1\)). Le vecteur des probabilités \(p_{s|i}\) de tous les secteurs dans le pays \(i\) est noté \(\mathbf{p_{s|i}}\). De même, \(p_{i|s}\) est la probabilité, dans le secteur \(s\) choisi, qu’une personne travaille dans le pays \(i\) et \(\mathbf{p_{i|s}}\) est le vecteur des probabilité des pays pour le secteur \(s\). Enfin, les probabilités marginales sont notées \(p_s\) et \(p_i\); elles sont estimées respectivement par \(n_{s}/n\) et \(n_{i}/n\).

Les données et le code R (R Core Team 2018) nécessaires pour reproduire l’intégralité des résultats se trouvent en annexe. Le code utilise largement le package entropart (Marcon et Hérault 2015b) consacré à la mesure de la biodiversité.

2.3 L’entropie comme mesure d’incertitude

Les notions étant établies, il s’agit maintenant de les traduire en mesures opérationnelles permettant de comparer la diversité de différentes communautés végétales ou la spécialisation de régions industrielles, de donner un sens concret, facilement compréhensible, à ces mesures, et de caractériser leurs propriétés pour pouvoir les utiliser par exemple dans le cadre de modèles.

La diversité biologique est un déterminant important du fonctionnement des écosystèmes (Chapin et al. 2000). Parmi de très nombreuses mesures ad-hoc développées selon les besoins (Peet 1974), l’intérêt de l’entropie de Shannon (1948) a été argumenté notamment par Pielou (1975) dans un ouvrage de référence. En économétrie, les travaux de Davis (1941) et surtout Theil (1967) ont ouvert la voie. Le très connu indice de Theil est la différence entre l’entropie de Shannon et sa valeur maximale possible, ce qui illustre l’opposition des approches présentée plus haut en même temps que la convergence des méthodes.

L’entropie est, entre autres, une mesure d’incertitude qu’il est temps de formaliser. Définissons une expérience (par exemple l’échantillonnage d’un arbre au hasard dans une forêt) dont l’ensemble des résultats possibles (l’espèce à laquelle il appartient) est connu. Les résultats sont notés \(r_s\) où l’indice \(s\) prend toutes les valeurs possibles entre 1 et \(S\), le nombre de résultats possibles. La probabilité d’obtenir \(r_s\) est \(p_s\), et \(\mathbf{p_s}=(p_1,p_2,\dots,p_S)\) est l’ensemble (mathématiquement, le vecteur) des probabilités d’obtenir chaque résultat. L’obtention du résultat \(r_s\) est peu étonnante si \(p_s\) est grande: elle apporte peu d’information supplémentaire par rapport à la simple connaissance des probabilités. En revanche, si l’espèce \(r_s\) est rare (\(p_s\) est petite), son tirage est surprenant. La notion d’information, définie par Shannon, est identique à celle de surprise, plus intuitive. On définit donc une fonction d’information, \(I(p_s)\), décroissante quand la probabilité augmente, de \(I(0)=+\infty\) (ou éventuellement une valeur strictement positive finie) à \(I(1)=0\) (l’observation d’un résultat certain n’apporte aucune surprise).

L’entropie est définie comme la moyenne de l’information apportée par tous les résultats possibles de l’expérience. Comme chaque résultat à la probabilité \(p_s\) d’être réalisée, la moyenne sur tous les résultats possibles est la moyenne pondérée de \(I(p_s)\). L’entropie est définie comme \[H(\mathbf{p_s})=\sum_{s}{p_s I(p_s)}.\]

2.3.1 Entropie de Shannon

Shannon a utilisé la fonction d’information \(I(p_s)=-\ln{p_s}\) pour ses propriétés mathématiques. Elle peut être écrite sous la forme \(I(p_s)=\ln({1/p_s})\). L’inverse de la probabilité, \(1/p_s\), sera appelé rareté: une espèce très rare a une probabilité proche de 0. La fonction d’information utilisée par Shannon est donc le logarithme de la rareté.

Le terme entropie avait été introduit par Clausius en 1865 pour sa nouvelle formulation du second principe de la thermodynamique énoncé par Carnot 40 ans plus tôt. Son étymologie grecque signifie transformation parce que le second principe concerne la variation d’entropie. Boltzmann a caractérisé l’entropie d’un système complexe (un gaz, donc chaque particule peut avoir plusieurs états possibles) en 1877 (Sharp et Matschinsky 2015). Shannon (1948) a enfin montré que le nombre d’états possibles d’un système est analogue au nombre de messages d’une longueur choisie pouvant être créés en assemblant les lettres d’un alphabet dont les fréquences des lettres sont fixées. L’entropie de Shannon est, à une constante près, égale à celle de Boltzmann normalisée par la longueur du message, dont elle est indépendante. Cette propriété fondamentale lui permet de décrire la complexité d’un système non seulement par le nombre possible de ses états, mais plus simplement par la fréquence relative de ses composants, donnant naissance à la théorie de l’information.

La pertinence de l’entropie comme mesure de diversité en découle directement: un système est d’autant plus divers qu’il peut avoir un grand nombre d’état possibles ou, de manière équivalente, qu’il est difficile de prévoir l’état dans lequel il se trouve, ou encore qu’il a une entropie élevée.

2.3.2 Entropie généralisée

De nombreuses fonctions d’informations alternatives sont envisageables, y compris les plus exotiques comme \(I(p_s)=\cos({p_s \pi/2})\) (Gregorius 2014).

Parmi elles, trois familles de fonctions paramétrisables se sont imposées : l’entropie généralisée de la littérature des inégalités (Shorrocks 1980), l’entropie de Rényi (1961), très utilisée jusqu’aux années 2000 pour la mesure de la biodiversité et, plus récemment, l’entropie HCDT détaillée ici.

Tsallis (1988) a proposé une cette entropie généralisée en physique statistique pour des systèmes ne répondant pas aux propriétés nécessaires à la théorie de Boltzmann. Elle avait été définie par Havrda et Charvát (1967) en cybernétique et redécouverte ensuite, notamment par Daróczy (1970) en théorie de l’information, d’où son nom, entropie HCDT (voir Mendes et al. (2008), page 451, pour un historique complet).

Sa forme mathématique est: \[ ^{q}H(\mathbf{p_s}) = \frac{1}{q-1}\left(1-\sum^S_{s=1}{p^q_s}\right),\]\(q\) est un paramètre arbitraire. \(^{1}H\) n’est pas définie directement mais on montre que \(^{q}H\) tend vers l’entropie de Shannon quand \(q \to 1\).

Son intérêt apparaît plus clairement en définissant une généralisation de la fonction logarithme, le logarithme déformé d’ordre \(q\) (Tsallis 1994) comme \[\ln_q{x} = \frac{x^{1-q}-1}{1-q}.\] Ici encore, \(\ln_q{x}\) tend vers le logarithme naturel quand \(q\) tend vers 1. L’entropie HCDT s’écrit alors comme une généralisation de l’entropie de Shannon : \[^{q}H(\mathbf{p_s}) = \sum_{s}{p_s \ln_q{(1/p_s)}}\]

Le logarithme déformé est une fonction qui, comme son nom l’indique, déforme la fonction logarithme naturel en changeant sa courbure mais en respectant, quel que soit \(q\), \(\ln_q{1}=0\) et les limites (\(-\infty\) quand \(x \to 0\) et \(+\infty\) quand \(x \to \infty\)). En faisant varier le paramètre \(q\), la fonction d’information \(\ln_q{(1/p_s)}\) attribue une plus grande (quand q, supérieur à 1, croît) ou moins grande (quand q, inférieur à 1, décroît) surprise aux espèces rares (dont la rareté, \(1/p_s\), est grande).

On dispose à ce stade d’une définition simple et générale : l’entropie (d’ordre \(q\)) d’un système est la surprise moyenne apportée par l’observation d’un de ses individus; la surprise est le logarithme (d’ordre \(q\)) de la rareté. Une communauté biologique est d’autant plus diverse qu’elle est surprenante (que son entropie est grande). Une région est d’autant plus spécialisée que son entropie est faible.

Trois valeurs de \(q\) sont particulièrement intéressantes:

  • \(q=0\): l’entropie est la richesse, c’est-à-dire \(S\), le nombre d’espèces ou de secteurs, moins 1 ;

  • \(q=1\): l’entropie est celle de Shannon. En économétrie, \(S-^{1}H\) est l’indice de Theil;

  • \(q=2\): l’entropie est l’indice de biodiversité de Simpson (1949), c’est-à-dire la probabilité que deux individus choisis au hasard appartiennent à une espèce différente. En économétrie, son complément à 1, c’est à dire la probabilité que deux individus appartiennent au même secteur, est l’indice de Herfindahl, ou Herfindahl-Hirschman (Hirschman 1964), qui mesure ici la spécialisation.

Les valeurs négatives de \(q\) donnent à une espèce une importance d’autant plus grande qu’elle est rare alors qu’à \(q=0\) toutes les espèces contribuent de façon identique à l’entropie (elles sont simplement comptées, quelle que soit leur probabilité). Leur intérêt est donc limité. Comme leurs propriétés mathématiques sont mauvaises (Marcon et al. 2014), elles ne sont en pratique pas utilisées. Les valeurs de \(q\) supérieures à 2 sont peu utilisées parce qu’elles négligent trop les espèces qui ne sont pas les plus fréquentes.

2.3.3 De l’entropie à la diversité

L’entropie a un sens physique : c’est une quantité de surprise; c’est donc bien plus qu’un indice, qui n’est qu’une valeur arbitraire devant seulement respecter une relation d’ordre pour permettre des comparaisons. Cependant, à l’exception des ordres 0 et 2, la valeur de l’entropie n’a pas d’interprétation intuitive. Les nombres de Hill répondent à ce manque.

Le souhait de Hill (1973) était de rendre les indices de diversité intelligibles après l’article remarqué de Hurlbert (1971) intitulé le non-concept de diversité spécifique. Hurlbert reprochait à la littérature sur la diversité sa trop grande abstraction et son éloignement des réalités biologiques, notamment en fournissant des exemples dans lesquels l’ordre des communautés n’était pas le même selon l’indice de diversité choisi.

Les nombres de Hill sont le nombre d’espèces équiprobables donnant la même valeur d’entropie que la distribution observée, autrement dit des nombres effectifs d’espèces, encore appelés nombres équivalents. Le concept a été défini rigoureusement par Gregorius (1991), d’après Wright (1931) qui avait le premier défini la taille effective d’une population en génétique: étant donné une variable caractéristique (ici, l’entropie) fonction seulement d’une variable numérique (ici, le nombre d’espèces) dans un cas idéal (ici, l’équiprobabilité des espèces), le nombre effectif est la valeur de la variable numérique pour laquelle la variable caractéristique est celle du jeu de données.

Formellement, ils sont simplement l’exponentielle déformée de l’entropie HCDT (Marcon et al. 2014). La fonction exponentielle déformée d’ordre \(q\) est la fonction réciproque du logarithme déformé, dont la valeur est \[e^x_q = [1 + (1-q)x]^{1/(1-q)}.\]

Le nombre de Hill d’ordre \(q\), appelé simplement diversité d’ordre \(q\) (Jost 2006) est donc \[^{q}D(\mathbf{p_s}) = e_q^{^{q}H(\mathbf{p_s})}.\]

La formulation explicite à partir des probabilités est: \[^{q}D(\mathbf{p_s}) = \left( \sum_{s}{p^q_s} \right)^{1/(1-q)}.\] Ces résultats avaient déjà été obtenus avec une autre approche par MacArthur (1965) et repris par Adelman (1969) dans la littérature économique. Aussi, la mesure d’inégalité d'@Atkinson1970 est très similaire aux nombres de Hill.

2.3.4 Profils de diversité

La diversité étant exprimée dans la même unité (un nombre d’espèces) quel que soit son ordre, il est possible de tracer un profil de diversité, c’est-à-dire la valeur de \(^{q}D\) en fonction de \(q\). Les courbes de deux communautés peuvent se croiser parce que le poids des espèces rares diminue avec l’augmentation de \(q\). Si ce n’est pas le cas, la relation d’ordre entre les communautés est bien définie (Tothmeresz 1995).

2.4 La décomposition de l’entropie

La notion de diversité \(\beta\) a été introduite par Whittaker (1960) comme le degré de différenciation des communautés biologiques. La question traitée est celle de la décomposition de la diversité de données agrégées (la diversité des secteurs économiques en Europe) à un niveau plus détaillé (par pays). La diversité du niveau le plus agrégé a été appelée \(\gamma\) par Whittaker, la diversité moyenne des niveaux détaillés \(\alpha\), et la différenciation entre les niveaux détaillés \(\beta\). Il est évident que les diversités \(\gamma\) et \(\alpha\) sont de même nature, seul le niveau de détail des données diffère. En revanche, la caractérisation de la diversité \(\beta\) a généré des controverses (Ellison 2010).

En économie, la décomposition des mesures d’inégalité a suivi une voie parallèle à celle des écologues (Bourguignon 1979). Celle de la concentration spatiale est restée limitée à l’entropie de Theil (Mori, Nishikimi, et Smith 2005; Cutrini 2010) à l’exception notable de Brülhart et Traeger (2005) qui ont utilisé l’entropie généralisée de Shorrocks (1980).

Jost (2007) a montré que la décomposition de l’entropie est additive : l’entropie \(\beta\) est la différence entre les entropies \(\gamma\) et \(\alpha\). Marcon et al. (2012) ont ensuite interprété l’entropie \(\beta\) comme l’information supplémentaire apportée par la connaissance des distributions désagrégées en plus de celle des données agrégées, c’est-à-dire une entropie relative. Cette information est la divergence entre les distributions, c’est-à-dire une mesure mathématique de l’écart entre leurs valeurs. La divergence de Kullback et Leibler (1951) est bien connue des économistes sous le nom d’entropie relative de Theil (Conceição et Ferreira 2000). La différence entre l’entropie \(\gamma\) d’ordre 1 et la moyenne des entropies d’ordre 1 des distributions désagrégées est la moyenne des divergences de Kullback-Leibler correspondantes, appelée par les physiciens statistiques divergence de Jensen-Shannon. Marcon et al. (2014) ont généralisé ce résultat à tous les ordres de l’entropie HCDT.

Comme l’entropie \(\gamma\) et \(\alpha\), l’entropie \(\beta\) peut être transformée en un nombre effectif qui est le nombre de communautés de même poids, sans espèce commune, qui auraient la même entropie \(\beta\) que les communautés réelles. La décomposition de la diversité est multiplicative : la diversité \(\gamma\) est le produit des diversités \(\alpha\) et \(\beta\).

La décomposition complète est finalement un produit de nombres effectifs : la diversité de l’assemblage de plusieurs communautés biologiques, appelée diversité \(\gamma\) est un nombre effectif d’espèces; c’est le produit du nombre effectif d’espèces de chaque communauté (diversité \(\alpha\)) par le nombre effectif de communautés (diversité \(\beta\)). Elle sera appliquée dans cet article à l’économie des pays européens : le nombre effectif de secteurs économiques de l’Europe (\(\gamma\)) est le produit du nombre effectif moyen de secteurs des pays (\(\alpha\)) par un nombre effectif de pays (\(\beta\)).

De même, l’ubiquité d’un secteur économique aggrégé (l’industrie manufacturière) est un nombre effectif de pays (\(\gamma\)), décomposable en un nombre effectif de pays par secteur désagrégé (\(\alpha\)) multiplié par un nombre effectif de secteurs désagrégés (\(\beta\)).

La décomposition sera limitée ici à un seul niveau de désagrégation des données. Elle peut être répétée : les pays peuvent être découpés en régions, les régions en départements… Le nombre effectif de secteurs économiques de l’Europe (\(\gamma\)) peut alors être décomposé en un nombre effectif de pays (\(\beta_1\)) fois un nombre effectif de régions (\(\beta_2\)) fois un nombre effectif de départements (\(\beta_3\)) fois un nombre effectif de secteurs par département (\(\alpha\)). La décomposition hiérarchique de la diversité a été traitée notamment par Marcon et al. (2012); Richard-Hansen et al. (2015); Pavoine, Marcon, et Ricotta (2016).

2.5 Diversité jointe: information mutuelle et redondance

Nous avons vu que l’entropie pouvait être utilisée selon les deux points de vue de la diversité et de l’ubiquité (de façon équivalente: la spécialisation et la concentration spatiale). Les données sont les mêmes et peuvent être représentés dans le tableau de contingence dont les lignes représentent par exemple les secteurs industriels alors que les colonnes représentent les pays, chaque cellule de la table fournissant l’abondance (en nombre d’établissements ou de personnes travaillant) d’un secteur dans un pays.

La diversité des pays est calculée en traitant chaque colonne du tableau, l’ubiquité des secteurs en traitant chaque ligne. La diversité \(^{q}D(\mathbf{p_s})\) de l’Europe entière (l’agrégation des pays) est obtenue, comme l’ubiquité des secteurs agrégés \(^{q}D(\mathbf{p_i})\), à partir des des probabilités marginales. La diversité \(^{q}D(\mathbf{p_{s,i}})\) de l’ensemble des données, tous secteurs et pays confondus, a un grand intérêt, notamment théorique pour l’entropie de Shannon (Faddeev 1956; Baez, Fritz, et Leinster 2011): elle est appelée diversité jointe (Gregorius 2010).

La différence entre l’entropie jointe et la somme des entropies marginales (celle de l’ensemble des secteurs et celle de l’ensemble des pays), \(^{q}H(\mathbf{p_{s,i}})-^{q}H(\mathbf{p_{s}})-^{q}H(\mathbf{p_{i}})\), s’appelle l’information mutuelle. L’entropie de Shannon (mais pas l’entropie HCDT d’ordre différent de 1) de deux systèmes indépendants s’additionne: si l’appartenance aux pays est indépendante de l’appartenance aux secteurs, c’est-à-dire si la probabilité \(p_{s,i}\) est simplement le produit des probabilités \(p_{s}\) et \(p_{i}\), alors l’entropie de Shannon jointe est nulle. En d’autres termes, l’information mutuelle est l’entropie supplémentaire apportée par la non indépendance des lignes et des colonnes du tableau. Elle est égale aux deux entropies \(\beta\), celle de la diversité et celle de l’ubiquité. Ces propriétés ne sont valables que pour l’entropie de Shannon mais ont été utilisées sous différentes formes dans la littérature (par exemple Cutrini 2009; Chao, Wang, et Jost 2013).

Quel que soit l’ordre considéré, Gregorius (2010) a montré que la diversité jointe apporte une information supplémentaire importante sur la distribution des abondances qui n’est pas prise en compte par la décomposition de la diversité déjà présentée. L’exemple de la biodiversité est utilisé ici pour simplifier l’exposé. La diversité \(\alpha\) est le nombre d’espèces équiprobables dans une communauté type. La diversité \(\beta\) est le nombre de ces communautés types, équiprobables et sans espèce commune. La diversité \(\gamma\) est le produit des deux précédentes, un nombre d’espèces équiprobables résultant de l’assemblage des communautés. Chaque espèce n’apparaît que dans une communauté dans cette représentation. La réplication à l’identique des communautés ne modifie pas les diversités \(\alpha\), \(\beta\) et \(\gamma\), c’est même une propriété demandée aux mesures de diversité (Hill 1973). En revanche, la diversité jointe est multipliée par le nombre de réplications (Marcon 2017): le rapport entre la diversité jointe et la diversité \(\beta\) mesure la redondance sous la forme d’un nombre effectif, le nombre de répétitions des communautés.

La redondance n’a que peu d’applications pratiques en écologie parce que les données disponibles sont en général des échantillons des communautés étudiées (des placettes d’inventaire forestier par exemple). Leur redondance reflète l’effort d’échantillonnage, qui est un choix de l’expérimentateur. Lorsque les données sont exhaustives ou, plus généralement, lorsque les probabilités marginales des communautés sont interprétables comme leurs tailles, la redondance est une information aussi importante que la diversité.