17 Mai 2024

Motivation

Mesures classiques de biodiversité

Inventaire d’arbres de forêt tropicale :

  • \(S\) espèces
  • La probabilité qu’un arbre soit de l’espèce \(s\) est \(p_s\).

Jusqu’à Rényi :

  • Richesse spécifique : \(S\)
  • “indice de Shannon” : \(-\sum_s{p_s \ln(p_s)}\)
  • “indice de Simpson” : \(\sum_s{p_s (1 - p_s)}\)

Diversité \(\alpha\), \(\beta\), \(\gamma\)

Plusieurs niveaux d’observation hiérarchisés (Whittaker 1960).

  • Communautés locales : diversité \(\alpha\) = nombre moyen d’espèces par communauté
  • Ensemble des communautés : diversité \(\gamma\) = nombre total d’espèces
  • Divergence entre les communautés : diversité \(\beta\) = au choix
    • \(S_\gamma - S_\alpha\) : nombre d’espèces supplémentaires
    • \(S_\gamma / S_\alpha\) : rapport entre les nombres d’espèces

Objectifs

Unifier les mesures de diversité dans le cadre de l’entropie.

Introduire les nombres de Hill.

Expliciter la diversité \(\beta\), décomposer la diversité \(\gamma\) en \(\alpha\) et \(\beta\).

Appliquer cette approche à l’économie géographique :

  • Spécialisation : notion opposée à la diversité
  • Concentration géographique : opposée à la diversité des communautés occupées par une espèce
  • Introduire la diversité jointe et la décomposer.

Notations

Données sous formes de table de contingence :

  • \(S\) Espèces en ligne, \(I\) communautés en colonne, \(n\) individus
  • \(n_{s,i}\) individus de l’espèce \(s\) dans la communauté \(i\)
  • \(p_{s|i} = n_{s,i} / n_s\) : probabilité de l’espèce \(s\) dans la communauté \(i\), \(\sum_s{p_{s|i}} = 1\)
  • \(w_i\) : poids arbitraire de la communauté \(i\)
  • \(p_s = \sum_i{w_i p_{s|i}}\)
  • Cas particulier (sans intérêt pour la biodiversité, très utile ailleurs) : \(w_i = n_i / n\)

Exemple de données

Données Eurostat publiques sur les effectifs salariés des secteurs économiques des pays européens.

19 industries, 25 pays.

AT BE BG CZ DE DK EE
C10 71924 85083 82510 101575 591468 54896 13827
C11 9319 9814 13298 15301 71327 4523 1516
C13 8665 17329 12914 25983 73448 3951 4452
C14 6212 3495 99974 25717 35275 1611 6052
C16 32762 11271 17263 54290 92412 9630 17191
C17 17078 11044 10353 20102 150984 6027 1430

  • C10 : Manufacture de produits alimentaires, etc.
  • AT : Autriche, etc.

Cas particulier où le poids de chaque pays est son effectif total.

Entropie

Historique 1

L’entropie de Rényi (1961) a du succès en écologie dans les années 1960…

… Mais Hurlbert (1971) publie The Nonconcept of Species Diversity: A Critique and Alternative Parameters :

  • l’entropie est peu intuitive,
  • elle ne garantit pas de relation d’ordre

Hill (1973) introduit les nombres effectifs (devenus Nombres de Hill) :

  • nombres d’espèces équiprobables ayant la même entropie que les données (concept de Wright 1931)

Historique 2

L’entropie de Rényi est oubliée progressivement, on revient aux “indices” jusqu’à Jost (2006) qui publie Entropy and Diversity :

  • les “indices” sont des entropies HCDT (Tsallis 1988)
  • la diversité au sens strict est un nombre de Hill

Formalisation

L’entropie HCDT d’ordre q est

\[^{q}H(\mathbf{p_s}) = \frac{1}{q-1}\left(1-\sum^S_{s=1}{p^q_s}\right),\] où \(\mathbf{p_s} = \{p_1, p_2, \dots, p_s, \dots, p_S\}\)

Elle généralise les mesures traditionnelles :

  • \(^{0}H\) est le nombre d’espèces moins 1
  • \(^{1}H\) est l’indice de Shannon
  • \(^{2}H\) est l’indice de Simpson

Nouvelle formalisation

L’entropie est l’espérance de l’information apportée par une observation (Maasoumi 1993)

L’information \(I(p_s)\) est strictement décroissante et \(I(1)=0\).

L’information de Shannon est \(\ln(1/p_s)\)

L’inverse de la probabilité \(p_s\) est appelé rareté de l’espèce \(s\)

\(\implies\) L’information de Shannon est le log de la rareté.

Généralisation

Logarithme déformé d’ordre \(q\) (Tsallis 1994) : \(\ln_q x = \frac{x^{1-q} -1}{1-q}\)

Alors \(^{q}H(\mathbf{p}) = \sum_s{p_s ln_q{(1/p_s)}}\)

Nombres de Hill

Le nombres de Hill d’ordre \(q\) est l’exponentielle déformée de l’entropie (Marcon et al. 2014) : \[e^x_q = [1 + (1 - q)x]^{\frac{1}{1-q}}.\]

\[^{q}D(\mathbf{p_s}) = e_q^{^{q}H(\mathbf{p_s})}\]

C’est un nombre effectif d’espèces / secteurs économiques.

Profils de Diversité

Profils de diversité de l’Europe (noir), de l’Italie (vert), de la France (orange), de l’Allemagne (bleu) et de l’Islande (pointillés noirs).

Spécialisation

Notion opposée à celle de diversité, utilisée en économie.

  • Indice de Theil (1967) : \(\ln S - {^{1}H}\)
  • Indice d’Herfindahl (Hirschman 1964) : \(\sum_s{p_s^2} = 1 - {^{2}H}\)

Généralisation : spécialisation absolue, par exemple

\[(S - {^{q}D(\mathbf{p_s})}) / (S - 1)\]

Profil de spécialisation

Valence

Diversité des pays occupés par un secteur.

En écologie : largeur de niche (Levins 1968) = diversité des habitats occupés par une espèce.

Calculée à partir des probabilités qu’un individu du secteur \(s\) choisi se trouve dans le pays \(i\): \(\mathbf{p_{i|s}}\)

Les poids des secteurs / espèces sont arbitraires : \(\mathbf{w_s}\)

Raisonnement identique à celui de la diversité, \(\mathbf{p_{i|s}}\) remplace \(\mathbf{p_{s|i}}\)

La concentration spatiale est la notion opposée. On peut la définir comme la spécialisation : \[(I - {^{q}D(\mathbf{p_i})}) / (I - 1)\]

Profil de valence

Profils de valence absolue de l’industrie (noir), du secteur C10 (vert) et du secteur C20 (Manufacture de produits chimiques : bleu)

Divergence

Historique 3

Débat sur la décomposition additive ou multiplicative de la diversité : numéro spécial de Ecology (Ellison 2010)

Deux propositions:

  • Chao, Chiu, and Hsieh (2012) : définition ad-hoc de la diversité \(\alpha\)
  • Marcon et al. (2014) : présenté ici

Décomposition de l’entropie

L’entropie de Tsallis de la métacommunauté est la somme de la moyenne des entropies des communautés et des divergences entre la métacommunauté et les communautés locales.

\[^{q}_{\gamma}H(\mathbf{p_{s|i}, w_i}) = \sum_{s}{p_{s}\ln_q{(1/p_{s})}}\]

\[^{q}_{\gamma}H(\mathbf{p_{s|i}, w_i}) = {^{q}_{\alpha}H(\mathbf{p_{s|i}, w_i})} + {^{q}_{\beta}H(\mathbf{p_{s|i}, w_i}})\]

Décomposition de l’entropie

L’entropie \(\alpha\) est la moyenne des entropies des communautés :

\[^{q}_{\alpha}H(\mathbf{p_{s|i}, w_i})=\sum_{i}{w_i\sum_{s}{p_{s|i}\ln_q{(1/p_{s|i})}}}\]

L’entropie \(\beta\) est la moyenne des divergences (Tsallis 1998) entre les communautés et la métacommunauté :

\[^{q}_{\beta}H(\mathbf{p_{s|i}, w_i})=\sum_{i}{w_i\sum_{s}{p_{s|i}[\ln_q{(1/p_{s})-\ln_q{(1/p_{s|i})]}}}}\] - Entropie de l’Europe = Moyenne de (entropie absolue + entropie relative des pays).

Décomposition de la diversité

La décomposition de la diversité est multiplicative.

\[^{q}_{\gamma}D(\mathbf{p_{s|i}, w_i})= {^{q}_{\alpha}D(\mathbf{p_{s|i}, w_i})} \times {^{q}_{\beta}D(\mathbf{p_{s|i}, w_i}})\]

  • Nombre effectif de secteurs de l’Europe = Nombre effectif de secteur par pays x nombre effectif de pays.

Attention : la diversité \(\beta\) n’est l’exponentielle de la divergence qu’à l’ordre 1 (Kullback-Leibler).

Diversité des secteurs industriels en Europe

Diversité jointe

Définitions

Diversité de toute la distribution des \(p_{s,i}\) : nombre d’employés par secteur et pays.

\[^{q}_{\sigma}H(\mathbf{p_{s,i}})=\sum_{s,i}{p_{s,i}\ln_q{(1/p_{s,i})}}\]

\[^{q}_{\sigma}D(\mathbf{p_{s,i}}) = e_q^{^{q}_{\sigma}H(\mathbf{p})}\] Nombre effectif de secteurs x pays, sans interprétation utile.

Décomposition

Décomposition similaire de l’entropie et de la diversité, avec une composante supplémentaire : la redondance (Gregorius 2010).

Diversité jointe = Nombre effectif de secteurs par pays x nombre de pays effectifs x redondance des pays.

Diversité de l’industrie européenne

Conclusion

Spécificités disciplinaires

Voir Marcon (2019).

Points de vue :

  • Diversité ou spécialisation
  • Valence ou concentration spatiale

Pratiques :

  • Données exhaustives en économie
  • Échantillons en écologie :
    • poids arbitraires
    • pas de diversité jointe, pas de concentration spatiale

Estimation

En écologie, dans des systèmes très divers, les espèces rares ne sont pas échantillonnées.

Littérature abondante sur l’estimation de l’entropie à partir de données incomplètes. Revue : Marcon (2015).

Les données d’abondance sont indispensables, alors que les fréquences suffisaient dans toute la présentation.

Littératures parallèles

Entropie HCDT découverte trois fois : Havrda and Charvát (1967), Daróczy (1970), Tsallis (1988)

Entropie de Shannon redécouverte par Theil (1967) (concentration absolue)

Divergence de Kullback and Leibler (1951) redécouverte par Theil (1967) (concentration relative), Mori, Nishikimi, and Smith (2005) et Alonso-Villar and Del Río (2013)

Autres approches

  • Pour les collectionneurs : entropie de Simpson généralisée (Grabchak et al. 2017) d’ordre \(r < n\)
    • Fonction d’information : \(I(p_s) = (1 - p_s)^r\).
    • Interprétation: probabilité que le (r + 1)ème individu soit d’une nouvelle espèce.
    • Non décomposable.
  • En redéfinissant la rareté : entropie de Ricotta and Szeidl (2006), diversité de Leinster and Cobbold (2012)
    • Rareté : \(1/\mathbf{Z p_s}\) où \(\mathbf{Z}\) est une matrice de similarité entre espèces.

References

Alonso-Villar, Olga, and Coral Del Río. 2013. Concentration of Economic Activity: An Analytical Framework.” Regional Studies 47 (5): 756–72. https://doi.org/10.1080/00343404.2011.587796.

Chao, Anne, Chun-Huo Chiu, and T. C. Hsieh. 2012. “Proposing a Resolution to Debates on Diversity Partitioning.” Ecology 93 (9): 2037–51. https://doi.org/10.1890/11-1817.1.

Daróczy, Zoltán. 1970. Generalized information functions.” Information and Control 16 (1): 36–51. https://doi.org/10.1016/s0019-9958(70)80040-7.

Ellison, Aaron M. 2010. Partitioning diversity.” Ecology 91 (7): 1962–63. https://doi.org/doi:10.1890/09-1692.1.

Grabchak, Michael, Eric Marcon, Gabriel Lang, and Zhiyi Zhang. 2017. “The Generalized Simpson’s Entropy Is a Measure of Biodiversity.” Plos One 12 (3): e0173305. https://doi.org/10.1371/journal.pone.0173305.

Gregorius, Hans-Rolf. 2010. Linking Diversity and Differentiation.” Diversity 2 (3): 370–94. https://doi.org/10.3390/d2030370.

Havrda, Jan, and František Charvát. 1967. Quantification method of classification processes. Concept of structural alpha-entropy.” Kybernetika 3 (1): 30–35. https://eudml.org/doc/28681.

Hill, M. O. 1973. Diversity and Evenness: A Unifying Notation and Its Consequences.” Ecology 54 (2): 427–32. https://doi.org/10.2307/1934352.

Hirschman, Albert O. 1964. The Paternity of an Index.” The American Economic Review 54 (5): 761–62.

Hurlbert, Stuart H. 1971. The Nonconcept of Species Diversity: A Critique and Alternative Parameters.” Ecology 52 (4): 577–86. https://doi.org/10.2307/1934145.

Jost, Lou. 2006. Entropy and diversity.” Oikos 113 (2): 363–75. https://doi.org/10.1111/j.2006.0030-1299.14714.x.

Kullback, S., and R. A. Leibler. 1951. On Information and Sufficiency.” The Annals of Mathematical Statistics 22 (1): 79–86.

Leinster, Tom, and Christina Cobbold. 2012. “Measuring Diversity: The Importance of Species Similarity.” Ecology 93 (3): 477–89. https://doi.org/10.1890/10-2402.1.

Levins, Richard. 1968. Evolution in Changing Environments: Some Theoretical Explorations. Princeton University Press.

Maasoumi, Esfandiar. 1993. “A Compendium to Information Theory in Economics and Econometrics.” Econometric Reviews 12 (2): 137–81. https://doi.org/10.1080/07474939308800260.

Marcon, Eric. 2015. Practical Estimation of Diversity from Abundance Data.” HAL 01212435 (version 2).

———. 2019. “Mesure de La Biodiversit é Et de La Structuration Spatiale de l’activit é Économique Par l’entropie.” Revue économique 70 (3): 305–26. https://doi.org/10.3917/reco.703.0305.

Marcon, Eric, Ivan Scotti, Bruno Hérault, Vivien Rossi, and Gabriel Lang. 2014. Generalization of the Partitioning of Shannon Diversity.” Plos One 9 (3): e90289. https://doi.org/10.1371/journal.pone.0090289.

Mori, Tomoya, Koji Nishikimi, and Tony E. Smith. 2005. A Divergence Statistic for Industrial Localization.” The Review of Economics and Statistics 87 (4): 635–51. https://doi.org/10.1162/003465305775098170.

Rényi, Alfréd. 1961. On Measures of Entropy and Information.” In 4th Berkeley Symposium on Mathematical Statistics and Probability, edited by Jerzy Neyman, 1:547–61. Berkeley, USA: University of California Press.

Ricotta, Carlo, and Laszlo Szeidl. 2006. “Towards a Unifying Approach to Diversity Measures: Bridging the Gap Between the Shannon Entropy and Rao’s Quadratic Index.” Theoretical Population Biology 70 (3): 237–43. https://doi.org/10.1016/j.tpb.2006.06.003.

Theil, H. 1967. Economics and Information Theory. Chicago: Rand McNally & Company.

Tsallis, Constantino. 1988. Possible generalization of Boltzmann-Gibbs statistics.” Journal of Statistical Physics 52 (1): 479–87. https://doi.org/10.1007/BF01016429.

———. 1994. What are the numbers that experiments provide? Qu ímica Nova 17 (6): 468–71. http://quimicanova.sbq.org.br/detalhe{\_}artigo.asp?id=5517.

———. 1998. “Generalized Entropy-Based Criterion for Consistent Testing.” Physical Review E 58 (2): 1442–45. https://doi.org/10.1103/PhysRevE.58.1442.

Whittaker, R. H. 1960. Vegetation of the Siskiyou Mountains, Oregon and California.” Ecological Monographs 30 (3): 279–338. https://doi.org/10.2307/1943563.

Wright, Sewall. 1931. Evolution in Mendelian Populations.” Genetics 16 (2): 97–159.