vendredi 13 novembre 2020

La loi de Benford au secours des habituels idiots

 Les Bidenégateurs (vous avez compris le sens de ce néologisme je pense) qui sont également climatonégateurs (rappelez-vous, négateur un jour, négateur toujours) nous sortent en file indienne des articles sur une « loi de Benford » supposée démontrer la fraude massive en défaveur de leur chouchou chéri le Donald, autrement appelé par les véritables extralucides le clown orange.

Par ordre d'apparition à l'écran :

Le 7 novembre chez Jo Nova : Hmm. Odd pattern of Biden-votes fails an easy first test for Tax Fraud (Hmm. Un curieux modèle de votes [en faveur de] Biden échoue à un premier test facile en matière de fraude fiscale)

Le 9 novembre chez Roy Spencer : Benford’s Law: Evidence of Fraud in Reporting of Voter Precinct Totals? (La loi de Benford : Preuve de fraude dans la déclaration des résultats électoraux ?)

Repris par WUWT le même jour : Statistics: Evidence of Malfeasance in Reporting of Election Totals? (Statistiques : Preuves de malversations dans la déclaration des totaux électoraux ?)

Le 12 novembre chez Roy Spencer again : Benford’s Law, Part 2: Inflated Vote Totals, or Just the Nature of Precinct Sizes? (La loi de Benford, partie 2 : Total des votes gonflés, ou juste la nature de la taille des circonscriptions ?)

On remarquera les points d'interrogation dans les trois derniers articles qui ne sont là que pour faire joli, les auteurs prenant simplement les précautions d'usage afin de ne pas insulter l'avenir mais n'en pensant toutefois pas moins ; Jo Nova, quant à elle, y va dans l'affirmatif, c'est sûr, c'est prouvé, l'élection de Biden est frauduleuse et cette fameuse loi de Benford le démontre incontestablement.

Je connaissais cette loi de Benford sans me souvenir de son nom ; il y a longtemps (je ne peux absolument pas dire quand) j'avais lu quelque chose là-dessus, donc je n'ai pas été vraiment surpris de la voir apparaitre chez nos loustics (mais aussi dans de nombreux autres articles)

Alors qu'est-ce que c'est que cette loi de Benford ?

Comme je ne suis pas mathématicien je risque d'être un piètre vulgarisateur en essayant de vous expliquer en peu de mots en quoi elle consiste, donc je vais grandement m'aider de Wikipédia (la version anglaise est ici) qui nous dit ceci en introduction :

La loi de Benford, initialement appelée loi des nombres anormaux par Benford1,2, fait référence à une fréquence de distribution statistique observée empiriquement sur de nombreuses sources de données dans la vraie vie, ainsi qu'en mathématiques.

A ce stade-là vous n'êtes pas plus avancés, n'est-ce pas ? Alors continuons :

Dans une série de données numériques, on pourrait s'attendre à voir les chiffres de 1 à 9 apparaître à peu près aussi fréquemment comme premier chiffre significatif, soit avec une fréquence de 1/9 = 11,1 % pour chacun. Or, contrairement à cette intuition (biais d'équiprobabilité), la série suit très souvent approximativement la loi de Benford : pour près du tiers des données, le 1er chiffre significatif le plus fréquent est le 1. Vient ensuite le chiffre 2, puis le 3, etc., et la probabilité d'avoir un 9 comme premier chiffre significatif n'est que de 4,6 % .

Etonnant, non ? Ainsi le chiffre 1 va être surreprésenté avec une occurrence de près de 33% là où on attendrait un « normal » 11,1% (100 / 9  = 11,11%) ; la répartition des chiffres dans les séries numériques concernées est visualisée par le graphique suivant :

Fréquences relatives d'apparition de la 1ère décimale d'un résultat de mesure selon la Loi de Benford

Et nos loulous de comparer plusieurs graphiques pour mettre en évidence une supposée fraude en faveur de Joe Biden ; par exemple :

Répartition des premiers chiffres (leading digits) pour plusieurs candidats à Chicago et Allegheny (source joannenova)

Dans ces graphiques la loi de Benford est matérialisée par une courbe rouge descendante et on remarque immédiatement que seul Joe Biden se démarque de ses autres concurrents (dont des outsiders tels que Jo Jorgensen) ; ainsi la fraude serait caractérisée, car « prouvée » par la violation de la loi de Benford !

Je le répète, et ne le répèterai jamais assez, non seulement je ne suis pas mathématicien mais en plus je suis assez nul en mathématique, étant seulement capable de maitriser les quatre opérations ainsi que la règle de trois, et encore sans garantie de ne pas me planter si je ne fais pas suffisamment attention.

Je vais donc botter en touche et simplement vous faire part de quelques commentaires glanés sur les sites de nos désinformateurs préférés, preuve que je ne suis pas partisan hein !

Dans l'article publié sur WUWT :

Greg Strebel
November 11, 2020 at 10:45 am

Mathematician Matt Parker has a very informative video on the applicability of Benford’s Law on this matter.
Le mathématicien Matt Parker a réalisé une vidéo très instructive sur l'applicabilité de la loi de Benford à ce sujet.




Dans l'article publié par Roy Spencer :

Tim C says:
November 11, 2020 at 3:21 PM

Benford’s law is not universal, but a statement that holds true for certain kinds of probability distributions. Specifically, it is true for probability distributions that are distributed evenly over a logarithmic scale. Equivalently, the probability density function must be proportional to 1/x over several orders of magnitude of x.

Dr. Spencer is trying to apply this statement to vote counts by precincts. However, precincts are chosen to be relatively uniform in size. Moreover, each precinct’s results approximately represent a sample of the overall population, and so their distribution should follow a normal distribution by the central limit theorem.

A normal distribution CANNOT satisfy the requirement for Benford’s law to hold. So there is absolutely no reason to think that it would apply. This is easy to see in practice: consider a normal distribution centered at an arbitrary number (say 600) with an arbitrary standard deviation (say 50), and obviously the most common leading digits will be 6, 5, and 7. Not 1 as predicted by Benford’s law.

This article should be retracted. There is no reason for Benford’s law to apply, so all analysis that follows is bogus. To insinuate that the election is fraudulent (as Dr. Spencer does several times) based on this nonsense is irresponsible, not to mention flat-out wrong. I would expect better from Dr. Spencer.
La loi de Benford n'est pas universelle, mais c'est une règle qui s'applique à certains types de distributions de probabilité. Plus précisément, elle est vraie pour les distributions de probabilités qui sont réparties de manière égale sur une échelle logarithmique. De même, la fonction de densité de probabilité doit être proportionnelle à 1/x sur plusieurs ordres de grandeur de x.

Le Dr Spencer tente d'appliquer cette déclaration au décompte des votes par circonscription. Cependant, les circonscriptions sont choisies pour être de taille relativement uniforme. De plus, les résultats de chaque circonscription représentent approximativement un échantillon de la population globale, et leur distribution devrait donc suivre une distribution normale selon le théorème de la limite centrale.

Une distribution normale NE PEUT PAS satisfaire à l'exigence de maintien de la loi de Benford. Il n'y a donc absolument aucune raison de penser qu'elle s'appliquerait. Cela est facile à voir en pratique : considérez une distribution normale centrée sur un nombre arbitraire (disons 600) avec un écart-type arbitraire (disons 50), et évidemment les chiffres les plus courants en tête seront 6, 5 et 7. Pas 1 comme le prédit la loi de Benford.

Cet article devrait être rétracté. La loi de Benford n'a aucune raison de s'appliquer, donc toute l'analyse qui suit est fausse. Insinuer que l'élection est frauduleuse (comme le fait le Dr Spencer à plusieurs reprises) sur la base de ces absurdités est irresponsable, pour ne pas dire carrément mensonger. Je m'attendais à mieux de la part du Dr Spencer.
markr says:
November 11, 2020 at 3:47 PM

Comments by those such as Tim C seem to match reality. Benford’s rule doesn’t apply to competitive candidates in elections where ward/constituency sizes are narrowly distributed.

See e.g. comments in the cited github repo.
https://github.com/cjph8914/2020_benfords/issues/9
https://github.com/cjph8914/2020_benfords/issues/17
https://github.com/cjph8914/2020_benfords/issues/36

For example, Trump’s counts in precincts where he won in Allegheny couty violate Benford.
https://user-images.githubusercontent.com/74244234/98703095-0b233500-2373-11eb-964c-5e744236385c.png
Is this evidence that pro-Trump people were fiddling the vote in those precincts? No.

Brexit constituency votes violate Benford.
https://user-images.githubusercontent.com/74244234/98800757-ba5e1b80-2408-11eb-945c-f4f4f0ebf437.png

Weak, in this case baseless, accusations and implications undermining election integrity are very damaging to the trust that’s vital for democracy. I hope you pull this article Dr Spencer.
Les commentaires de personnes telles que Tim C semblent correspondre à la réalité. La règle de Benford ne s'applique pas aux candidats en compétition lors d'élections où la taille des quartiers ou des circonscriptions est étroitement répartie.

Voir, par exemple, les commentaires dans le repo github cité.
https://github.com/cjph8914/2020_benfords/issues/9
https://github.com/cjph8914/2020_benfords/issues/17
https://github.com/cjph8914/2020_benfords/issues/36

Par exemple, les comptages de Trump dans les circonscriptions où il a gagné à Allegheny violent Benford.
https://user-images.githubusercontent.com/74244234/98703095-0b233500-2373-11eb-964c-5e744236385c.png
Est-ce la preuve que des pro-Trump ont truqué le vote dans ces circonscriptions ? Non.

Les votes des circonscriptions de Brexit violent Benford.
https://user-images.githubusercontent.com/74244234/98800757-ba5e1b80-2408-11eb-945c-f4f4f0ebf437.png

Faibles, dans ce cas sans fondement, les accusations et les implications qui sapent l'intégrité des élections sont très dommageables pour la confiance qui est vitale pour la démocratie. J'espère que vous retirerez cet article Dr Spencer.

En conclusion :

Si vous maitrisez l'anglais je vous conseille vivement de regarder la vidéo mentionnée par le commentateur Greg Strebel sur WUWT, elle vous montrera qu'en poussant le bouchon un peu loin on pourrait arriver à démontrer que la victoire de Donald Trump dans certaines circonscriptions est elle aussi frauduleuse ! Evidemment il n'en est rien, tout simplement parce que la loi de Benford ne s'applique pas dans toutes les circonstances !

D'ailleurs Wikipédia nous donne des exemples où la loi s'applique et d'autres où elle ne s'applique pas :

Suites connues pour vérifier cette loi

Pour les suites {\displaystyle (u_{n})} suivantes, la suite {\displaystyle (\ln u_{n})} est équirépartie modulo 1, ce qui prouve qu'elles suivent la loi de Benford (voir ci-dessus).
  • la suite des puissances de 2 {\displaystyle (2^{n})}28 (en base différente de 2) ; résultat démontré en 1968 par Arnold et Avez 29
  • plus généralement la suite des puissances d'un entier {\displaystyle k} vérifiant {\displaystyle \log _{b}(k)} irrationnel 30
  • la suite de Fibonacci {\displaystyle (F_{n})} en toute base 31,32
  • la suite des factorielles {\displaystyle (n!)} en toute base 33
  • la suite {\displaystyle (n^{n})} en toute base 34

Suites connues pour ne pas vérifier cette loi

On démontre que si une suite {\displaystyle (u_{n})} vérifie la loi de Benford, alors la suite {\displaystyle \left({\frac {u_{n+1}}{u_{n}}}\right)^{n}} est non majorée34. On en déduit les contre-exemples suivants :
  • la suite des entiers {\displaystyle (n)}
  • plus généralement les suites {\displaystyle (n^{\alpha })} et les suites polynomiales positives
  • la suite {\displaystyle (\ln n)}
  • la suite des nombre premiers {\displaystyle (p_{n})}


Ne m'en demandez pas davantage, tout ce que j'ai compris c'est que cette loi peut parfois s'appliquer dans certains cas de figures, mais dans les cas mentionnés par nos désinformateurs patentés c'est uniquement de l'enfumage et les votes en faveur de Joe Biden sont parfaitement licites.

Je sais que j'ai quelques lecteurs ayant des connaissances en mathématiques infiniment supérieures aux miennes, qu'ils n'hésitent donc pas à ajouter leur grain de sel ; par ailleurs je ne compte pas sur Benoit Rittaud pour publier un article afin de démonter cette arnaque à la loi de Benford détournée de sa finalité (elle sert à ma connaissance essentiellement en matière de détection de fraude financière, et c'est un comptable à la retraite qui vous le dit) car ce serait ajouter un caillou dans le jardin d'un « climatoréaliste », et ça Riri n'y tient pas vraiment.


4 commentaires:

  1. Les statistiques sont un domaine complexe, et on peut facilement commettre des erreurs. D'habitude quand on veut appliquer une recette statistique à une situation, il faut prendre un maximum de précautions pour vérifier que la situation correspond au champ d'application de la recette en question. D'autant plus si, comme ici, la recette est plus empirique que formelle.

    Je vois trois éléments qui n'ont pas été pris en compte et qui selon moi invalident l'utilisation de loi de Benford dans ce cas-ci (et je ne connaissais pas cette loi avant de lire votre article).

    Les trois éléments sont liés et ont trait à la taille des circonscriptions électorales. En effet, le nombre de vote exprimé dans un ensemble de circonscriptions électorales n'est pas un dataset aléatoire, ou une série mathématique, comme les exemples canoniques de la loi de Benford (factorielles, Fibonacci, ...).

    1. Les circonscriptions électorales sont généralement de tailles équivalentes dans une région donnée. le nombre de votes exprimés également, parce qu'on peut supposer qu'il n'y a pas de fortes différences de participation d'une circonscription à sa voisine. Je ne connais pas les chiffres exacts, mais on peut facilement imaginer, disons dans une région de Pennsylvanie, que chaque circonscription attende 1000 votants, que 70% des votants participent effectivement au scrutin, et que Biden l'emporte sur Trump 50% contre 48%. Il y aurait donc en moyenne dans les bureaux de vote 350 voix pour Biden, et 336 pour Trump. Même s'il y a des disparités de nombre de votants entre bureaux, il y a de fortes chances que la distribution ne suive pas la loi de Benford, parce que la distribution du nombre de voix par bureau sera un reflet du nombre moyen de votants par bureau et du score moyen du candidat dans ces bureaux.

    2. La loi s'applique généralement sur des datasets étalés sur plusieurs ordres de grandeur. Ici à nouveau, pour des questions d'organisation, le nombre de votants sera sensiblement comparable d'un bureau à l'autre : même si la situation peut se produire, je suppose, on imagine mal un bureau accueillant des centaines de votants, et le bureau voisin se tournant les pouces. Le champ d'application de la loi n'est pas respecté.

    3. Enfin, il faut tenir en compte que les deux distributions étudiées par les blogs cités sont dépendantes : si un électeur vote Trump, il ne vote pas Biden. Le nombre de votants pour un candidat, pour un bureau donné, est donc déterminé par le nombre total de votants et le nombre de votants pour l'autre candidat (on oublie les candidats de seconde zone qui font quelques voix). Ces distributions sont donc loin d'être "naturally-occuring", et on ne se trouve pas dans le circonstances d'application de la loi. Ce n'est donc pas étonnant qu'on ait parfois la distribution des voix pour un candidat qui suive une loi de Benford, et pour l'autre pas. Et je ne serais donc pas étonné de trouver des régions ou la situation décriée par les blogs soit inversée, ou respectant la loi de Benford pour les deux candidats, ou au contraire pour aucun.

    Ces éléments n'ont pas été pris en compte par les Watts et JoNovas de service, pourtant il me semblent qu'ils rendent l'interprétation faite de la loi de Benford problématique. Evidemment, ce n'était pas le but recherché par les usual suspects.

    RépondreSupprimer
    Réponses
    1. Merci VB pour ces explications qui corroborent ce que j'ai cru comprendre en lisant par ailleurs (la vidéo du mathématicien Matt Parker donne aussi des éléments similaires aux vôtres il me semble, mais je n'ai pas tout compris)

      En tout cas voilà un sujet de maths d'actualité sur lequel vos étudiants pourraient plancher, cela aurait au moins le mérite de leur montrer, s'ils ne le savent pas déjà, qu'on peut faire dire ce qu'on veut aux chiffres , surtout quand on s'adresse à des gogos !

      Supprimer
    2. Mes étudiants ! Comme vous y allez. On peut travailler à l'Université sans avoir d'étudiants ...

      Mais pour apporter de l'eau à mon moulin, un tweet d'Andrew Dessler, climatologue de renom :

      Hey mathematicians studying Benford's Law. Climate scientist here. People claiming election fraud based on Benford will never accept arguments about why it doesn't apply to equally sized precincts.

      That said, keep spreading the word.

      [nearby virologists nod vigorously]

      Supprimer
    3. « On peut travailler à l'Université sans avoir d'étudiants »

      Je le sais bien, quand je dis « vos étudiants » il s'agit de ceux de votre université ;)

      Supprimer