Lois naturelles contre régularité accidentelle : une différence de priors bayésiens ?

Imaginez que vous souhaitiez observer un certains nombres de corbeaux, disons dix, pour vérifier que votre hypothèse "tous les corbeaux sont noirs" est correcte. Si vous n'en voyez que des noirs, cela vous confortera, et vous vous attendrez à ce qu'un onzième soit noir également, sans surprise. Vous avez effectué un raisonnement amplifiatif : l'observation d'un échantillon vous amène à modifier vos croyances à propos d'autres objets, en dehors de votre échantillon.

Si maintenant vous jouez à pile ou face avec une pièce non truquée et observez dix fois "pile", vous penserez faire face à un énorme coup de hasard, mais vous ne devriez pas inférer que le onzième lancé sera "pile" : il y a toujours une chance sur deux qu'il tombe sur face, indépendamment des résultats précédents. C'est une chose qu'on enseigne dans tous les cours sur les probabilités.

Ainsi le raisonnement à adopter est différent dans les deux cas.

Le rapport entre induction et loi de nécessité naturelle

Cette observation est faite par Dretske dans "Laws of Nature" (1977). Hume observait que le raisonnement inductif présuppose l'idée que la nature est uniforme, et que cette idée ne peut elle même être justifiée par induction sous peine de circularité. Ce que met en avant Dretske, et que beaucoup d'autres avaient remarqué avant lui, c'est qu'on n'est pas prêt à attribuer une uniformité à propos de n'importe quoi. Pour utiliser le vocabulaire de Goodman, certaines propriétés sont "projectibles" et d'autres non. Par exemple, si les neufs premières pièces de ma poche sont des pièces de 5 centimes, je ne serai pas forcément prêt à en inférer que la dixième est également une pièce de 5 centimes et qu'il en sera ainsi tous les jours : la propriété "être une pièce dans ma poche" n'est pas une catégorie naturelle sur laquelle je voudrais projeter des régularités. Chaque nouvelle pièce de 5 centime découverte peut me conforter dans l'idée que toutes les pièces de ma poche sont des pièces de 5 centimes, mais seulement par élimination : les cas précédents n'augmentant pas la probabilité des suivants, il me faudra examiner toutes les pièces sans exception pour en avoir le cœur net.

C'est ce qui différencie les régularités accidentelles des lois : seul un examen exhaustif des instances peut les confirmer.

Cet aspect est, selon Dretske (et d'autres plus récemment, comme Lange), lié à la notion de nécessité naturelle : seules les régularités qu'on pense pouvoir être le produit nécessaire de lois de la nature peuvent être confirmées inductivement. On pourrait aussi dire qu'il est lié à la notion d'explication. Dans le cas des pièces de ma poche comme dans celui des lancés de pile ou face, il est peut-être des cas où l'on serait tenté de projeter nos premières observations sur les suivantes : si l'on pense qu'il existe une explication à cette apparente coïncidence. Peut-être la pièce est-elle truquée. Peut-être que les pièces de moins de 5 centimes s'échappent par un trou dans ma poche, et celles de plus de 5 centimes finissent dans mon portefeuille de toute façon. S'il y a une explication, alors le prédicat devient projectible, du moins dans le contexte où l'explication s'applique.

Il faudrait donc d'abord penser qu'une régularité est explicable, ou que si elle vaut, c'est en vertu d'être produite par une loi de nécessité naturelle, avant de raisonner inductivement.

Pour ma part, je pense que cet argument met la charue avant les bœufs en quelque sorte, et que le simple fait d'observer une régularité suffit, par induction, à nous laisser penser qu'elle vaut nécessairement, ou qu'elle peut s'expliquer. Je pense que les contre-exemples fournis par Dretske n'en sont pas vraiment. Si, enfant, l'on observait un jeu de pile ou face pour la première fois de notre vie, et que la pièce tombait dix fois sur pile, on serait je pense tenté de croire que les pièces tombent sur pile en général, et on aurait en cela parfaitement raison. Si l'on observe la situation adulte, on arrive à une conclusion différente, mais c'est simplement que plusieurs raisonnements inductifs sont en conflit : l'un, bien ancré, qui porte sur les pièces en général, et l'autre, tout neuf, qui porte sur cette pièce en particulier. Mais à parier, on sera très fortement poussé à chercher une explication si une pièce tombe 10, 20 ou 100 fois de suite sur pile. C'est donc je pense l'induction qui en premier lieu nous dit ce qui vaut pour catégorie projectible, ce qui demande éventuellement une explication, et non l'inverse.

La distinction entre loi et accident d'un point de vue bayésien

Transposons un moment ces idées dans un cadre bayésien. Dans le cas des corbeaux, je peux dire que chaque nouvelle observation conforte l'hypothèse que tous les corbeaux sont noirs, selon la loi de Bayes. Mais est-ce seulement par élimination, comme dans le cas des pièces de ma poche ? Ou est-ce que cela modifie les attentes que je projette sur la prochaine observation ?

Tout dépend en fait des "priors". Disons que j'émet des hypothèses a priori sur les résultats de mon observation, soit une séquence de dix résultats valant chacun "noir" ou "non-noir". Quelle crédence attribuer a priori à chaque séquence ?

Si je choisi de dire que toute séquence se vaut, je me trouve dans la situation suivante : l'hypothèse que tous les corbeaux sont noirs est assez peu plausible (elle est a priori de 1/1024), et si chaque nouvelle observation confirme légèrement l'hypothèse que l'issue de l'expérience sera la séquence "Noir, noir... Noir", c'est seulement par élimination : après la neuvième observation, il y a toujours une chance sur deux que le dernier corbeau soit noir, ni plus ni moins. Je suis incapable de projeter mon échantillon sur les cas non examinés.

Il existe une autre façon de distribuer les priors, qui consiste à affirmer que l'ordre importe peu. Ainsi j'attribuerai des crédences identiques non plus aux séquences ordonnées, mais à la proportion de cas positifs par rapport aux cas négatifs, et ensuite, pour chaque séquence exemplifiant cette proportion, une crédence identique. Je considère a priori qu'il y a une chance sur dix que dix corbeaux observés soient noirs, une chance sur dix qu'il y en ai neuf (bien que cette proportion soit exemplifiée par dix séquences différentes et non une seule), et ainsi de suite.

Remarquez que ceci revient, insidieusement, à donner plus de poids aux séquences régulières : ici se cache le postulat d'uniformité de la nature de Hume !

Si je procède de cette façon, alors mon predicat "être un corbeau" devient projectible : arrivé à la neuvième observation, un rapide calcul utilisant la formule de bayes montre que l'hypothèse "dix corbeaux noirs", est confirmée à un degré de dix chances sur onze, et c'est autant de chances que le dernier corbeau soit noir. Ceci tient au fait que la probabilité a priori d'avoir vu neuf corbeaux noirs si la bonne répartition était de 9/10 est très faible (il y avait a priori une seule chance sur dix que les neufs noirs tombent en premier et le non-noir en dernier), tandis qu'elle est de 1 dans l'hypothèse 10/10, ce qui rend cette dernière hypothèse plus crédible.

Nous pouvons donc imputer la différence relevée par Dretske entre les inférences sur les régularités accidentelles et celles sur les lois à une attribution différente de priors aux différentes hypothèses concernant le résultat d'une observation : dans un cas les séquences sont pondérées équitablement, et dans l'autre, ce sont les distributions.

Y a-t-il une bonne méthode d'attribution des priors ?

Plusieurs choses sont intéressantes à observer, la première étant que le postulat d'uniformité de la nature semble lui même pouvoir être dérivé de l'idée que l'ordre dans nos observations importe peu. Il semble y avoir un lien à la notion d'explication mentionnée plus haut : si l'on pense que l'ordre de nos observations n'importe pas vraiment, c'est qu'on pense que nos observations portent sur une caractéristique générale des corbeaux plutôt que sur une séquence de phénomènes indépendants les uns des autres. Autrement dit, les séquences observées s'expliquent par une caractéristique propre au corbeau.

Ceci semble appuyer l'idée que l'induction ne peut fonctionner que si l'on pense au préalable d'un type de phénomène qu'il obéit à une loi de nécessité naturelle, ou du moins qu'il est explicable, et que ce que l'on cherche à confirmer, c'est la bonne explication.

Pour être clair, je n'ai pas d'objection contre cette idée, mais il me semble que c'est ce qu'on pense a priori de tous les phénomènes. C'est le cas même des phénomènes purement aléatoires: ainsi on pense des lancés de pile ou face qu'ils ont en général une répartition de un pile pour un face (et *donc* que toutes les séquences sont équiprobables !). Le fait d'attribuer un même degré a priori à toutes les séquences de résultats dans ce cas ne peut, selon moi, que découler de l'idée préalable qu'il existe une certaine loi selon laquelle un lancé donne en moyenne autant de piles que de faces. Mais cette idée ne devrait pas être adoptée a priori. Elle ne devrait l'être que si cette loi a été préalablement confirmée par induction, au détriment des autres lois possibles. C'est en effet le cas pour les lancés de pile ou face, ça ne l'est pas pour les corbeaux : c'est ceci, et uniquement ceci, qui nous fait dire que la couleur des corbeaux est projectible quand le résultat d'un lancé de pièce ne l'est pas.

Au final, on peut voir le choix de pondérer a priori toutes les séquences de résultat possibles équitablement, ce que l'on fait dans le cas des lancés de pile ou face, comme un cas particulier de l'autre choix, celui qui consiste à pondérer les répartitions équitablement, à ceci près que certaines de ces répartitions ont été préalablement éliminées par induction. Pour cette raison, je pense que la bonne façon de raisonner est en général d'attribuer des degrés de crédence identiques aux caractéristiques des types d'objets et non aux instances, et donc de pondérer de manière équilibrée les rapports possibles dans la distribution des propriétés, les lois possibles, et non les séquences possibles. Ceci non seulement dans certains cas, mais dans tous les cas. Les distributions accidentelles se démarquerons alors naturellement comme celles qui ne sont pas uniformes.

Y a-t-il une justification à cette prescription ? La suivante : si l'on ne raisonne pas comme ça, on est incapable de procéder à la moindre induction, sauf à invoquer une mystérieuse intuition qui nous ferait croire que certaines propriétés sont projectibles et d'autres non, que certaines choses ont des explications et d'autres non, et à appliquer une règle distincte, permettant l'induction, pour les premières. Mais d'une part je ne crois pas en la magie, et d'autre part invoquer une multiplicité de méthodes de confirmation (d'attribution de priors) n'est pas très parcimonieux. Or il n'y a aucun besoin d'invoquer une telle intuition mystérieuse et une telle multiplicité de méthode, dans la mesure où, comme je l'ai montré, l'absence de projectibilité d'une propriété peut être fondée sur la découverte inductive d'une loi de répartition équitable entre elle et d'autres propriétés (je ne prétend pas ici résoudre les problèmes relevés par Goodman, comme le fait que le prédicat "noir avant l'an 2100 et blanc après" serait aussi projectible que le prédicat "noir").

Autrement dit, je pense que tout mérite a priori d'être expliqué, qu'on découvre les bonnes explications par induction, et qu'on découvre également que certaines choses ne méritent pas d'explication (comme le résultat d'un lancé de pile ou face) par induction.

À propos du bayésianisme subjectif

Je souhaite terminer par une seconde remarque qui concerne le raisonnement bayésien.

On voit, à la suite de ces exemples, que différentes règles d'attribution de priors peuvent nous faire aboutir à des conclusions radicalement différentes. Certaines nous amèneraient à être sans cesse surpris de voir un nouveau corbeau noir ("quelle séquence incroyable de résultat !") sans jamais postuler que tous les corbeaux sont noirs, ni même une proportion substantielle de ceux-ci. Notre crédence pour les nouveaux cas resterait inchangé en dépit des régularités passées. On serait, en quelque sorte, un sceptique à la Hume. D'autres règles d'attribution de priors, au contraire, nous amènent à des raisonnements ampliatifs et en particulier à accepter l'induction. Ces deux attitudes, ces deux façons de régler le choix des priors face à de nouveaux types de phénomènes, semblent sous-tendues par des choix métaphysiques différents, mais elles sont évidemment compatibles avec exactement les mêmes observations.

Je pense que c'est un gros problème pour les branches subjectivistes du bayésianisme : non seulement il faudrait croire que tout ceci n'est qu'une affaire de goût métaphysique (et non pas le fait d'avoir eu des expériences de vie différente), non seulement il n'y a jamais convergence dans les crédences des deux bayésiens (le premier bayésien attribuera une crédence nulle à toute généralisation universelle, même approximative, parce qu'il existe une infinité de séquences infinies possibles), mais surtout, certaines attributions de prior semblent foncièrement, objectivement, problématiques puisqu'elles minent tout raisonnement ampliatif. Si l'on ne procédait à aucune induction, on pourrait croire que le monde n'est qu'une mosaïque de fait sans lien les uns aux autres, et la science serait simplement impossible. Nous sommes donc en mesure d'affirmer la supériorité, d'un point de vue rationnel, de certaines règles d'attribution des priors: celles qui appliquent un principe d'indifférence aux lois générales plutôt qu'aux séquences d'observation possibles.

Pour cette raison (et pour d'autres) je pense que le seule voie viable est le bayésianisme objectif, fondé sur un principe d'indifférence s'appliquant aux hypothèses générales portant sur les types d'objets et que le bayésianisme subjectif qui refuserait d'affirmer que cette manière de procéder est la meilleure est une voie sans issue. On me rétorquera peut-être que le bayésianisme subjectif admet déjà implicitement que ce sont des lois générales, et non des séquences d'observation possibles, qui se voient attribuer des priors. Mais il s'agit déjà d'une restriction au subjectivisme, et je ne vois aucune raison de ne pas la pousser plus loin.

Commentaires

GClarte a dit…
Bonjour,
Ce que vous décrivez n'est pas un prior. Enfin, cela pourrait l'être s'il y avait un *modèleBonjour,

Ce que vous décrivez n'est pas un prior, mais un calcul de vraisemblance, le P(D|\theta), et non le P(\theta). Si on reprend le principe bayésien (cf : The Bayesian Choice, Christian Robert), pour effectuer une inférence, il faut disposer d'un *modèle*, au sens statistique (cf le même livre, ou Statistiques, Benoit Cadre Céline Vial), c'est à dire d'un ensemble de lois de probabilités qui décrivent comment apparaissent/sont générées les observations. Et d'une loi a priori sur les paramètres qui gèrent ces lois de probabilités.

Si l'on reprend l'exemple des corbeaux, lorsque l'on va observer un corbeau il peut avoir deux couleurs (pour simplifier) blanc ou noir. On peut alors proposer le modèle suivant (il n'y a donc pas encore de prior): il y a une proportion p de corbeaux blancs dans l'ensemble des corbeaux, à chaque fois que j'en vois un c'est l'un de ces corbeaux uniformément que j'ai vu.

Nous devons alors donner un prior, mais bien sur ce paramètre $p$, et donc décrire une loi de probabilité sur [0,1]. Comment la représenter ? Il existe différents moyens, mais dans ce cas précis, on peut montrer qu'il existe un prior "non informatif" au sens de Fisher, qui sera Beta(1/2,1/2).

Vient ensuite la probabilité d'observer une séquence. La quantité qui nous intéresse est "la probabilité, en fonction de p, que j'observe ce que j'ai observé". Dans le premier cas on considère les séquences ordonnées, on a alors une probabilité (1-p)^10 d'observer cette séquence (remarquons qu'à cet instant, dire que cette quantité est faible n'a pas de sens, on ne la compare pas à 1, car ce qu'on veut comparer c'est comment cette quantité évolue par rapport à p). Dans le deuxième cas, on compte le nombre de corbeaux blancs, la probabilité d'observer 10 corbeaux blancs est alors la même que précédemment (1-p)^10. En fait, observer l'ordre des corbeaux n'a pas d'importance, car comme on l'a dit les corbeaux se comportent de manière identique, voir un corbeau noir ne veut pas dire que le suivant sera noir.

En réalité ce que vous décrivez avec une probabilité qui serait 1/10 ne correspond pas à cette hypothèse que tous les corbeaux sont identiques (en réalité il n'existe pas sous cette hypothèse, de paramètre p, pour un nombre de corbeaux total supérieur à 2, tel que le nombre de corbeaux noirs soit uniforme parmi le nombre de corbeaux total observés). Et vous l'avez très bien remarqué, cela correspondrait (par exemple, mais pas seulement) au cas où : chaque corbeau a une propriété propre et je ne crois pas que les corbeaux aient en commun quelque chose sur la couleur (ie on ne peut pas faire d'induction). En d'autres termes, vous ne comparez pas les mêmes *modèles* ce qui n'est pas du tout un problème, en fait c'est aussi le travail des statisticiens. Notons que sous cette hypothèse les bayesiens savent bien qu'ils ne feront pas d'inférence utile, je crois que personne ne m'a jamais décrit un tel modèle.

Ce que vous faites est alors bien du choix de modèle: vous avez deux modèles, dans l'un, vous supposez que tous les corbeaux sont les mêmes et ont une probabilité 1/2 d'être noir ou blancs, et dans le deuxième vous supposez que le nombre de corbeaux noirs est uniforme (en fait vous avez deux modèles où il n'y a aucune incertitude sur les paramètres gérant l'observation).

[suite dans le commentaire suivant]
GClarte a dit…
Pour être bayésien dans ce cas il faut alors... mettre un prior sur les modèles. Si l'on ne veut pas le faire, on peut alors calculer un "Bayes factor", qui représente la probabilité dans chacun des modèles d'observer ce que l'on observe. On l'interprête comme "de combien je devrais être sûr a priori de moi dans un certain choix pour que cette observation me fasse changer d'avis". On propose en général une échelle (très critiquable, et que je ne cautionne pas du tout) pour aider à interpréter cette valeur. Dans ce cas précis, on peut calculer un Bayes factor en faveur du modèle "séquence" valant 10/1024 ~= 1%. [je ne m'attarde pas, mais en fait cela revient à décrire la loi de probabilité sur les modèles que l'on considère, comme il y en a une infinité, y compris un grand nombre que l'on n'a pas encore imaginés, on ne peut considérer que ceux (en nombre fini) que l'on connaît]. En réalité, si l'on avait aussi inclu une loi a priori sur le paramètre, on aurait obtenu quelque chose de bien plus en faveur de "séquence" [les formules sont là : https://en.wikipedia.org/wiki/Bayes_factor je vous encourage à faire les calculs cet exemple est l'un des seuls où le calcul peut se faire de manière exact].

Je tiens à préciser que "uniforme" ne veut pas dire aléatoire, ni "juste", ni "non informé". En réalité pondérer équitablement n'a pas de sens.

Le problème du "choix du prior" est quelque chose qui taraude beaucoup de statisticiens bayésiens. Parce que bien souvent les "spécialistes" (ie ceux qui ont besoin des services d'un statisticien pour traiter leurs données) ne sont pas prêts à mettre un chiffre sur leurs croyance. Mais la vérité est bien qu'il est bien difficile de ne pas avoir d'idée de ce à quoi ressemblerait la distribution. A la conférence de l'ISBA de cette année, Sylvia Fruehwirth-Schnatter disait qu'il fallait au contraite "embrasser la subjectivité" et arrêter de chercher à écrire que l'on n'avait pas de prior à disposition.

Donc en conclusion: ce que l'on peut faire d'un point de vue Bayésien, c'est:
- mettre une loi a priori sur les paramètres d'un modèle et calculer *à l'intérieur d'un modèle* la loi a posteriori des paramètres ;
- mettre une loi a priori sur les modèles et calculer *entre ces deux modèles* la loi a posteriori de ces modèles. Ici, vous avez testé l'hypotèse que les corbeaux ont cette "répartition des couleurs" comme propriété commune ;
- je crois qu'"expliquer" au sens "connaitre un mécanisme qui justifierai un comportement étrange" n'est pas du ressort des statistiques (car oui les statistiques ne sont qu'un outil). Pour autant, savoir si "ma pièce est truquée" ou "je n'ai que des pièces de 5centimes dans ma poche" sont bien des questions auxquelles un statisticien apportera une réponse (au sens statistique c'est à dire, avec une mesure de l'incertitude de cette réponse.

[suite dans le commentaire suivant]
GClarte a dit…

PS : à propos de la surprise lors de la vue des corbeaux.
Si vous considérez que les corbeaux ont ce comportement (ie cette probabilité p d'être blanc) en commun, alors à chaque corbeau noir vous allez mettre à jour votre prior de telle sorte que le corbeau qui s'ajoutera augmentera votre *prior prédictif* que le prochain corbeau sera noir, mais l'information ajoutée sera toujours la même.
Si par contre vous considérez que tous les corbeaux sont indépendants, alors effectivement vous ne mettrez pas à jour votre prior, c'est comme si en observant vous disiez "c'est un autr corbeau, donc je ne le mélange pas aux autres", cas où on ne fera pas d'inférence.

PPS : pour revenir sur l'histoire de la pièce, ce que vous décrivez est cette fois un prior. Un adulte ne pensera pas que toutes les pièces sont biaisées, puisqu'il considérera cette pièce comme faisant partie de l'ensemble des pièces, pour lequelles il a des informations sur leur biais, sachant que les pièces sont bien équilibrées ou pas.

PPPS : le raisonnement par élimination entre aussi dans le cadre bayésien, mais il relève alors du truisme puisque la question est "puisje observer ce que je n'observe pas", et donc c'est l'un des seuls cas où le prior est totalement concentré en un point.

PPPPS : je suis parti du principe que vous utilisiez les termes liés au Bayésien dans le contexte statistique, probabilistique, où ils ont été inventés et sont utilisés, puisque cela faisait sens avec l'utilisation de la formule de bayes et les calculs de probabilités. Peut-être me trompé-je.
Quentin Ruyant a dit…
Merci pour votre commentaire. Je décris dans l'article plusieurs manières de repartir les priors, qui correspondent en effet à des modèles différents (dans un cas le paramètre du modèle s'était la proportion de corbeaux noirs dans la population, dans l'autre ce serait la séquence exacte, dans les deux cas on attribue des priors aux valeurs possibles de ces paramètres, et je propose dans l'article pour simplifier d'utiliser un principe d'indifférence dans les deux cas). Du coup je ne vois pas en quoi ce que vous dites contredit l'article.

L'idée qu'on puisse passer à un "ordre supérieur" et effectuer un raisonnement Bayésien sur les modèles est intéressante, mais ce type d'approche me semble douteuse pour d'autres raisons non évoquées dans cet article. De même le fait d'embrasser la subjectivité. Je ne pense pas que d'hypothétiques degrés de crédence individuels (qu'en pratique on est incapable d'évaluer, et qui, je dirais, sont simplement inexistants) aient la moindre pertinence en science, ni sur le plan descriptif, ni sur le plan normatif. J'explique tout ça dans un autre article du blog : "pourquoi je ne suis pas bayésien".

Quentin Ruyant a dit…
Concernant le rôle de l'explication, je l'évoque précisément parce que de nombreux philosophes ont défendu que l'induction était basée sur une "inference à la meilleure explication" préalable, et l'objet de cet article est de rejeter cette idée. Ici c'est le modèle (comme vous dites, comment sont générées les observations) qui joue le rôle d'explication. Donc à partir du moment où vous considérez qu'on peut faire une inference bayésienne sur les modèles, vous souscrivez implicitement à l'idée que les statisticiens se donnent pour rôle d'évaluer différentes explications.
GClarte a dit…
Merci de votre réponse.

Je suis désolé, je suis un statisticien, pour moi la différence fondamentale à avoir est entre modèle et prior. La différence entre pouvoir mener une inférence, et ne pas pouvoir est bien celle de modèle, donc le titre de l'article est gênant. [notons aussi comme vous l'avez dit que le paramètre n'est pas le même dans les deux cas, donc de toute façon on ne peut pas comparer un prior sur un paramètre entre 0 et 1 et un autre dans [0,1]^{\times 10}].

Or, ce problème de choisir un modèle n'est pas propre au bayésiannisme. On le retrouve je crois dans tous les domaines des sciences.

Le choix de modèle statistique est une procédure très standard, ce n'est pas une idée nouvelle, je peux comprendre que vous ayez des doutes, mais le fait est que c'est ce que font les chercheurs au quotidien. Je parle de la méthode bayésienne, mais il en existe d'autres, fréquentistes par exemples. On peut y être opposé pour des raisons philosophiques, mais pour des questions concrêtes, où une réponse quantifiée est nécessaire c'est *la* bonne solution. Par exemple dans cet article https://www.pnas.org/content/116/21/10317 on l'applique à la phylolinguistique (ce qui n'était pas une mince affaire d'ailleurs).

Attention, je ne vais pas dire que tous les modèles sont équivalents et qu'il faudrait tout tester. Je me contente de dire que quand des spécialistes proposent deux modèles justifiés et "non délirants", c'est la méthode à utiliser si on veut avoir un chiffre (par exemple, c'est ce que font les agences de santé pour décider si un médicament est intéressant ou pas, on teste le modèle "il a une efficacité" contre "il n'en a pas"). Remarquez que le Bayes Factor ne nécessite pas de prior sur les modèles pour être calculé, c'est pour savoir le résultat de l'expérience qu'il faudrait en avoir. Ce qui est finalement aussi critiquable que la p-value actuellement utilisée, sauf que là au moins on dit excplicitement ce qui se passe. Mais cette question là encore n'est pas du ressort du statisticien, c'est l'agence de santé qui a ses propres critères.

Vous me direz (à raison) que ce n'est pas un problème de choix de modèle mais de test d'hypothèse. En réalité il y a une raison historique qui a fait que c'est pour les test d'hypothèses simples et non la comparaison de modèles (possiblement affreux) que le formalisme a été développé. Mais il me semble intéressant de voir que les test de type ANOVA, qui permettent de dire quelles variables ont une influence sur une régression (linéaire), sont interprétés quelque fois comme étant des test d'hypothèses, d'autres fois comme étant un choix de modèle : "manger du gras rend gros" vs "manger du gras ne rend pas gros".
GClarte a dit…

Je ne suis pas d'accord sur cette idée qu'il n'y aurait pas de prior. Autant je suis d'accord que si quelqu'un me demande "prior sur la proba que cette pièce tombe sur pile" j'aurai du mal à dire "bien sûr, Beta(10,10)". Mais dire qu'ils sont inexistants me semble très osé. Vous le dites très bien, un adulte sera surpris de voir une pièce qui tomberait toujours sur face. C'est bien ce qu'on appelle un prior. Mais oui personne n'ira crier sur les toîts que notre cerveau contient des lois de probabilités. Le rôle d'un bon procédé d'élicitation du prior est de transformer le genre d'informations disponibles (par exemple : dans mon expérience je n'ai jamais vu un chat tuer plus de 10 oiseaux en une journée, et puis il est trop occupé à dormir pour chasser plus de quelques heures par jour) en quelque chose d'utilisable par un ordinateur (sur les chats : on va obtenir une distribution sur le paramètre qui génère le nombre de ses proies par jour).

Il faut bien garder à l'esprit que les grands élements du prior : son support, sa décroissance à l'infini, la position de ses modes, sont parmi les plus simple à éliciter ; et une petite différence de prior ne devrait pas mener à de grandes différences de posterior. Sur l'idée que les priors auraient une existence réelle, il y a eu des essais : https://www.college-de-france.fr/site/stanislas-dehaene/course-2012-02-21-09h30.htm je ne suis pas neuro-scientiste donc je ne peux pas juger (mon prior est plutôt dû au fait que le collège de France est sérieux).

Je ne souscris pas à l'idée qu'un modèle statistique est explicatif. Voici un exemple très simple: vous mesurez votre taille, votre modèle statistique ne sera pas "Si je mesure X, je vais observer exactement X", ce sera plutôt quelque chose comme "je mesure X, donc je vais observer X plus un bruit \epsilon". Rien n'est explicatif, on ne dit pas d'où vient le bruit, pourquoi il y en aurait un. C'est à celui qui crée le modèle (donc pas au statisticien) d'expliquer pourquoi il y aurait un bruit.

Admettons que vous ayez ces deux modèles pour la taille : "je mesure X, donc je vais observer X plus un bruit venant du fait que je change parfois de coiffure" et "je mesure X, donc je vais observer X plus un bruit induit par le fait que j'utilise un mètre ruban". Est-ce que le statisticien peut dire quelque chose ? Non, bien évidemment, puisque les deux modèles mènent à une même vraisemblance (pour peu qu'on modélise effectivement avec les mêmes objets mathématiques le bruit). Je pense que ce que vous voulez dire par "expliquer" dans le cadre statistique correspondrait "interprétation", c'est à dire interprétation des paramètres, leur existence réelle. Et ce n'est pas un problème de statisticien (enfin, de statsticien de bonne foi). Enfin, on peut aussi avoir le droit d'être curieux en tant que statisticien, et donc avoir une discussion avec le spécialiste, tout le monde reste humain.
GClarte a dit…
Pour finir j'ai lu votre autre article. Je ne vais pas en parler ici, mais je vous encourage à regarder ce qui se fait en matière de choix de modèle, je crois que les solutions que vous évacuez pour choisir des théories correspondent bien à ce qui est fait ("moyenner les modèles" et "prendre le meilleur") en bayésien et fréquentiste. Pour autant je suis tout à fait d'accord que faire un gros calcul pour tester la théorie de l'évolution est très vain, ne serait-ce que parce que les ordinateurs ne sont pas assez puissants. Et je suis aussi d'accord pour dire que je ne vais pas décider du chemin à prendre pour éviter les bouchons en faisant un calcul. L'intérêt du bayésien est d'être cohérent, et d'expliciter des a prioris (les fréquentistes aussi en ont, mais ils sont cachés un peu partout, typiquement pourquoi 0.005 pour une p value ?).
GClarte a dit…
Pardon, je viens de me rendre compte que je n'ai pas exactement dit ce que je contredisais.

Tout d'abord, comme le problème de pouvoir ou pas faire de l'inférence est un problème de modèle, on peut mettre le prior que l'on veut dessus. On peut alors être subjectif et utiliser chacun des deux modèles que vous proposez, ou "objectif" et de même*.

Donc, la conclusion n'est plus du tout la même. Elle devient juste "certains modèles sont très mauvais", puisque c'est bien dans un modèle où on ne peut pas faire d'inférence qu'on serait en permanence surpris. Le subjectivisme n'a rien à voir avec cela.

*Remarquons d'ailleurs que vous n'appliquez pas de principe d'indifférence dans vos priors: votre prior dans le cas où on peut faire de l'inférence (donc si je comprend bien, "objectif") est "je sais que la probabilité qu'un corbeau soit noir est 1/2" (c'est en tout cas le calcul que vous faites). Et en réalité sous ce prior on ne peut pas faire d'inférence, ce qui est normal puisque ce prior signifie que vous êtes déjà convaincu, on le met à jour autant que l'on veut et on trouvera toujours que $p=1/2$ avec une proba 1 a posteriori.

PS: le principe d'indifférence n'est pas indifférent en fait, si vous considérez que la proportion de corbeaux noir est uniforme à priori entre 0 et 1, votre prior est informé (d'un point de vue purement formel). Ça peut sembler contradictoire mais voici une discussion stackexchange sur le sujet https://stats.stackexchange.com/questions/27813/what-is-the-point-of-non-informative-priors . En fait on peut dire "qu'être objectif" relève de la subjectivité. Voir la phrase "A prior distribution is a choice made by the statistician, neither a state of Nature nor a hidden variable. In other words, there is no "best prior" that one "should use". Because this is the nature of statistical inference that there is no "best answer"."
Quentin Ruyant a dit…
Vous soulevez de nombreux points intéressants. Je veux bien admettre que mon utilisation de "prior" dans le titre est un peu légère, et qu'il s'agit d'un choix de modèle (donc d'un choix de "type" de distribution de prior en quelque sorte).

Bien sûr on retrouve des choix de modèles dans toutes sciences, ce n'est pas quelque chose que je vais nier. Il me semble seulement que l'application d'une inference bayésienne n'a de sens que si l'on dispose d'un "méta-modèle", c'est à dire d'un cadre pour attribuer de priors de manière objective (ou conventionnelle si vous préférez) étant donné qu'on accepte ce cadre. Je ne sais pas ce que vous mettez derrière objectif et subjectif. Pour ma part ce qui me semble absurde, c'est l'idée que chaque scientifique voir chaque individu pourrait venir avec ses propres degrés de crédence et en conclure qu'il a validé pour lui même télé hypothèse. La science est une affaire collective. Par "objectif" je n'entend rien de plus que cela : quelque chose qui est spécifié dans un cadre, de manière à ne pas dépendre de préférences individuelles, au moins si l'on accepte le cadre. Et il me semble que si l'on remonte les niveaux jusqu'aux théories ou aux modèles les plus abstraits on arrive à un point où une évaluation objective n'est plus possible, et il n'y a rien de plus à dire que "cette théorie est le cadre dans lequel on travaille". Dans tous les cas les préférences individuelles n'ont aucune pertinence pour la marche de la science.

Ceci dit je ne connaissais pas les Bayesian factors (une alternative aux p-values si je comprend bien?) et je vous remercie pour cette référence qui me permettra peut-être de faire évoluer ou d'affiner mes positions.

Sur le côté explicatif, ce n'est pas en général le bruit qui demande une explication. Ce que je veux dire c'est que différentes explications induisent différents modèles statistiques, et donc évaluer ces modèles, c'est bien, au moins indirectement, évaluer la meilleure explication. L'article de linguistique que vous avez mis en lien l'illustre bien à mon sens : les chercheurs cherchent à déterminer quelle est la meilleure explication quant à l'origine des langues sino-tibétaines.
Par ailleurs je n'ai pas de problème à assimiler hypothèse et (classe de) modèle.
Quentin Ruyant a dit…
Sur le "cerveau Bayésien", pour l'instant ça reste limité à la perception, donc à des processus largement inconscients plutôt qu'à des inferences rationnelles (et c'est une hypothèse qui est encore discutée je crois mais peu importe). Ce qui me gène vraiment dans le bayésianisme c'est l'extension sauvage de ces idées à toute la cognition.
Quentin Ruyant a dit…
Dans mon exemple je me postule pas que la répartition des corbeaux noirs est 1/2, je postule Une distribution de proba homogène sur les répartitions possibles.

La discussion soir l'induction en générale est suffisamment abstraite pour qu'un choix bayésien entre modèles n'ait aucun sens à ce niveau. Vous pouvez lire l'article comme affirmant : les modèles ne permettant pas de faire d'inférences sont à rejeter de toute façon (on peut les "retrouver" à partir d'autres modèles : si l'on sait que la répartition pile ou face est de 1/2, alors on sait que l'on ne peut faire d'inférences dans ça cas). C'est une réponse directe à Dretske, qui dirait peut-être, dans le cadre de notre discussion, que les modèles ne permettant pas d'inférence, sont ceux qu'on utilise quand on pense qu'un phénomène ne dispose d'aucune explication.
GClarte a dit…
Merci je crois comprendre ce que vous voulez dire. En tout cas je crois que c'est ce que dit aussi la communauté statistique, on fait de l'inférence quand on a quelque chose à inférer.

Il me semble que le problème soulevé par les bayésiens concernant la subjectivité est le fait (truisme ?) que les humains sont subjectifs. Et que s'il suffit de peu de choses pour me convaincre que l'homéopathie n'a pas d'effet, un autre ne sera sans doute pas convaincu, et l'écraser de "moi je suis objectif, et vous biaisé" n'a pas beaucoup d'intérêt. C'est rarement ce qu'on fait, on dit plutôt "regardez il y a une telle accumulation de preuves". En d'autres mots, quand on fait une expérience, au sens statistique on ne "valide" pas ne hypothèse, on "ajoute de l'information", cette information peut être insuffisante pour certains ou suffisante pour d'autres (par exemple, selon les risques qui seront liés à la décision qu'on fera basé sur ces tests ; ou alors parce que telle personne est persuadée d'avoir vu l'homéopathie marcher sur des millions de gens). En fréquentisme on a un jour annoncé "p<0.005 c'est assez pour confirmer", en bayésien non (mais des gens disent BF>1000 c'est bon). Il y a très peu de débat sur le sujet en dehors des statisticiens je trouve. De plus, en stats fréquentistes (donc avec la pvalue) on ne "valide" pas, on dit qu'on ne "rejette pas l'hypothèse" que l'on teste (cela dépend donc de quelle hypothèse on choisit pour quel rôle, cf: le bouquin de Cadre Vial), ce qui est encore plus faible qu'en bayésien. Passer d'un résultat de ce type (pvalue, ou BF, ou quoi que ce soit d'autre de statistique) à une validation, requiert une bonne dose d'avis personnel (et plus de stats du coup), dont on peut se décharger sur une "habitude" partagée dans une communauté.

Bien évidemment, je ne veux pas tomber dans le relativisme crasse. Mais je crois que la science basée sur "p <.005 donc j'ai raison" se cache derrière les chiffres, de même que d'autres ont peur des chiffres (genre Raoult pour qui tout ce qui ne lui plaît pas est du "Data" qui n'a pas de rapport avec la réalité). Dernière chose, le prior est comme son nom l'indique construit avant, il existe des personnes qui pensent qu'on choisit un prior après avoir fait l'expérience de façon à avoir le bon résultat. Un mauvais bayésien peut être dangereux, mais un mauvais prior ça se voit, parce que c'est écrit dans la section "prior" du papier. C'est même plus facile à voir qu'un mauvais modèle en fait.

Sur la question de plusieurs spécialistes qui se contrediraient sur les priors, on a aussi imaginé plusieurs solutions pratiques. Les plus courantes sont soit de créer un prior qui fusionne tous les priors des spécialistes (il y a une référence là dessus dans un livre chez Ellipses appelé "Statistique bayésienne" je crois du collectif biobayes (un groupe de chercheurs de l'inrae)), soit mener l'inférence avec des priors différents et voir que le résultat est le même (je peux chercher des articles où c'est fait). Finalement, il y a un certain nombre de résultats en stats (typiquement voir les résultats de Aad Van der Vaart, ou Judith Rousseau) qui disent que quand le nombre d'expériences augmente les posterior convergent vers quelque chose qui ne dépend pas du prior (sous conditions du type, votre prior n'exclut pas totalement certaines hypothèses). Je n'aime pas ces résultats parce qu'on observe rarement une infinité d'expériences, mais ils sont à la base des stats fréquentistes, qui se disent "objectives".
GClarte a dit…

Le Bayes factor n'est pas vraiment une alternative à la p-value, la p-value a acquis un aspect normatif (si je comprend bien ce que ça veut dire, puisque globalement, pour un non statisticien, pvalue<0.05 ça veut dire que c'est significatif) mais plutôt quantitatif de la "quantité d'évidence" qui est ajouté. Il y a eu, il y a quelques temps une tribune dans un journal de stats disant en gros "avoir un Bayes factor > telle quantité signifie que c'est vrai, pour telles et telles raisons" qui a causé un assez grand trouble dans la communauté, même si les raisons étaient mathématiquement correctes (leurs implications beaucoup moins).

Néanmoins je suis désolé, mais il reste un problème d'un point de vue mathématique/calculatoire pour le premier modèle. Pour la répartition des corbeaux noirs, si vous supposez une répartition uniforme ("homogène" ?) de p cette probabilité qu'un corbeau soit noir (ie, interprété comme la proportion de corbeaux noirs dans le monde des corbeaux), alors voici les calculs qu'on ferait:
- a priori la répartition est uniforme (c'est à dire Beta(1,1) https://fr.wikipedia.org/wiki/Loi_b%C3%AAta);
- a posteriori, après avoir observé 10 corbeaux noirs, elle est Beta(11,1). (cf : https://en.wikipedia.org/wiki/Conjugate_prior ligne "binomial distribution" puisque le modèle est binomial).
Donc la proba a priori d'observer 10 corbeaux noirs corresponds à \int_0^1 P(10 corbeaux noirs | p)\pi(p) dp, où \pi(p)=1 car vous avez un prior uniforme, et P(10 corbeaux noirs | p)=binom(10,10)*p^10*(1-p)^0=p^10. Ce qui donne après calcul: 1/11. C'est ce chiffre qu'il faut comparer entre modèles.

Pour l'autre modèle le résultat est bon, mais je l'obtiens par un calcul différent. Si je comprend bien le modèle, mais vous avez en quelque sorte une loi multinomiale, chaque issue possible étant l'une des nombre de corbeaux. Vous mettez une loi uniforme sur les 11 paramètres de la distribution (il y a 11 issues possibles, une par répartition), qu'on écrit comme Dirichlet(1,1,\dots,1) (cf : https://en.wikipedia.org/wiki/Dirichlet_distribution, section "special cases"). Votre posterior est alors Dirichlet(1,\dots,1,2) (cf : conjugate prior ligne multinomial). Après calcul, a priori la probabilité d'observer un certain nombre (n'importe lequel) de corbeaux noirs est alors 1/11 aussi. Il me semble alors (mais je me trompe peut-être) que "Remarquez que ceci revient, insidieusement, à donner plus de poids aux séquences régulières : ici se cache le postulat d'uniformité de la nature de Hume !" devrait être interprété dans l'autre sens. Croire que de mêmes causes donneront de mêmes effets dans les mêmes conditions devrait encourager le premier modèle (si cause est "corbeau" et effet "est noir"), puisqu'on retrouve avec ce postulat une loi binomiale (chaque corbeau indépendant des autres et se comportant comme les autres a une proba p d'être noir, et on observe 10 de ces mêmes corbeaux).
GClarte a dit…

Je n'avais pas mené les calculs jusqu'au bout mais du coup c'est amusant, on a un Bayes factor de 1, je crois qu'on a trouvé un joli cas particulier. Par contre si on avait mis un prior non informatif sur les deux modèles (donc Beta(1/2,1/2) et Dirichlet(1/2,\dots,1/2), cf des calculs qu'on peut trouver en cherchant "Jeffrey's prior") on trouve un BF de 2 en faveur du premier modèle*. On ne peut pas appliquer de résultat de convergence avec le nombre d'observations pour le second modèle car il est construit pour seulement observer 10 corbeaux. Si on répète quand même l'expérience (ie on regarde deux séquences de 10 oiseaux), avec les priors originaux on a un bf de 3 en faveur du premier (et ça augmente avec les répétitions).

À y bien réfléchir, tester le fait que les corbeaux aient le même comportement devrait reposer sur le modèle suivant:
- soit un seul paramètre p pour tous les oiseaux, c'est le précédent avec n'importe lequel des priors.
- soit un paramètre par oiseau, chacun avec Beta(1,1) ou Beta(1/2,1/2).
Alors pour dix oiseaux le premier modèle donne un BF de 1/11 ou 175/1000. Le second donne 1/1024. Clairement en faveur du premier modèle. [remarquons que ce prior peut sembler gênant parce qu'il dépend du nombre d'oiseaux mais on peut l'écrire comme portant sur une infinité d'oiseaux, et après appliquer les résultats sur les priors impropres (cf : le bouquin de Christian Robert), puisque le posterior sera propre].

On a là un intérêt du Bayésien qui apparaît : le BF tient compte du fait que le premier modèle est plus parcimonieux (en gros, il y a moins d'espace de paramètres pour répartir le poids du prior), et cela sans avoir à écrire directement "je préfère les modèles parcimonieux à un taux de..." comme on ferait en stats normales (typiquement on ajoute une pénalité aux modèles en fonction du nombre de paramètres).

*Le Bayes Factor dépend du prior, et donc des gens ont voulu utiliser le Bayes Factor pour choisir un prior, je n'ai pas lu d'article sur le sujet, c'est une "blague" récurrente des bayésiens entre eux.

Bref, merci de cette discussion, je suis désolé de vous noyer de textes :)

Posts les plus consultés de ce blog

Commentaire sur "où doit s'arrêter la recherche scientifique"

Zététique, militantisme et composante sociale de la connaissance