samedi 10 août 2019

Lois naturelles contre régularité accidentelle : une différence de priors bayésiens ?

Imaginez que vous souhaitiez observer un certains nombres de corbeaux, disons dix, pour vérifier que votre hypothèse "tous les corbeaux sont noirs" est correcte. Si vous n'en voyez que des noirs, cela vous confortera, et vous vous attendrez à ce qu'un onzième soit noir également, sans surprise. Vous avez effectué un raisonnement amplifiatif : l'observation d'un échantillon vous amène à modifier vos croyances à propos d'autres objets, en dehors de votre échantillon.

Si maintenant vous jouez à pile ou face avec une pièce non truquée et observez dix fois "pile", vous penserez faire face à un énorme coup de hasard, mais vous ne devriez pas inférer que le onzième lancé sera "pile" : il y a toujours une chance sur deux qu'il tombe sur face, indépendamment des résultats précédents. C'est une chose qu'on enseigne dans tous les cours sur les probabilités.

Ainsi le raisonnement à adopter est différent dans les deux cas.

Le rapport entre induction et loi de nécessité naturelle

Cette observation est faite par Dretske dans "Laws of Nature" (1977). Hume observait que le raisonnement inductif présuppose l'idée que la nature est uniforme, et que cette idée ne peut elle même être justifiée par induction sous peine de circularité. Ce que met en avant Dretske, et que beaucoup d'autres avaient remarqué avant lui, c'est qu'on n'est pas prêt à attribuer une uniformité à propos de n'importe quoi. Pour utiliser le vocabulaire de Goodman, certaines propriétés sont "projectibles" et d'autres non. Par exemple, si les neufs premières pièces de ma poche sont des pièces de 5 centimes, je ne serai pas forcément prêt à en inférer que la dixième est également une pièce de 5 centimes et qu'il en sera ainsi tous les jours : la propriété "être une pièce dans ma poche" n'est pas une catégorie naturelle sur laquelle je voudrais projeter des régularités. Chaque nouvelle pièce de 5 centime découverte peut me conforter dans l'idée que toutes les pièces de ma poche sont des pièces de 5 centimes, mais seulement par élimination : les cas précédents n'augmentant pas la probabilité des suivants, il me faudra examiner toutes les pièces sans exception pour en avoir le cœur net.

C'est ce qui différencie les régularités accidentelles des lois : seul un examen exhaustif des instances peut les confirmer.

Cet aspect est, selon Dretske (et d'autres plus récemment, comme Lange), lié à la notion de nécessité naturelle : seules les régularités qu'on pense pouvoir être le produit nécessaire de lois de la nature peuvent être confirmées inductivement. On pourrait aussi dire qu'il est lié à la notion d'explication. Dans le cas des pièces de ma poche comme dans celui des lancés de pile ou face, il est peut-être des cas où l'on serait tenté de projeter nos premières observations sur les suivantes : si l'on pense qu'il existe une explication à cette apparente coïncidence. Peut-être la pièce est-elle truquée. Peut-être que les pièces de moins de 5 centimes s'échappent par un trou dans ma poche, et celles de plus de 5 centimes finissent dans mon portefeuille de toute façon. S'il y a une explication, alors le prédicat devient projectible, du moins dans le contexte où l'explication s'applique.

Il faudrait donc d'abord penser qu'une régularité est explicable, ou que si elle vaut, c'est en vertu d'être produite par une loi de nécessité naturelle, avant de raisonner inductivement.

Pour ma part, je pense que cet argument met la charue avant les bœufs en quelque sorte, et que le simple fait d'observer une régularité suffit, par induction, à nous laisser penser qu'elle vaut nécessairement, ou qu'elle peut s'expliquer. Je pense que les contre-exemples fournis par Dretske n'en sont pas vraiment. Si, enfant, l'on observait un jeu de pile ou face pour la première fois de notre vie, et que la pièce tombait dix fois sur pile, on serait je pense tenté de croire que les pièces tombent sur pile en général, et on aurait en cela parfaitement raison. Si l'on observe la situation adulte, on arrive à une conclusion différente, mais c'est simplement que plusieurs raisonnements inductifs sont en conflit : l'un, bien ancré, qui porte sur les pièces en général, et l'autre, tout neuf, qui porte sur cette pièce en particulier. Mais à parier, on sera très fortement poussé à chercher une explication si une pièce tombe 10, 20 ou 100 fois de suite sur pile. C'est donc je pense l'induction qui en premier lieu nous dit ce qui vaut pour catégorie projectible, ce qui demande éventuellement une explication, et non l'inverse.

La distinction entre loi et accident d'un point de vue bayésien

Transposons un moment ces idées dans un cadre bayésien. Dans le cas des corbeaux, je peux dire que chaque nouvelle observation conforte l'hypothèse que tous les corbeaux sont noirs, selon la loi de Bayes. Mais est-ce seulement par élimination, comme dans le cas des pièces de ma poche ? Ou est-ce que cela modifie les attentes que je projette sur la prochaine observation ?

Tout dépend en fait des "priors". Disons que j'émet des hypothèses a priori sur les résultats de mon observation, soit une séquence de dix résultats valant chacun "noir" ou "non-noir". Quelle crédence attribuer a priori à chaque séquence ?

Si je choisi de dire que toute séquence se vaut, je me trouve dans la situation suivante : l'hypothèse que tous les corbeaux sont noirs est assez peu plausible (elle est a priori de 1/1024), et si chaque nouvelle observation confirme légèrement l'hypothèse que l'issue de l'expérience sera la séquence "Noir, noir... Noir", c'est seulement par élimination : après la neuvième observation, il y a toujours une chance sur deux que le dernier corbeau soit noir, ni plus ni moins. Je suis incapable de projeter mon échantillon sur les cas non examinés.

Il existe une autre façon de distribuer les priors, qui consiste à affirmer que l'ordre importe peu. Ainsi j'attribuerai des crédences identiques non plus aux séquences ordonnées, mais à la proportion de cas positifs par rapport aux cas négatifs, et ensuite, pour chaque séquence exemplifiant cette proportion, une crédence identique. Je considère a priori qu'il y a une chance sur dix que dix corbeaux observés soient noirs, une chance sur dix qu'il y en ai neuf (bien que cette proportion soit exemplifiée par dix séquences différentes et non une seule), et ainsi de suite.

Remarquez que ceci revient, insidieusement, à donner plus de poids aux séquences régulières : ici se cache le postulat d'uniformité de la nature de Hume !

Si je procède de cette façon, alors mon predicat "être un corbeau" devient projectible : arrivé à la neuvième observation, un rapide calcul utilisant la formule de bayes montre que l'hypothèse "dix corbeaux noirs", est confirmée à un degré de dix chances sur onze, et c'est autant de chances que le dernier corbeau soit noir. Ceci tient au fait que la probabilité a priori d'avoir vu neuf corbeaux noirs si la bonne répartition était de 9/10 est très faible (il y avait a priori une seule chance sur dix que les neufs noirs tombent en premier et le non-noir en dernier), tandis qu'elle est de 1 dans l'hypothèse 10/10, ce qui rend cette dernière hypothèse plus crédible.

Nous pouvons donc imputer la différence relevée par Dretske entre les inférences sur les régularités accidentelles et celles sur les lois à une attribution différente de priors aux différentes hypothèses concernant le résultat d'une observation : dans un cas les séquences sont pondérées équitablement, et dans l'autre, ce sont les distributions.

Y a-t-il une bonne méthode d'attribution des priors ?

Plusieurs choses sont intéressantes à observer, la première étant que le postulat d'uniformité de la nature semble lui même pouvoir être dérivé de l'idée que l'ordre dans nos observations importe peu. Il semble y avoir un lien à la notion d'explication mentionnée plus haut : si l'on pense que l'ordre de nos observations n'importe pas vraiment, c'est qu'on pense que nos observations portent sur une caractéristique générale des corbeaux plutôt que sur une séquence de phénomènes indépendants les uns des autres. Autrement dit, les séquences observées s'expliquent par une caractéristique propre au corbeau.

Ceci semble appuyer l'idée que l'induction ne peut fonctionner que si l'on pense au préalable d'un type de phénomène qu'il obéit à une loi de nécessité naturelle, ou du moins qu'il est explicable, et que ce que l'on cherche à confirmer, c'est la bonne explication.

Pour être clair, je n'ai pas d'objection contre cette idée, mais il me semble que c'est ce qu'on pense a priori de tous les phénomènes. C'est le cas même des phénomènes purement aléatoires: ainsi on pense des lancés de pile ou face qu'ils ont en général une répartition de un pile pour un face (et *donc* que toutes les séquences sont équiprobables !). Le fait d'attribuer un même degré a priori à toutes les séquences de résultats dans ce cas ne peut, selon moi, que découler de l'idée préalable qu'il existe une certaine loi selon laquelle un lancé donne en moyenne autant de piles que de faces. Mais cette idée ne devrait pas être adoptée a priori. Elle ne devrait l'être que si cette loi a été préalablement confirmée par induction, au détriment des autres lois possibles. C'est en effet le cas pour les lancés de pile ou face, ça ne l'est pas pour les corbeaux : c'est ceci, et uniquement ceci, qui nous fait dire que la couleur des corbeaux est projectible quand le résultat d'un lancé de pièce ne l'est pas.

Au final, on peut voir le choix de pondérer a priori toutes les séquences de résultat possibles équitablement, ce que l'on fait dans le cas des lancés de pile ou face, comme un cas particulier de l'autre choix, celui qui consiste à pondérer les répartitions équitablement, à ceci près que certaines de ces répartitions ont été préalablement éliminées par induction. Pour cette raison, je pense que la bonne façon de raisonner est en général d'attribuer des degrés de crédence identiques aux caractéristiques des types d'objets et non aux instances, et donc de pondérer de manière équilibrée les rapports possibles dans la distribution des propriétés, les lois possibles, et non les séquences possibles. Ceci non seulement dans certains cas, mais dans tous les cas. Les distributions accidentelles se démarquerons alors naturellement comme celles qui ne sont pas uniformes.

Y a-t-il une justification à cette prescription ? La suivante : si l'on ne raisonne pas comme ça, on est incapable de procéder à la moindre induction, sauf à invoquer une mystérieuse intuition qui nous ferait croire que certaines propriétés sont projectibles et d'autres non, que certaines choses ont des explications et d'autres non, et à appliquer une règle distincte, permettant l'induction, pour les premières. Mais d'une part je ne crois pas en la magie, et d'autre part invoquer une multiplicité de méthodes de confirmation (d'attribution de priors) n'est pas très parcimonieux. Or il n'y a aucun besoin d'invoquer une telle intuition mystérieuse et une telle multiplicité de méthode, dans la mesure où, comme je l'ai montré, l'absence de projectibilité d'une propriété peut être fondée sur la découverte inductive d'une loi de répartition équitable entre elle et d'autres propriétés (je ne prétend pas ici résoudre les problèmes relevés par Goodman, comme le fait que le prédicat "noir avant l'an 2100 et blanc après" serait aussi projectible que le prédicat "noir").

Autrement dit, je pense que tout mérite a priori d'être expliqué, qu'on découvre les bonnes explications par induction, et qu'on découvre également que certaines choses ne méritent pas d'explication (comme le résultat d'un lancé de pile ou face) par induction.

À propos du bayésianisme subjectif

Je souhaite terminer par une seconde remarque qui concerne le raisonnement bayésien.

On voit, à la suite de ces exemples, que différentes règles d'attribution de priors peuvent nous faire aboutir à des conclusions radicalement différentes. Certaines nous amèneraient à être sans cesse surpris de voir un nouveau corbeau noir ("quelle séquence incroyable de résultat !") sans jamais postuler que tous les corbeaux sont noirs, ni même une proportion substantielle de ceux-ci. Notre crédence pour les nouveaux cas resterait inchangé en dépit des régularités passées. On serait, en quelque sorte, un sceptique à la Hume. D'autres règles d'attribution de priors, au contraire, nous amènent à des raisonnements ampliatifs et en particulier à accepter l'induction. Ces deux attitudes, ces deux façons de régler le choix des priors face à de nouveaux types de phénomènes, semblent sous-tendues par des choix métaphysiques différents, mais elles sont évidemment compatibles avec exactement les mêmes observations.

Je pense que c'est un gros problème pour les branches subjectivistes du bayésianisme : non seulement il faudrait croire que tout ceci n'est qu'une affaire de goût métaphysique (et non pas le fait d'avoir eu des expériences de vie différente), non seulement il n'y a jamais convergence dans les crédences des deux bayésiens (le premier bayésien attribuera une crédence nulle à toute généralisation universelle, même approximative, parce qu'il existe une infinité de séquences infinies possibles), mais surtout, certaines attributions de prior semblent foncièrement, objectivement, problématiques puisqu'elles minent tout raisonnement ampliatif. Si l'on ne procédait à aucune induction, on pourrait croire que le monde n'est qu'une mosaïque de fait sans lien les uns aux autres, et la science serait simplement impossible. Nous sommes donc en mesure d'affirmer la supériorité, d'un point de vue rationnel, de certaines règles d'attribution des priors: celles qui appliquent un principe d'indifférence aux lois générales plutôt qu'aux séquences d'observation possibles.

Pour cette raison (et pour d'autres) je pense que le seule voie viable est le bayésianisme objectif, fondé sur un principe d'indifférence s'appliquant aux hypothèses générales portant sur les types d'objets et que le bayésianisme subjectif qui refuserait d'affirmer que cette manière de procéder est la meilleure est une voie sans issue. On me rétorquera peut-être que le bayésianisme subjectif admet déjà implicitement que ce sont des lois générales, et non des séquences d'observation possibles, qui se voient attribuer des priors. Mais il s'agit déjà d'une restriction au subjectivisme, et je ne vois aucune raison de ne pas la pousser plus loin.