vendredi 10 juin 2022

Fine tuning, total evidence and indexicals

This is a follow-up of the previous post.

The debate on fine tuning and multiverses hinges on complex issues related to Bayesian reasoning. An influential argument from White in particular seems to show that we cannot infer the existence of the multiverse from our evidence of fine tuning. (White’s argument is apparently the main reason Philip Goff rejects the multiverse hypothesis, since most of his examples come from this particular paper.)

The argument rests on the requirement of total evidence that White illustrates with this example: 

Suppose I’m wondering why I feel sick today, and someone suggests that perhaps Adam got drunk last night. I object that I have no reason to believe this hypothesis since Adam’s drunkenness would not raise the probability of me feeling sick. But, the reply goes, it does raise the probability that someone in the room feels sick, and we know that this is true, since we know that you feel sick, so the fact that someone in the room feels sick is evidence that Adam got drunk.

This reasoning is silly: the fact that Adam got drunk makes it more likely that someone got sick at the party, but not that it was me. Focusing on weak evidence instead of strong evidence can lead us astray in our inferences.

How is this supposed to apply to fine tuning? Our strong evidence is “our universe is fine-tuned”. From this, we infer the weak evidence “at least one universe is fine-tuned”. The multiverse hypothesis explains that at least one universe is fine-tuned: if there are many universes, the probability that at least one of them is fine-tuned is much higher than if there is only one. But according to White, this does not explain why our universe in particular is fine-tuned. Doing so would mean falling prey to an inverse gambler fallacy (see previous post).

White’s argument is fallacious, and I’ll explain why by using toy models.

Bayesianism

Let me first note that I take Bayesian inference to tell us how likely a model is given our evidence, or how much we should boost our confidence in this model. 

A model can be probabilistic, in which case it incorporates probabilistic processes. Then the model predicts that our evidence E should occur with probability p. We can use Bayes’s theorem to “inverse” this probability and infer the likelihood of the model itself given our evidence.

This rationale is not devoid of problems (it requires that we fix prior likelihoods for our models: how?), but detail will not matter much here. For the sake of this article, we can just consider the following weaker principle:

A model M1 is favoured (or “boosted”) by a piece of evidence E compared to another model M2 if M1 makes E more likely than M2 does.

[Side note]
In real scientific practice, the evidence is statistical, because we want our models to have a certain level of generality. This cannot be the case with fine-tuning: we only have one piece of evidence associated with the value of the constants of our universe. 

Strictly speaking, this is a problem for the argument for the multiverse. Why should we assign a probability space to the possible values of constants? Why not simply say that our evidence favours the model with actual constants? 

The point is that constants are primitive in a theory, but the problem of fine-tuning prompts us to explain their values, which is tantamount to speculating about what future theories would tell us about them. There is no reason to think that future theories will associate the value of physical constants with a probabilistic process (although it’s not excluded). 

I personally think that this is enough to discard the problem: just wait for a future theory before speculating. However, this is not the issue that I want to discuss here, so let us grant that there’s a problem that can be framed in a probabilistic setting.
[End side note]

Illustration

It will be easier to first illustrate the issue with a mundane case analogous to fine-tuning. This will shed light on how exactly the requirement of total evidence and the inverse gambler fallacy are involved.

Mary and John are infertile. Their only way to have children is IVF. In their case, the success rate of IVF is 10%. The law of their country stipulates that a couple can only try IVF twice, with a three-year interval between the two trials. They can try a second time even when the first trial was successful.

Let us consider three models.

In the first model, M0, Mary and John never try IVF. The model predicts with 100% chance that Mary will not get pregnant.

In the second model, M1, Mary and John only attempt IVF once. The model predicts a probability of 10% that Mary gets pregnant, and 90% that she doesn’t.

In the third model, M2, Mary and John attempted IVF twice. This gives a 1% chance that the two trials were successful, a 9% chance that only the first was, a 9% chance that only the second was, which means a total of 19% that Mary got pregnant at least once, and a 81% chance that she didn’t get pregnant at all.

Now let us consider three scenarios.

First scenario:

Mary is one of Robert’s remote relative. Robert knows the procedure that Mary has to follow to get pregnant. Robert asks Mary if she knows what it is like to be pregnant. Mary answers “oh yes, I know it first hand”. From Mary’s answer, Robert learns that Mary got pregnant at least once, but he doesn’t know if it’s once or twice.

Clearly, Robert should boost his confidence in M2, because it predicts his evidence with a 19% probability instead of a 10% one for M1. M0 is completely excluded by his evidence.

To see that Robert’s reasoning is correct, we can imagine that there are 300 situations like Robert’s in the world. In 100 of these, the relative has never performed IVF. In 100 other situations, she has performed IVF once, and in 10 out of them this relative got pregnant. In the 100 last situations, the relative has performed IVF twice, and in 19 out of them, she got pregnant. Most of the situations where the relative can say “oh yes, I know it first hand” are situations where they made two attempts, so people in Robert’s situation are right to bet that they are probably in one such situation.

Second scenario:

Alice is a doctor at the hospital. She takes care of Mary for her IVF. After a few weeks, she learns that the IVF was successful: Mary got pregnant. However, Alice has no idea whether it’s Mary’s first or second attempt. She doesn’t even know if Mary already has a child. All she knows is that this particular IVF was successful.

Should Alice conclude from the success that it’s Mary’s second attempt? After all, two attempts make success more likely. However, this would be a fallacy.

In this scenario, Alice should consider three models. The first one is M1: this is Mary’s first and only attempt. The second one is M2, complemented with the information that this is the first attempt, some kind of “you are here” sign attached to the model if you will. Call this complemented model M2. Finally, there is M2 complemented with the information that this is the second attempt, call it M2.

Note that M0 should not be considered at all: not because it will be discarded by Alice’s evidence, but because it does not apply to the case. When considering a situation, we should only take into account the models that are apt to represent the situation, and M0 is not one of them. Given that she assists to one of Mary’s attempt (this is the context), there is no more reason for Alice to consider M0 than there is to consider the quantum model of the hydrogen atom to represent the situation.

In this case, Alice’s evidence does not favour any of the three models. Indeed, the probability of success is 10% with M1, and it is also 10% with M2 or M2: 1% chance that the two trials were successful including this one, and 9% chance that only this one was.

Here we have an illustration of the requirement of total evidence. If Alice went from the strong evidence “this attempt was successful” to the weaker evidence “at least one attempt was successful”, she would mistakenly favour M2 over M1. She would be commiting an inverse gambler fallacy. She must take into account her total evidence, and therefore consider M2 and M2 instead of M2, and then, no model is boosted.

We can imagine 300 situations like Alice’s to see why her reasoning is correct. Assume that in 100 of them it is the patient’s first and only attempt, 10 of which will be successful, in 100 of them it is the patient’s first attempt among two, 10 of which will be successful, and in 100 of them it is the patient’s second attempt, 10 of them being successful as well. Successes are equally distributed in all three groups, so people in Alice’s situation have no reason to infer from success that their situation is among any of the three groups.

Note however, that there is a sense in which M2 is boosted in this scenario. When Alice first learns that Mary will attempt IVF, before learning about the outcome, she has some reason to favour the hypothesis that this is one of two attempts, simply because if Mary makes two attempts instead of one in her life, there is more chance that she will meet Alice. But then the focus is slightly different: we are not considering the narrow situation where an IVF attempt is made, but the larger situation where Mary could have decided or not to attempt IVF, could have met Alice or another doctor instead, etc. and we can suspect that more information should be taken into consideration in order to evaluate which of M0, M1 and M2 is boosted by the evidence (for example, the likelihood that Mary meet Alice instead of another doctor). In any case, the evidence of success plays no role in this context.

Third scenario:

Jane is Mary and John’s daugther. She knows about the process that her parents had to follow for her conception. However, because of dramatic circumstances, she was taken away from her parents just after her birth, so she doesn’t know how many IVF attempts her parents did, and she doesn’t even know if she has a sibling.

The question is: are we closer to the first or to the second scenario?

The fact that Jane has evidence, from her own existence, that her mother got pregnant at one specific time, following one specific conception procedure, could let us think that her situation is very close to the second scenario. However, this is a mistake.

The reason is that in the second scenario, Alice first learns that Mary wishes to attempt IFV. This sets up a context for her inferences. Then she learns that the IFV was succesful: this is her evidence. But this is not the case for Jane.

What sets up the context in Jane’s case is when she learns that her parents had to follow a particular procedure to get children, without reference to one particular IVF attempt. This context does not imply that her parents made any attempt, actually. M0 is still a possible model in this context. It is her evidence that she exists that will favour one or the other model among M0, M1 and M2.

Her evidence will discard M0: the probability of our own existence is 0% with this model. It will favour M2 over M1. Her mother probably made two attempts. This raises the probability of her own existence from 10% to 20% (the case where the two attempts are succesful in M2 makes her existence twice as likely, so we get 20% instead of 19%).

Why doesn’t Jane consider our models M2 and M2 above? Because this would be asking a different question: whether she is her mother’s first or second child. Her evidence tells her nothing about this, and indeed, none of M1, M2 and M2 is boosted in this inferential context. But it also makes sense for Jane to ask how many times her parents tried IVF, and in this inferential context, her evidence favours the hypothesis that they tried twice.

To see that Jane’s reasoning is correct, we can imagine that there are many cases like Jane’s in the world. Imagine that 100 parents never attempt IVF, 100 parents attempt IVF only once, resulting in 10 children like Jane being born, and that 100 parents attempt IVF twice, resulting in 20 children like Jane being born. Twice as many children in Jane’s situation are children from parents that made two IVF attempts instead of one. So, each of these children would be right to infer that their parents probably made two attempts, because they are more likely to be among the 20 than among the 10.

So, Jane’s case is actually closer to the first scenario, despite her knowledge that her conception occurred. Her inferential context is one where she knows that her parents followed an IVF procedure once or twice, and what she learns from her own existence is not that the first attempt was successful, nor that the second attempt was successful, but only that at least one attempt (which happens to correspond to her conception) was successful.

Back to cosmology

How can we transpose our reasoning to the problem of fine-tuning?

Consider a cosmological model with only one universe U1, with a 10% probability that there is life in this universe, and another cosmological model with two universes U1 and U2, with 10% probability for each universe to contain life. This is exactly analogous to our models M1 and M2: a universe creation event is analogous to an IVF, and the development of life in this universe is analogous to a success leading to pregnancy. U1 incorporates a single universe hypothesis, and U2 a multiverse (actually, bi-universe) hypothesis.

We are in the situation of Jane. We do not know if we have “sibling” universes. We do not know if more than one universe was created. Our only evidence is that we are in a universe with life. We know that it is our universe, this universe, just like Jane knows that she is the result of her conception. However, we have no idea, under the hypothesis that the right model is M2, whether this universe would be U1 or U2 in the model. And just like in Jane’s case, our evidence that our universe contains life favours M2 over M1.

[Side note]
If there is a disanalogy between the cosmological case and the previous case, it lies in the fact that the justification we adopted (“imagine there are 300 situations like this one…”) cannot be adopted here. There is only one multiverse.

One way around this problem is to consider 200 possible situations like ours. In 100 of them, there is only one universe, and in 10 out of them, it’s a universe with life. In the 100 other situations, there are two universes. In 18 out of them, there is one universe with life, and in 1 there are two universes with life. Any possible population of a universe with life would be right to assume that they live in a multiverse, since this is the case for 20 possible universes among 30.

Is this fallacious reasoning? Perhaps, but then any probabilistic reasoning about multiverses will be fallacious, including White’s (see the side note in the introduction). But if we accept that probabilistic reasoning makes sense in this context, we should accept that the multiverse hypothesis is boosted by our evidence.
[End side note]

White insists that we must take into account our evidence that this universe exists, and that this fact is part of our background knowledge in Bayesian inference. The way he models this in his article amounts to pointing to one of the two universes in M2 and declare “this is our universe”. In essence, White asks us to consider the model M2 as the right representant of the multiverse hypothesis instead of the model M2. And he remarks that this model is not favoured by our evidence, which is right. But M2 is not the right model.

M2 would correspond to our situation if we had some means of identifying our universe with respect to other universes in the model. This would be the case, for example, if we were there before the creation of our own universe, just like Alice was there before Mary’s pregnancy. We could have pointed to our universe and say “let’s call this one U1, and let’s see if it contains life”. Then we would have applied our two models, M1 and M2, and see that none of the models is favoured by our evidence that U1 eventually contains life.

But that’s not how it works. There might be something that identifies our universe with respect to the other ones in the multiverse (perhaps they are ordered in a time sequence, just like Mary’s IVFs) but this is not some information to which we have access. We do not have the indexical information that White thinks we have that would allow us to locate ourselves in the multiverse.

We could use models like M2 and M2 if we wanted to know “is U1 in the model our universe, or is it U2?”, in the way Jane could wonder “am I the first or the second child?”, and as expected, our evidence would not favour any of the two hypotheses. But this is not the question that we want to ask in the context of fine-tuning. What we want to know is whether there are other universes. This is why we should consider M2 as the right model of the multiverse instead of M2 or M2. The fact that our situation resembles much more that of Jane than that of Alice is enough to make this point.

The difference between M2 and M2 is that the former comes with a “you are here” sign. Scientific models rarely come with a “you are here” sign, and theoretical models never do. They aim at generality. They’re interested in types, not in particulars, and cosmology, despite its peculiar object, the universe, is no exception to the rule. It applies to the universe the same methods that worked for other types of system, thus implicitly considering that our universe is just a representant of a certain type of physical object (modelled, for example, like an infinite gas, without any specification of our own position).

Now philosophers, drawn by metaphysical considerations, may wonder which “you are here” cosmological model is favoured by our evidence, taking into account our best scientific theories. It’s always nice to see metaphysicians taking into account the outcome of science in their reflection, but it would be better if they were paying due respect to what these models aim at before asking the wrong questions. In this regard, they should acknowledge that science has never been in the business of vindicating “you are here” models.

dimanche 5 juin 2022

Fine-tuning and Multiverses

There has been a discussion on Twitter regarding the view, expressed by Philip Goff, that the multiverse hypothesis is not a good explanation for fine-tuning (or, as he would probably say, cannot be inferred from the fine-tuning of our universe).

Short summary of Philip’s position

The constants of our universe seem to be fine tuned for life, which would be miraculous. How can we explain this? An apparently good explanation is a multiverse hypothesis together with a selection effect. The idea is that there are many universes with different values for constants, so the fact that some of them are suitable for life is not miraculous, and of course, we happen to be in such a universe.

According to Philip, an inference to this explanation is fallacious. It is an inverse gambler fallacy: seeing a double six when entering a casino, and inferring that there were many trials. The usual response is that it is not, because of a selection effect. If we are only allowed to enter the casino when a double six is rolled, we can infer that many trials were made before we were shown one. In the case of fine-tuning, we would not exist if the constants were not right, so there is a selection effect. But according to Philip, this move is fallacious.

After discussion, he reaches this case in a document published on his website (corrected on Twitter, I report the correction). It is supposed to be analogous to the problem of fine tuning with a selection effect, and the analog of an inference to many universes would still be fallacious:

Jane3:

Jane is the product of IVF. One day she discovers that the doctor who performed the IVF which led to her existence rolled dice to see whether to fertilise the egg, determining to do so only if she rolled a double six. The doctor only adopted this procedure once. Given that she exists, Jane concludes that other different doctors must have adopted this decision procedure in the case of many other potential IVFs.

The doctor rolling a dice corresponds to our universe “choosing” its physical constants, and the double six corresponds to the values of these constants that favour life. According to Philip, the final inference is fallacious.

“Her evidence is that a double six was rolled to decide whether her conception would go ahead. How many times [other doctors] have done this with respect to other potential conceptions has no bearing on how likely a double six was to come up in the case of her conception”

So, the existence of other unviverses cannot explain why the constants of our universe are suitable for life. The intuition behind this rejection can be given by comparing with a lottery case:

Lottery:

Jane buys a lottery ticket and wins. Given that she won, Jane concludes that many other people bought a lottery ticket as well.

This inference is absurd: what other people do does not change Jane’s probability of winning the lottery. This example does not have any selection effect, but the point is that it would be irrelevant. For example:

FatalLottery:

Jane buys a lottery ticket. Her enemy will kill her in her sleep if she loses the lottery. However, she wakes up and sees that she won. Given that she won, Jane concludes that many other people bought a lottery ticket as well.

The inference is still absurd with a selection effect. But are we in such a case with fine-tuning?

On the one hand, I am not personnally convinced that fine-tuning is a real problem (because I think it’s a theory-laden problem). But on the other hand, I think that Philip is wrong: were fine-tuning a problem, the multiverse would be a solution.

I will give three problems and a diagnostic for Jane3 case. Then I will return to the gambler fallacy and selection effect, and finally, briefly discuss whether the problem should be framed in inferential or explanatory terms, because this point came up in the twitter discussion.

First Problem

A first problem with Jane3 is that it’s analogous to the standard explanation for why the earth is habitable. The dice roll is analogous to the earth “choosing” its distance to the sun, its having a big satellite that stabilises its orbit, its being of the right mass not to lose its atmosphere, and all other unlikely factors that are necessary for life. This gives us the case:

Earth:

Life is a consequence of the formation of the earth. The characteristics of the earth that make it habitable are very unlikely to occur. Given that life exists, we conclude that many other planets with different characteristics have been formed in the universe. We just happen to be on one with the right characteristics.

In this case, the inference does not seem invalid at all to me, and it’s almost if not identical to the standard explanation for why there’s life on earth that nearly everyone accepts. But in order to be coherent, Philip should conclude in this case too that:

“Our evidence is that the earth has the right conditions for us to exist. How many times the process of planet formation occurred in other solar systems has no bearing on how likely the right conditions were to come up in the case of the earth.”

So, knowing that other planets exist is of no importance, it has no bearing on our problem, because what we want to explain is why the earth in particular had the right conditions for life, and we’re not interested in other planets. Then we should reject the widely accepted explanation for why the earth is habitable.

Philip’s response is that the standard explanation for why the earth is habitable is acceptable because we already know that there are other planets. However, it would be fallacious to infer that other planets exist from the mere fact that there is life on earth. But I think that this response is not acceptable. In the lottery case, we know that other players exist, and this does not change the fact that the inference is invalid. So, either the existence of other planets has no bearing on why the earth has the right conditions for life (then the standard explanation fails), or it has (then it succeeds), and this does not depend on our knowledge that other planets exist. Rather, as I will argue, it depends on the exact question being asked and what we want to explain.

Second Problem

The second problem with Jane3 (noted by Keith Frankish in the twitter discussion) is that the fine-tuning argument for the existence of God or any kind of designer seems to be fallacious as well if we try to apply it here. But Philip accepts this argument in the case of fine tuning. Take the following case, which is just Jane3 with a different conclusion:

LoadedDice:

Jane is the product of IVF. One day she discovers that the doctor who performed the IVF which led to her existence rolled dice to see whether to fertilise the egg, determining to do so only if she rolled a double six. The doctor adopted this procedure only once. Given that she exists, Jane concludes that someone loaded the dice so that the result of the roll was a double six.

I don’t think that this argument is particularly persuasive. Jane’s existence was unlikely, but that’s no reason for her to conclude that the dice were loaded, unless we have independent reasons to assume that someone really wanted her to exist. If not, she might as well not have existed.

[Added part]
Is it somehow surprising that there was a double six given the odds? If Jane is very special, yes, otherwise, we could assume that the procedure was adopted thousands of times by other doctors before her conception, and Jane is among the few successes. For Jane to ask “why me in particular?” would be like for a lottery winner to ask “why me?”. There has to be a winner. Jane was lucky, that’s all.
[End of added part]

However, Philip accepts the argument for design in the case of fine-tuning, and I think that he is right to do so (if fine-tuning were a real problem, that is). So what goes wrong? Maybe we could adapt the case to make the design argument work.

The point where this case departs from the standard fine-tuning argument is that the stakes are low: Jane is not special, there’s no reason someone would want her in particular to exist, so there’s no reason to assume that someone loaded the dice. But God would want life to occur. If we want to get closer to a design argument, we must therefore adapt the case and raise the stakes.

JaneAndTarzan1:

Jane and Tarzan are the last humans on earth. They are the product of IVF. One day they discover that just before the apocalypse, the aliens that were in control of the earth at the time obliged the doctor that performed their IVFs to roll dice each time to see whether to fertilise the eggs, determining to do so only if they rolled a double six. The doctor only performed two IVF following this procedure. Given that they both exist, Jane and Tarzan conclude that someone loaded the dice so that the results of the roll were each time a double six.

This is now more persuasive because we would understand why someone would do that: the existence of Jane and Tarzan is desirable. And it’s unlikely that this desirable result would obtain without the trick. But what if we go back to the original multiverse argument and make the same change?

JaneAndTarzan2:

Jane and Tarzan are the last humans on earth. They are the product of IVF. One day they discover that just before the apocalypse, the aliens that were in control of the earth at the time obliged all doctors performing an IVF to roll dice each time to see whether to fertilise the eggs, determining to do so only if they rolled a double six. Doctors can only perform two IVFs in their career. Given that they exist, Jane and Tarzan conclude that many different doctors must have made trials before to succeed.

I dare say that the inference is much more plausible now, and that unless we have independent evidence that only one doctor could perform IVFs, this is the best explanation for the existence of Tarzan and Jane. It’s even better than the loaded dice explanation. Shall we object that “how many other doctors have done this with respect to other potential conceptions has no bearing on how likely a double six was to come up in the case of [their] conception”? This seems simply irrelevant: Tarzan and Jane would not exist if doctors had not tried hard.

So, not only the design argument does not seem much more persuasive than the multiverse argument in Jane3, but attempting to make it more persuasive also saves the multiverse argument.

One could think that the idea that there were many doctors, or that dices are loaded, is deduced from the premise that people at the time really wanted humanity to survive, and not from the premise that Jane and Tarzan exist. I don’t think this is right: the will of the doctors merely reinforce the inference, but it is not necessary. I will come back to this soon.

Third Problem

A third problem (noted by @ Disagreeable_I on Twitter) is that the intuitions we have in Jane3 seem to be sensible to details that are apparently irrelevant. This means that the case is not very robust, and we might suspect that it was fine-tuned (!) to make us accept a particular conclusion. We have seen with Earth and with TarzanAndJane that different alterations prompted different intuitions, but we can already see it with a case that is much closer, almost equivalent to the original:

Jane3bis:

Jane is the product of IVF.  She learns that the success of IVF depends on the co-presence of many contingent factors. Any trial has only one chance over a thousand to be successful, and gives rise to a different baby when it succeeds. A doctor can only make an IVF once, but parents can see many doctors. Given that she exists, Jane concludes that her parents saw many doctors before her conception.

This case is almost identical to the original Jane3, with the dice replaced by a more realistic probabilistic process. Another important difference is that the many trials of the conclusion concern specific parents. But although similar, the inference does not seem as problematic as before, for some reason. People born from IVF would be right to suspect that given the randomness of the process, many trials were made before the success that resulted in their existence. Why this difference?

One view mentioned before would be that it is the high stakes that explain that many trials were made, and not their existence: parents that do IVF want a child, so they are likely to make many trials. The same rationale could be given for JaneAndTarzan. But this does not do justice to the intuition that what needs to be explained is that it would have been very unlikely for Jane to came to life after only one trial, whereas her birth is no surprise if many trials were performed.

We can make another change to the case in order to remove this parasitic effect of stakes.

Infertility:

Jane is the product of natural fecondation. She learns that her father is almost infertile: any intercourse has only one chance over a thousand to result in fecondation (each intercourse resulting in fecondation will give rise to a different baby). Furthermore, Jane learns that her parents never really wanted to have a baby. Given that she exists, Jane concludes that her parents probably had many intercourses, and that one of them accidentally resulted in her fecondation.

The inference still seems valid: it would be a miracle for Jane to exist if her parents only had one intercourse, so an explanation is that they had many. And this conclusion is not reached from the fact that they really wanted a child, but only from the fact that Jane exists. Indeed, Jane only has evidence for one intercourse, the one that resulted in her existence. She has no independent reason to assume that her parents had others. Only her existence and the infertility of her father favours this hypothesis.

This case is relevantly similar to the case of fine-tuning: the laws of nature as described by contemporary physics are “almost infertile”, they need very specific constants to produce life, and yet we exist. One explanation is that there were many “intercourses” with the same laws, but different constants.

Philip argues that in this case, the relevant evidence is not Jane’s existence, but her mother’s pregnancy. There’s something right in this diagnostic: relevance matters. But it cannot be the whole story, because the mother’s pregnancy can be deduced from Jane’s existence, and so, if we can infer many trials from pregnancy, we can also infer many trials from Jane’s existence. So, why wouldn’t it work in the original case too?  Is the fact that the conclusion concerns only Jane’s parents the main difference? But then in the original case too we could infer that many trials were made by her parents, with different doctors.

The most relevant difference seems to be this: in the original case, we only assume that the weird dice procedure was adopted in the case of Jane’s birth. It could be used elsewhere, but it’s not necessary. In the last case, and, actually, in all cases where the inference seems valid, we assume that a probabilistic procedure is necessarily involved in all possible members of a relevant set of possibilities (all planet formations, all the IVF that could have occurred before the apocalypse, or all the fecondations from Jane’s parents). Actually, the sole replacement of dices with probabilities associated with IVF does this, the relevant set being IVF born children: by natural necessity, these children are subject to a random process (the set of children born from the dice procedure is more ad-hoc, whereas IVF does not have to be chancy by definition, but it happens to be).

Note in passing that in the case of fine-tuning that interests us, it seems fair to assume that the probabilistic procedure (selection of physical constants) is necessary rather than contingent, that is, that it is involved in all possible universe creations (even if there’s only one universe).

We can now see how Jane3 is specially designed to prompt anti-multiverse intuitions: it insists that the dice procedure is only contingently attached to specific instances of fecondation that have nothing else in common (not even being performed by the same doctor). My diagnostic is that this tiny difference changes the question being asked, or what is relevant for the explanation and what needs to be explained.

The Diagnostic

I will frame my diagnostic in terms of explanation, because I think that this is the appropriate setting: we are looking for an explanation to fine-tuning (I will discuss Philip’s inferentialist approach in the last section, but we can get to the same results). What happens in all our cases is that someone infers an explanation from something that seems unlikely.

An explanation is a response to a why question. A why question is generally analysed by means of a contrast class: why X rather than Y? We could add that an explanation generally takes for granted a background context C that remains fixed in counterfactual reasoning (whether X or Y is the case), some kind of “all other things being equal” clause. The explanation normally takes the form of a counterfactual: an answer “because Z” could be analysed as: “given C, if Z had not been the case, then we would have had Y instead of X (or X would have been less likely)”.

Example: “why did my house burn (rather than not)?”
Answer: “because the candle fell”, analysed as: “all else being equal (there is oxygen in the air, this is a wooden house, etc.), if the candle hadn’t fallen, your house wouldn’t have burnt”.

My diagnostic is that the contrast class is different in all cases, which is why the inference is valid in some cases and not in others. The contrast class is induced by the presentation of the case.

The original Jane3 case prompts us to ask “why does Jane exists rather than not?” (this is at least the question implicit in the objection provided by Philip), and the LoadedDice case as well. The problem with this case is that this is a weird question to ask. There is no answer to why a random process gives a certain result, no relevant counterfactual to give: it’s like that.

The Earth case prompts us to ask a different question: “why is life possible at all?” The contrast class is not “why the earth in particular has these characteristics rather than not?” but “why is there a planet with these characteristics in the universe (which happens to be the earth) rather than none?”. The right answer is “because there are many planets with different characteristics” (had it not be the case, habitable planets would probably not exist). Only then can we infer, by means of the selection effect, that the earth must be one of these possible objects, because we’re no more troubled by the impossibility of its existence.

We saw that raising the stakes makes for a more convincing case. What raising the stakes does is switching the contrast class of the explanation. In JaneAndTarzan, what interests us is no more why Jane and Tarzan in particular exist rather than not, but rather why some people (who happen to be Jane and Tarzan) exist rather than nobody. What stakes do is point to what is special about the instance we wish to explain, and this gives us the right contrast class. In the original case, Jane is only special as the person on which the case focuses. On the other hand, Jane and Tarzan are special qua last survivors of an apocalypse.

Finally, specifying that all members of a class of object must necessarily be subjected to a random procedure also gives us a potential contrast class, which are these objects. The question can then become: why is there an instance of this class rather than none? Refusing to attach a random procedure to a specific class of objects, as Jane3 does, dissuades us from using this constrast class.

Depending on what question is asked, an inference or explanation can be valid or not. If the question is “why Jane in particular exists rather than not?” then no explanation is really valid. If the question is “why an IVF born child (Jane) exists rather than none?” then many explanations become relevant: perhaps it’s God, or some kind of design, or perhaps it’s many trials, and unless we have evidence that there was only one trial, invoking God should probably be avoided (why would God want life to occur in our universe rather than in any other?). And the same goes if the question is “why do these parents have a child (Jane) rather than none?”.

Interestingly, the design explanation and the multiverse explanation are relevant for exactly the same kind of questions. The questions where they are not relevant are indexed to particular instances of random processes and their outcomes. These questions are contrived and uninteresting, the only response being “it just is, it’s random”. Philip forced us to answer this kind of uninteresting question to make his case against the multiverse, in particular because his setting implies that the random process is only contingently attached to particular instances.

The problem of fine-tuning is not this kind of uninteresting question. The process of selection of constants is presumably involved not only with our universe, but with all possible universes. We do not want to know “why this particular universe has the right constants rather than not?”. What we want to know is why a universe suitable for life is possible at all given the apparent unlikelihood of such a universe, that is, “why a universe of this kind (ours or any, really) exists rather than none”. And the multiverse hypothesis gives us an adequate explanation.

Gambler Fallacies, Selection Effects and Rigidity

What was said in the previous section can be shown by providing very abstract cases and making variations that will imply a relevant contrast class. Take for example:

Abstract1:

X is an object of type A. Instances of A are necessarily the result of a random process of type P with a very tiny probability of success. Given that X exists, we infer that many processes of type P occurred, and not just one.

The inference seems valid in this abstract setting. It doesn’t seem right to say “how many processes of type P occurred has no bearing on the likelihood of this particular instance”, because we are interested in X only as an instance of a A, and had not many processes occurred, there would probably be no object of type A. So the inference from “there is a A” to “there are many Ps” is valid.

Now moving to a case where the procedure is not necessary:

Abstract2:

X is an object of type A. Instances of A can be produced in many ways, but X in particular was the result of one specific random process of type P with a very tiny probability of producing an object of type A. Given that X exists, we infer that processes of type P occurred many times.

In this case, is the inference valid? If the contrast class is still A, then many occurrences of P do not really explain that there are As because had these occurrences not been there, there would still be other As. But I think that with this presentation, we are drawn into thinking that the relevant contrast class must be X alone. “There is a A” is not the right starting point for the inference, because there is no strong link between As and Ps. However, there is a strong link between X and an instance of P. Now the inference could be valid in the sense that many P increase the likelihood of existence of the particular P that led to X. This amounts to introducing an artificial class of objects to which X belongs: the products of instances of P, asking why there are instances of this class rather than none. But this class is ad-hoc, and the contrast class “why X exists rather than not” is more natural.

But what about the lottery case in the introduction? And what about the inverse gambler fallacy? They seem to be instances of Abstract1: my winning the lottery is an instance of lottery winning, the result of a random process of type buying a ticket with tiny probability of producing a winning. But given my winning, I do not infer that many people bought a ticket. The double six I see is an instance of successful dice roll, the result of a process of type dice roll with tiny probability of success. But given the double six, I do not infer that many dice were rolled. What goes wrong?

In these cases, the problem does not come from an induced contrast class, but from an induced background context. The fact that I bought a ticket is part of the background, it is kept fixed in the inference. So, many people buying a ticket does not change the probability of me buying a ticket. Same for the fact that I saw a dice roll just after entering the casino.

[Edited part]
What is part of the background context or not depends, I would say, on the way our relevant evidence is identified. In particular, it seems, from the lottery and casino example, that when the random process we are interested in is causally related to us (its reference is fixed) in a way that is independent of its outcome, then the existence of this process instance will be part of the background context. We rigidly refer to it, so to speak. This forces us to ask questions about this instance in particular. So, for example, I would buy a lottery ticket come what may, my causal relation to the lottery ticket is independent of whether it is a winning ticket, the outcome. The same goes for the dice roll I see in the casino. But if we add a selection effect, if I am only allowed to enter in the casino when a double six is rolled for instance, then the specific instance I see is causally related to me in a more complex way that crucially depends on its outcome, the result of the roll. The reference can be fixed only after the outcome. Then the rigid reference is not reference to the particular instance of random process, but rather to a type or a property: what is fixed “in all possible worlds” of the explanation is not the particular object that constitute my evidence, but the fact that the object, whatever it is, with which I will be in contact will correspond to a particular outcome, if I am in contact with an object at all. Not all selection effects have this result though. If someone kills me or not depending on whether I won the lottery (as in FatalLottery), or if someone shows me one particular roll only if its result is a double six, I am still causally related to a specific lottery ticket or dice roll independently of its result: this is how the instance is first identified and the reference fixed.

In the special case where I am myself the product of a random process, the reference is not fixed independently of its outcome. There can be no reference (by me) to the process prior to its outcome.

Taking this into account, we can propose the following case:

AbstractRigid:

Random processes of type P have a very tiny probability of producing an object of type A. We came to identify and be interested in a particular process p of type P by means of causal relations that are independent of the fact that p produced an object of type A. We observe that p produced X, an object of type A. Given the existence of X, we infer that many other processes of type P occurred as well, and not just p.

This is an invalid inference. Since the existence of p is part of the background context and since X is identified as the product of P, and not as any A, the contrast class that is forced upon us is “why p produced X rather than not?” and the number of instances of P becomes irrelevant. (In Abstract2, rigid reference to a process was induced by the relevant contrast class. In this case, it is the other way around.)

Abstract1 now appears to be vague, and we could amend it to reflect the fact that no particular instance of P was referred to before we could know whether it would produce an X or not.

AbstractNonRigid:

X is an object of type A. We came to identify and be interested in X by means of causal relations that crucially depend on the fact that X is a A. Instances of A are necessarily the result of a random process of type P with a very tiny probability of success. Given that X exists, we infer that many processes of type P occurred, and not just one.

In this case, the inference is valid.

The main factor of rigid reference is whether random processes are merely identified qua generators of a general class (AbstractNonRigid) or by means of reference to particular objects (AbstractRigid and Abstract2). When a process is not attached to a class of object, but only contingently to its instances, as in Jane3, the process can only be identified by means of particular objects. This is the trick Philip used because he wanted us to refer rigidly to a particular random process (to our universe), even though he had to depart from the AbstractRigid case because of some criticisms. When the random process is necessarily attached to a class of object, as in Lottery, Earth or Jane3bis, both kinds of identification are possible, but the right kind of filter effect removes rigidity.

What kind of case is the case of fine-tuning? I think that the answer is clear: it is an AbstractNonRigid case. We came to identify and be interested in our universe not by some direct acquaintance with an instance of selection of physical constants, independently of its outcome, but by acquaintance with what this universe produced after the constants were selected. Our capacity to refer to the universe crucially depends on the fact that it is suitable for life, so the right kind of selection effect is present. This excludes AbstractRigid. Furthermore, the relevant random processes are identified theoretically, qua hypothetical constants generators attached to the class of objects to which our universe belongs. They are not contingently attached to our universe in particular. This excludes an Abstract2 case.

Hence, we should not rigidly refer to our universe in our reasonning (assuming its existence in the background context), but only to the kind of properties that it features, which is what we are really interested in: life, etc. This makes it possible to concentrate on the contrast class “why is is there a universe with the right constants for life rather than none” instead of “why does this particular universe have the right constants for us to be there rather than not”. The same goes in many of the cases analysed before: JaneAndTarzan, Earth, etc.
[end of edited part]

Explanations or Inferences?

All this is framed in terms of explanations, but Philip complains that we should think in terms of inferences: from our evidence that we exist, or that the constants in our universe have such values, can we infer that there is a multiverse, using Bayesian inferences?

I should first say that I’m not convinced at all that the problem should be couched in terms of Bayesian inference. We could say that A explains B just in case prob(B|A & C) > prob(B|~A & C), but this is just an old model of explanation that has been abandoned because it suffers from the problem of relevance and from the problem of symmetry (our barometer could explain a storm with this account). Explanations are not simple deductive relations: they are better analysed by a counterfactual, as already explained.

Yet it can still be instructive to understand what is going on from a purely inferential point of view, without bothering us with these problems. For this purpose, we can take our three abstract cases. Note that in Bayesian inferences as well we have to condition on a background context (the C in the formulas of the previous paragraph). Also note that it is legitimate to deliberately remove part of our knowledge from the background, which is done for example to account for old evidence in favour of new theories.

In AbstractNonRigid, the likelihood of having a A given many processes of type P is clearly higher than if there’s only one P, so a Bayesian inference to many P is valid. The likelihood of our direct evidence X is increased as well, because the likelihood of occurrence of the particular process leading to X is increased. We should not assume that the existence of this process is part of the background context (in the fine-tuning cases, we should not assume as background that our universe exists, as is often done in the literature in order to block the multiverse hypothesis).

In AbstractRigid, the induced interpretation is that a particular instance of P, which happens to produce a X, is part of the background context (its likelihood is 1). This makes the inference from X to many processes invalid, as expected, because given that P is instantiated, other Ps will not increase the probability of our evidence.

In Abstract2, which corresponds to Philip’s Jane3, the probability of having a A can be marginally increased by many Ps, but the natural interpretation is that the process leading to X is part of the background context, so the inference from X to many Ps is invalid too for the same reasons.

So, we get the same right results. As argued in the previous section, the problem of fine-tuning is an instance of AbstractNonRigid, and therefore the inference from our evidence to the multiverse is valid.

So, despite framing the discussion in terms of explanations, I think that we can retrieve the same results by focusing on Bayesian inferences. The interest of talking in terms of explanations is only that it makes clear that before making an explanatory inference, we must assume a background context and a relevant contrast class, and these are sensitive to the kind of counterfactual/causal statement that is involved in the explanation, something that pure Bayesian inference cannot capture.

vendredi 21 janvier 2022

Comment interpréter la possibilité et la nécessité en physique : pour une sémantique des situations possibles

Les lois d'une théorie physique sont souvent interprétées en termes de possibilités naturelles ou physiques : elles nous disent non seulement ce qui est ou n'est pas le cas dans le monde, mais aussi ce qui est physiquement possible ou impossible. Cette idée s'accompagne parfois d'une sémantique des mondes possibles pour les modalités naturelles, et d'une interprétation des modèles d'une théorie comme représentant un monde possible si la théorie est vraie. Cet article (un peu technique) vise à jeter les bases d'une conception alternative.

La sémantique des mondes possibles

Commençons par rappeler ce qu'est la sémantique des mondes possibles et un modèle logique pour les lectrices et lecteurs qui l'ignorent (si ces notions vous sont familières, vous pouvez passer à la section suivante).

Un monde possible peut être identifié à un ensemble maximal de propositions cohérentes entre elles (celles qui sont "vraies dans ce monde"). Maximal veut dire que toute proposition quelle qu'elle soit est soit vraie, soit fausse dans un monde donné (le monde contient soit cette proposition, soit sa négation) : on ne laisse aucune place à l'indétermination. On suppose alors que notre monde actuel est l'un des mondes possibles.

Ce formalisme permet de définir les notions de nécessité et de possibilité : une proposition est possible si elle est vraie dans au moins un monde possible, elle est nécessaire si elle est vraie dans tous les mondes possibles.

(À noter qu'on peut affiner ceci en introduisant, suivant le modèle de Kripke, une relation d'accessibilité entre monde pour, disons, relativiser la possibilité au monde depuis lequel on parle. Il en découle plusieurs systèmes modaux suivant les contraintes sur la relation d'accessibilité qu'on accepte. Par exemple, dans un système déontique, dans lequel "possible/nécessaire/impossible" s'interprète plus naturellement comme "autorisé/obligatoire/interdit", l'accessibilité n'est pas forcément réflexive : le monde d'où on parle peut être interdit. Le système S5 accepte la réflexivité, la transitivité et la symétrie de la relation d'accessibilité, ce qui revient en gros à simplement considérer un ensemble de mondes possibles tous accessibles entre eux comme nous le faisions au départ. Nous n'aurons pas besoin de considérer d'autres systèmes ici.)

On peut aussi représenter un monde possible par un modèle logique. Un modèle logique, tel que défini par Tarski, est une structure mathématique (de théorie des ensembles) associée à un langage, ou autrement dit, un ensemble d'objets (qui peut être infini) tel que sont spécifiés, pour chaque terme d'un langage, à quels objets ces termes correspondent, c'est-à-dire une extension. Les noms propres se voient attribuer chacun un objet unique auquel le nom fait référence, les propriétés se voient attribuer l'ensemble des objets qui ont cette propriété, et ainsi de suite pour les relations (ensembles de couples, triplets, ... d'objets satisfaisant la relation).

Il est assez facile de voir qu'une telle structure est capable de rendre vraie ou fausse n'importe quelle proposition exprimée dans le langage. Par exemple, "tous les chiens sont noirs" est vrai dans un modèle si tous les objets dans l'extension de "chien" se trouvent aussi dans l'extension de "noir". Sinon elle est fausse.

Par ailleurs, il a été proposé de considérer les modèles scientifiques en général comme des modèles au sens de Tarski, soit des structures associées au langage de la théorie (on doit cette proposition à Suppe). Ainsi le modèle du système solaire dans la théorie de Newton serait un ensemble d'objets tel que l'extension de noms propres ("Jupiter"), de propriétés ("avoir une masse M") et de relations ("être à distance D") est spécifiée.

(Ceci suppose que les prédicats du langage sont en fait en nombre infinis : à chaque nombre réel M correspond un prédicat "avoir la masse M" distinct. Suivant cette approche, l'ensemble des axiomes mathématiques décrivant les caractéristiques des nombres réels, par exemple, doivent être intégrées à la théorie, et c'est beaucoup plus simple de le faire en logique du second ordre, soit en s'autorisant à quantifier sur les prédicats eux-mêmes. Mais ce sont des détails techniques.)

Modèles d'une théorie comme modèle de Tarski

Si l'on adopte une sémantique des mondes possibles, si de plus on considère qu'une théorie est un ensemble de propositions nécessaires (au sens d'une nécessité physique), les lois de la théorie, enfin si l'on considère que les modèles scientifiques d'une théorie sont les modèles qui satisfont ses lois au sens de Tarski, alors on en vient naturellement à l'idée que l'ensemble des modèles d'une théorie correspond à "l'ensemble des mondes possibles si la théorie est vraie", chaque modèle de cet ensemble décrivant un monde possible.

Le principal problème de cette façon de voir les choses, pour élégante qu'elle soit, est que cet ensemble de modèles au sens logico-mathématique ne correspond pas à l'ensemble des modèles physiques, ceux réellement considérés comme pertinents pour décrire le monde par les physiciens. Ainsi l'approche est déconnectée de la compréhension de ce qu'est un modèle en science. Il existe au moins quatre différences significatives.

1. Le problème des lois

Premièrement, identifier une théorie à un ensemble fini de lois est problématique. À titre d'illustration, le cadre abstrait de la théorie de Newton (celui décrit par les trois lois de Newton) est compatible avec un très grand nombre de lois dynamiques, dont seules certaines sont réellement applicables au monde. Les lois vraiment applicables sont typiquement en physique classique des lois centrales, associées à la résistance des ressorts, à la gravitation, à l'électricité, ainsi que des lois dissipatives associées aux frottement. Mais, comme l'observait notamment Giere, la liste n'est pas figée dans le marbre : rien n'interdit a priori de postuler de nouvelles lois pour rendre compte de nouveaux phénomènes, tout en restant dans le cadre de la théorie de Newton.

Et même si l'on voulait ajouter toutes ces lois à une hypothétique théorie finale qui en contiendrait la liste complète, il faut bien voir que la construction d'un modèle ne s'arrête pas à l'application algorithmique des lois de la physique : elle s'accompagne de postulats sur les phénomènes particuliers (par exemple, que la supraconduction implique telle ou telle configuration physique) qui ne dérivent directement ni de la théorie elle-même, ni des observations empiriques (voir l'article de Cartwright et Suàrez sur le modèle de supraconduction de London, ou le recueil d'articles "Models as Mediators" édité par Morgan et Morrison). On peut considérer ces postulats comme des lois spécifiques au domaine d'application du modèle.

Donc l'ensemble des modèles logiques satisfaisant une théorie est en un sens beaucoup trop large pour rendre compte de ce qu'on appelle un modèle acceptable en physique, et à la limite, on aimerait pouvoir rendre compte de l'existence d'une hiérarchie de lois, plus ou moins fondamentales, ce que l'approche en termes de mondes possibles ne permet pas directement.

Une solution inspirée de la métaphysique de Lewis serait de considérer une relation de proximité entre mondes possibles. On peut alors envisager que les lois fondamentales sont vraies pour un ensemble très grand de mondes, même très éloignés du nôtre, et que les hypothèses spécifiques à un type de phénomène sont vraies dans un ensemble plus restreint de mondes possibles proches du nôtre. Mais sur quoi fonder cette notion de proximité et cette hiérarchie de possibilités ? La fonder sur les lois serait circulaire. Définir une notion de proximité entre monde donne lieu à des théories souvent très complexes. Et je pense que ces théories s'avèrent inutiles si l'on prend acte des trois autres problèmes, vers lesquels nous nous tournons maintenant.

2. Le problème des mondes

Le second problème, peut-être le principal, est que les modèles de la physique se donnent très rarement pour but de représenter l'univers dans son ensemble (et quand ils le font en cosmologie, c'est à très très très gros grain : on postule typiquement que l'univers est homogène !). Le cas général, ce sont plutôt des modèles de certains objets en nombre limité, bien délimités dans l'espace, parfois même microscopiques.

Par exemple, un modèle du système solaire interprété à la manière de Tarski rend vrai la proposition "il existe une seule étoile", et on peut penser que le modèle est adéquat sans croire que cette proposition est absolument vraie. Elle est vraie dans un contexte limité. La sémantique réelle des modèles scientifiques ne correspond donc pas à une sémantique des mondes possibles, parce qu'elle est contextuelle. Et le contexte d'application d'un modèle n'est pas forcément formalisé ni formalisable dans la théorie elle-même.

On peut bien sûr imaginer qu'il existe un univers naturellement possible dans lequel il n'y a qu'une étoile et une poignée de planètes, ou qu'une ou deux particules en interactions, et que donc ces modèles sont bien des descriptions de mondes possibles pour la théorie, mais c'est un peu tiré par les cheveux (surtout quand les modèles intègrent une contrainte environnementale). Cette idée consiste à vouloir conserver une sémantique pour sa simplicité et son élégance, quitte à complexifier la manière d'interpréter le discours des scientifiques. Pour ma part, je considère qu'une bonne sémantique pour les théories scientifiques devrait d'abord viser à rendre compte du discours et de la pratique scientifique, et la métaphysique doit suivre. Or les modèles ne représentent pas des mondes.

Une meilleure solution consiste à dire que les modèles des physiciens sont toujours des descriptions de situations, qu'on peut comprendre en première approche comme des descriptions partielles et grossières de mondes possibles ne faisant pas certaines discriminations, n'en décrivant que certains détails ou certains objets et laissant le reste indéterminé. C'est une solution qui s'accorde bien avec le constat que les modèles en science sont généralement idéalisés, valables "à gros grain", à certaines échelles.

Sur le plan formel, on peut introduire la notion de situation possible, soit un ensemble de mondes possibles ayant en commun un nombre limité de propositions (par exemple : "il existe au moins une étoile, qui est le soleil"). Mais cette notion demande a être rendue plus précise (un ensemble arbitraire de mondes possibles n'est pas forcément une situation pertinente demandant à être représentée par un modèle). On peut alors se demander si la sémantique des mondes possibles est vraiment le meilleur outil. Plutôt que de voir les situations possibles comme des ensembles de mondes possibles (soit des mondes possibles grossiers), on pourrait plutôt voir les mondes possibles comme des intersections idéalement fines de situations possibles, soit un cas limite logiquement concevable, mais pas forcément très intéressant pour rendre compte du contenu des théories en général.

Sur un plan un peu moins formel, délimiter une situation pertinente, c'est adopter une certaine perspective sur le monde : s'intéresser à un certain type de phénomène possible à certaines échelles, dont on sait ou suspecte ou voudrait qu'ils existent, dont on repère des caractéristiques remarquables. En outre, cette perspective peut être performative, c'est à dire nous amener à construire en partie la situation qui nous intéresse ou les conditions de son étude, comme dans le cas de l'ingénierie (mais pas seulement : la mise en place d'un protocole expérimental pour étudier une situation jugée "pure" du point de vue de la théorie, par exemple une chute libre sans frottements, peut être tout aussi performative).

En ce sens, voir les situations comme des descriptions grossières de mondes est un peu trompeur, puisque les situations qu'on représentera directement ne sont jamais choisies en contemplant l'univers dans son entièreté pour ensuite sélectionner les parties de sa structure qui nous intéressent comme le ferait un être omniscient, mais plutôt par ostentation ou par intention, depuis notre position, et, comme dit plus haut, sans que tout ceci ne soit forcément formalisé dans la théorie. C'est une raison de plus d'inverser les choses et de comprendre une description de l'univers dans son entièreté (un monde possible) comme un affinement hypothétique commun à toutes les descriptions grossières que nous employons pour décrire des situations. En somme, il faudrait idéalement adopter une sémantique des situations possibles tranchant plus radicalement avec la sémantique des mondes possibles qui reste à élaborer (je m'y suis essayé au cours de ma thèse).

On voit en tout cas que ce problème rend futile la solution au problème précédent consistant à postuler une proximité entre mondes possibles pour rendre compte d'une hiérarchie de lois. On peut en rendre compte plus simplement. En effet, la notion de situation est associée à une notion de finesse de grain dans la description. Une situation peut être affinée ou grossie pour donner une nouvelle situation (ce qui formellement revient à intégrer ou éliminer des propositions). Une fois acquis que les modèles représentent des parties du monde ou des situations, on voit poindre une solution différente au problème des lois : les lois plus fondamentales seraient celles qui sont vraies pour des parties quelconques, non spécifiées, de notre monde (des situations grossières), et les lois moins fondamentales pour des parties plus spécifiques (des situations plus finement décrites et identifiées, éventuellement plus locales).

Cette solution permet en outre de penser que la science parle avant tout des situations de notre monde, et non pas d'autres mondes, ce qui me semble être un avantage. Intuitivement, on pense généralement que la science s'intéresse surtout à notre monde. En corrolaire, les mondes possibles à partir desquels on définit éventuellement les situations sur le plan formel n'ont pas besoin d'être un concept métaphysiquement ou nomologiquement chargé. Ce pourrait être l'ensemble des mondes concevables, ou logiquement possibles étant donné un langage, encore une fois un cas limite dont l'intérêt est avant tout formel.

3. Le problème des types

Le troisième problème pour la sémantique des mondes possibles est que même affirmer que les modèles se destinent à représenter une partie de l'univers est trompeur. Les modèles représentent plus souvent un type d'objet potentiellement instancié en de multiples endroits, ou encore, en ingénierie, une configuration physique intentionnelle, qu'on vise à construire parfois en de multiples exemplaires, toujours dans notre univers (un type de transistor par exemple), mais qui n'est peut-être pas instanciée du tout.

Pour résoudre ce problème, on pourrait introduire dans notre machinerie formelle une notion de type de situation possible comme ensembles d'ensembles de mondes possibles, mais ici encore on peut se questionner sur l'utilisation des mondes possibles comme objet primitif. Les ensembles d'ensembles de mondes possibles sont en nombre beaucoup plus grand que les mondes possibles eux-mêmes, ce sont des infinis d'ordre supérieur, et l'idée qu'on pourrait sélectionner des types de situations pertinents dans cet ensemble infini semble relever de la magie.

Je n'ai pas de solution à ce problème, qui rejoint des questions classiques en épistémologie liées à l'induction et aux classes naturelles (pourquoi "vert" et non "vleu" serait la "bonne" propriété pour faire de l'induction, pour reprendre la question de Goodman ?). Disons au moins que cela jette un doute sur l'idée que le contenu des modèles scientifiques serait "transcendant", soit complètement indépendant de notre constitution d'être humain et de notre position dans l'univers, puisqu'on peut penser que les catégories scientifiques sont ultimement fondées sur des catégories en partie innées, associées par exemple à nos organes sensoriels ou à notre structure cognitive, même quand elles s'en détachent. Il faut bien une base pour construire (Goodman parlait de prédicats "ancrés", "entrenched").

Cette notion de type de situation (ou de perspective) est en outre liée au statut des symétries en physique. On peut considérer que des modèles reliés par une symétrie (une translation ou rotation dans l'espace-temps, un changement de choix de gauge) décrivent des situations du même type. On peut penser que le "bon" découpage en type de situation est en partie découvert empiriquement au moment où on découvre des symétries, soit certaines régularités dans les phénomènes, sur la base des prédicats "ancrés".

Tout ceci pose la question : à quel type de possibilité correspond un type de situation ou un choix de modèle ? Si les lois sont vraies pour tous les types d'objets possibles (dans tous les modèles), de quelle notion de possibilité parle-t-on ? Si tous les types décrits par des modèles ou presque sont instanciés quelque part dans le monde, c'est-à-dire actuels, sélectionner un type de situation ne revient pas à sélectionner une possibilité naturelle, mais plutôt une finesse de grain dans la description et certains objets ou périodes de temps d'intérêts, soit à sélectionner une certaine perspective sur le monde, et si les lois d'une théorie sont vraies pour tous les types de situations (ou perspectives) possibles, elles sont nécessaires en un sens qu'il conviendrait d'élucider, mais qui n'est pas forcément la possibilité naturelle.

Une perspective pourrait être possible au sens de possibilité naturelle ou physique si on l'associe à un type d'operationalisation physiquement réalisable. Elle pourrait être possible au sens déontique (c'est-à-dire compatible avec les intérêts des physiciens) si l'on pense que l'ensemble des modèles d'une théorie dépend en partie de ces intérêts, ou en un sens épistémique si on pense qu'un modèle doit être applicable à une situation actuelle. Ce peut être en un sens métaphysique si elle correspond à une "bonne" manière de découper le monde en catégories, découverte plutôt que connue a priori. Ou bien peut-être en un sens purement conceptuel si toutes les perspectives se valent. Dans chaque cas, l'ensemble des modèles de la théorie sera délimité de manière distincte, et sera plus ou moins large. Savoir comment correctement délimiter cet ensemble est une question ouverte (y compris sur le plan de la méthode philosophique : qu'est-ce qu'une bonne délimitation ? Doit-on considère plus de modèles que ceux réellement construits par des physiciens ?), et cela aura un impact sur l'interprétation à faire des lois de la physique.

On pourrait par ailleurs faire la distinction entre modèle abstrait et modèle appliqué, ce dernier étant associé à une instance de situation plutôt qu'à un type. Je ne pense pas que parler de l'ensemble des modèles appliqués d'une théorie ait beaucoup de sens, ou en tout cas cet ensemble n'est pas accessible a priori. Ceci étant dit, parler de l'ensemble des applications possibles d'un modèle abstrait peut être utile si l'on veut définir ce que serait l'adéquation idéale d'un modèle, et donc ce que serait l'adéquation idéale d'une théorie. Idéalement, les lois d'une théorie devrait être vraies pour toutes les applications de tous les modèles de la théorie.

Et de nouveau on peut s'interroger sur la notion de possible impliquée quand on parle d'application possible d'un modèle donné. S'agit-il de possibilité physique ? Épistémique ? Conceptuelle ? Déontique peut-être ?

4 le problème des modalités

Enfin le quatrième problème pour la sémantique des mondes possibles tient au fait que les modèles ont souvent une structure modale interne : ils représentent eux-mêmes différentes possibilités, par exemple des possibilités d'évolution pour un système donné, des états ou histoires possibles, des rapports causaux ou dispositions pouvant ou non être réalisées ou non, etc. Cette notion de possible supporte les raisonnements contrefactuels (on peut affirmer à partir d'un modèle "il se serait passé E si les circonstances avaient été C") ce qui laisse penser qu'on ne parle pas de possibilités purement épistémiques (on sait que C est faux mais on parle quand même de cette possibilité). La modalité impliquée est plus naturellement associée à la causalité, soit aux possibilités naturelles ou physiques "locales", dont le rapport aux lois est sujet à débat.

Ainsi donc notre métaphysicien souhaitait interpréter la nécessité physique en termes de ce qui est vrai dans tous les modèles, mais si l'on s'intéresse à la pratique de modélisation réelle, on finit plutôt par retrouver cette modalité dans chaque modèle, comme ce qui est vrai dans toutes les possibilités décrites au sein d'un modèle donné : une notion de nécessité physique locale ou contextuelle qu'il conviendrait de relier à celle du métaphysicien, ce que l'approche Tarskienne ne fait pas.

En general, les possibilités dont il est question correspondront à une partition logique des possibles pour la situation décrite. Ce que cela signifie est qu'on part d'une situation grossière (une particule dans un champ électromagnétique) et qu'on envisage un ensemble de possibilités pour affiner notre description (les trajectoires possibles de la particule) telles qu'exactement une de ces possibilités est forcément réalisée. Autrement dit, ces possibilités sont mutuellement exclusives, et elles couvrent l'espace des possibles pour la situation grossière. Ces possibilités sont souvent pondérées par des poids de probabilité.

Une question qui se pose est si cette modalité est attachée aux types ou aux instances. On pourrait faire jouer le fait que les modèles représentent des types contre l'idée qu'ils représentent des possibilités naturelles. Chaque possibilité représentée par un modèle correspondrait à une instance possible du type, en un sens peut-être épistémique de possible, plutôt qu'à une possibilité naturelle pour chaque instance donnée, et les probabilités correspondraient à des répartitions statistiques sur ces instances. Laissons ouverte cette proposition, bien qu'elle s'accorde mal avec le fait que les modèles supportent les raisonnements contrefactuels, et qu'une interprétation purement fréquentiste des probabilités pose problème.

Dans tous les cas, il me semble que la modalité naturelle devrait être attachée à des situations plutôt qu'à des mondes, c'est-à-dire qu'elle devrait être représentée par une relation d'accessibilité entre situations. (Un argument en faveur de cette idée est issu de la mécanique quantique : si l'on prend au sérieux le principe d'incertitude, il existe des situations impossibles, par exemple telles que la vitesse et la position d'une particules sont toutes deux très précisément définies, bien que tous les mondes possibles compatibles avec cette situation soient compatibles avec d'autres situations possibles, à savoir celles où soit la position, soit la vitesse sont précisément définies : l'impossibilité des situations ne "survient" pas sur une impossibilité de mondes).

Conclusion

Voici donc en résumé les quatre raisons d'être suspect envers l'interprétation des lois de la physique comme "vraies dans tous les modèles/mondes possibles" :

  • Les modèles de la physique sont en un sens moins nombreux que les modèles au sens logique.
  • Ils ne représentent pas en général l'univers dans son ensemble.
  • Ils représentent des types plutôt que des instances.
  • Ils ont souvent une structure modale interne contrairement aux modèles au sens logique.

J'ai proposé au cours de mes commentaires différentes pistes pour obtenir une conception plus proche des pratiques de modélisation réelle des physiciens. On peut la résumer ainsi :

  • À une théorie (un ensemble de lois) correspond un ensemble de modèles, qui représentent chacun un type de situation, qu'on peut comprendre comme une perspective possible sur le monde (centrée sur un type de phénomène à une certaine échelle).
  • À un modèle donné on peut en principe faire correspondre un ensemble d'applications possibles, chaque application étant une situation instanciée du bon type (et on peut dire qu'un modèle idéalement adéquat serait une description correcte dans toutes ces applications possibles, ou peut-être une bonne synthèse de toutes ces applications possibles).
  • Un modèle donné décrit un ensemble d'états ou d'histoires possibles pour les situations de ce type, soit une partition d'affinements possibles pour une situation grossière, pondérées par des probabilités.
  • Chaque situation fine possible (ou histoire) ainsi décrite est toujours une description grossière et partielle de l'univers, formalisable comme un ensemble de mondes possibles.

Cette manière de voir, soit une sémantique des situations possibles pour les théories scientifiques, offre une richesse interprétative beaucoup plus importante que la sémantique des mondes possibles. En particulier, il existe au moins quatre notions de possible, associées à chacun des quatre points ci-dessus, dont l'interprétation reste ouverte. Tout ceci reste donc largement en chantier, mais je pense que c'est un cadre prometteur pour l'analyse du contenu des théories physiques.

jeudi 20 janvier 2022

Rationalité scientifique et loi de Hume

Ce qu'on appelle parfois la "loi de Hume" pose un défi pour qui voudrait justifier les normes épistémiques à l'œuvre en science sur la base de simples faits concernant la pratique. Cette loi stipule qu'une inférence ne peut partir uniquement de prémisses descriptives pour arriver à une conclusion normative ou évaluative. Que quelque chose soit le cas (ou encore que ce soit un fait "naturel") ne nous dit pas que c'est une bonne chose. Donc le simple fait que les scientifiques utilisent une méthode n'implique pas que cette méthode soit bonne ou rationnelle. Pourtant le raisonnement normatif en philosophie est rarement indépendant d'un contenu descriptif.

Reconstruire la rationalité scientifique

Il me semble que les instances les plus légitimes de tels raisonnements consistent à reconstruire la rationalité scientifique sur la base d'une observation de la pratique. La conclusion de ce type de raisonnement n'est pas entièrement descriptive. On observera que les scientifiques emploient implicitement ou explicitement telle ou telle norme épistémique, par exemple qu'une expérience doit être reproductible, qu'une hypothèse doit être confirmée par l'expérience (suivant des outils statistiques standards), ou qu'elle doit être cohérente avec les cadres théoriques bien acceptés. En général, on appuiera bien sur le fait qu'il s'agit d'une norme collective, régulant la pratique, et non individuelle (elle peut donc comporter des exceptions). Mais on ne se contentera pas de décrire ainsi la pratique : on en infèrera que puisque les scientifiques sont rationnels, alors il s'agit d'une pratique rationnelle, c'est à dire bonne sur le plan épistémique.

On pourra ensuite essayer de comprendre ou de rendre compte de cette rationalité par une théorie normative, c'est-à-dire de la justifier directement par des considérations hypothétiques. Mais le point important est que le simple fait, pour cette norme, d'être présumément à l'œuvre en science suffit déjà à lui accorder un certain crédit. A supposer que les scientifiques sont rationnels, ou tenant compte du succès de telles pratiques, on en déduit que ces normes sont épistémiquement vertueuses. Cela constitue, pour une théorie d'épistémologie normative, une donnée "empirique" à expliquer, et si notre théorie normative implique qu'une norme bien acceptée en science est complètement irrationnelle, alors on y verra un problème pour notre théorie plutôt que pour la science.

Une manière de reconstruire l'argument est la suivante :

  • les scientifiques agissent de manière globalement rationnelle.
  • or les scientifiques agissent suivant X (X constitue apparemment une norme à leur activité).
  • donc X est une norme rationnelle.
En un sens, ce type de raisonnement est parfaitement compréhensible. Il s'agit simplement pour le philosophe de considérer les scientifiques comme des pairs plutôt que comme des objets à étudier, et donc de prendre au sérieux les normes qu'ils et elles se donnent ou semblent se donner au niveau communautaire et institutionnel, jusqu'à se les approprier. Mais alors où se cache la prémisse normative ? À quel moment cet argument viole-t-il la loi de Hume ?

Raisonnement normatif ou descriptif ?

On pourrait interpréter la première prémisse, celle affirmant que les scientifiques sont globalement rationnels, comme purement évaluative : dire que les scientifiques sont en général rationnels reviendrait seulement à approuver ce qu'ils font, à affirmer notre adhésion envers les valeurs de la science, ou à valoriser la science en général. Il s'agit de comprendre "rationnel" comme ne signifiant rien d'autre que "vertueux" ou "bon".

Si l'on adopte cette interprétation, il faudrait en conclure qu'un philosophe défendant une rationalité opposée à ce que font les scientifiques, un philosophe qui défendrait par exemple qu'il est vertueux de confirmer les hypothèses par les écritures bibliques plutôt que par l'expérience (et que donc la science est irrationnelle) n'est pas dans l'erreur sur le plan factuel, mais plutôt sur le plan des valeurs. Il ne prononce aucune fausseté factuelle : il affirme seulement des choses condamnables (au moins pour nous), parce qu'il ne partage pas les valeurs de la science, qui sont pourtant de bonnes valeurs. C'est une interprétation qui pourra paraître un peu douteuse. Il me semble que si l'on juge qu'un tel philosophe a tort, ce n'est pas seulement parce qu'il fait montre de mépris envers l'institution scientifique et ses valeurs. Ce mépris envers la science sera plus volontiers vu comme une conséquence des croyances erronées de ce philosophe que comme une raison, en soi, pour condamner ses conclusions sur le plan moral.

Ainsi il me semble que la prémisse "les scientifiques agissent généralement de manière rationnelle" ne peut être conçue comme purement normative. "Rationnel" ne peut signifier seulement "bon". Il s'agit bien d'une prémisse au moins en partie descriptive.

Une autre interprétation possible consiste à interpréter le terme "rationnel" de manière purement descriptive ou factuelle. On peut l'interpréter, notamment, de manière instrumentale, en termes de conformité entre les buts et les moyens mis en œuvre pour atteindre ces buts. "Rationnel" signifierait quelque chose comme "efficace". L'avantage de cette interprétation est qu'elle permet de mieux justifier la première prémisse concernant la rationalité des scientifiques, notamment sur la base du succès de la science : la science atteint généralement les objectifs qu'elle se fixe, elle est en effet efficace, couronnée de succès, ce qui laisse penser que les scientifiques sont (instrumentalement) rationnels. La conclusion de l'argument n'a alors plus rien de normatif. Il s'agit plutôt d'une affirmation du type : X est une façon efficace d'atteindre les buts de la science (et libre à chacun de partager ou non les mêmes buts).

Cependant cette seconde interprétation me semble également problématique parce qu'elle induit une forme de circularité. Comment décide-t-on de ce que sont les buts de la science sinon en observant la manière dont les scientifiques agissent (y compris la manière dont ils se corrigent, parfois par la voie de normes institutionnalisées) ? On peut bien sûr écouter ce qu'ils affirment concernant leurs buts, mais il est peu probable que ceux ci soient réellement homogènes, et il ne faudrait pas confondre les buts de tel ou tel scientifique et les buts de la science en tant qu'institution, c'est-à-dire ce vers quoi sont dirigées les normes en science comme la confrontation systématique à l'expérience.

Mais si ces buts généraux de la science sont déterminés sur la base d'une observation de ce qu'elle fait avec succès, alors la première prémisse devient tautologique. Elle n'est plus vraiment justifiée par le succès de la science, puisque ce qui compte comme succès est défini sur la base des normes que se donnent les scientifiques. Dans ce cadre, les scientifiques sont (instrumentalement) rationnels "par définition". S'ils faisaient autre chose, on ne pourrait pas en inférer qu'ils sont irrationnels : on inférerait plutôt qu'ils poursuivent d'autres buts, au moins si leurs actions ont une certaine cohérence minimale. Au bout du compte, le type de reconstruction de la rationalité scientifique opérée par certains philosophes ne serait rien d'autre qu'une description de la pratique, ou au mieux, une inférence concernant les buts de la science. Ces philosophes ne feraient rien d'autre qu'affirmer "les scientifiques agissent suivant la norme X (donc ils se donnent pour but Y)". Mais ça ne semble pas être le cas : la philosophie des sciences n'est pas une simple sociologie des sciences.

Une manière de s'en sortir serait de présupposer un but à la science indépendamment d'une observation de l'activité des scientifiques. On pourrait par exemple stipuler que le but de la science est quelque chose comme le développement de nos connaissances, et affirmer que la science est instrumentalement rationnelle parce qu'elle réalise ce but avec succès, voire rationnelle tout court si on pense que développer les connaissances est forcément une bonne chose. Mais comment évaluer son succès ? Si une connaissance est une croyance justifiée, qu'est-ce que la justification ? C'est justement ce qu'on cherche à déterminer en observant les normes à l'œuvre en science. Mais si l'on évalue le succès de la science en fonction de ses propres normes (une connaissance est bonne si elle est confirmée par l'expérience, cohérente avec les cadres théoriques acceptés, etc.), alors de nouveau le raisonnement est circulaire.

Qu'est-ce que la science ?

Ainsi notre prémisse ne semble pas pouvoir être interprétée de manière entièrement normative ("ce que font les scientifiques est bien") ni de manière entièrement descriptive et donc presque vide ("les actions des scientifiques suivent telle norme"). Peut être la rationalité est-elle un concept épais, combinant une composante descriptive et une composante normative. Mais l'interprétation exacte à en faire n'est pas forcément limpide.

Pour aller de l'avant, on peut se demander en quoi l'idée que les scientifiques seraient entièrement irrationnels semble implausible, et non seulement condamnable comme le voudrait l'interprétation purement normative.

Une approche inspirée de Kant serait de faire de notre prémisse une forme de synthétique a priori. Juger que nos semblables sont en général rationnel serait une condition nécessaire à notre participation dans la société. Seulement cette approche semble occulter la spécificité de la science. Après tout on peut en principe juger certaines institutions globalement irrationnelles : un athée pourra juger ainsi les institutions religieuses, ou peut-être certaines institutions politiques dont le fonctionnement échappe à ses membres. Donc le fait que l'argument consistant à inférer la rationalité d'une pratique sur la base de son utilisation récurrente concerne la science, et pas la religion ou la politique, est important. Et l'on arrive à un point non questionné jusqu'ici : qu'est-ce que la science (et en quoi est-elle couronnée de succès) ?

L'idée de la caractériser en termes de développement de connaissances était, je pense, un pas dans la bonne direction, mais elle demande seulement de préciser un peu les choses. Il me semble qu'on peut caractériser la science en partie par le fait qu'elle vise à produire des représentations dont l'efficacité est, justement, instrumentale, au sens où les représentations scientifiques peuvent être utilisées pour des buts variés, idéalement sans limite dans le domaine d'application (c'est une manière pragmatique de comprendre ce qu'est la connaissance). Il s'agit peut-être d'une vision partielle, la science (ou une connaissance) est peut-être plus que seulement instrumentale, mais au moins, elle l'est.

Ce que je veux dire par là, c'est que la science n'est pas directement efficace pour atteindre certains buts précis. Elle vise plutôt à produire des outils efficaces pour atteindre une variété de buts précis possibles. La nuance est importante : c'est le produit de la science (l'ensemble des représentations qu'elle nous fournit) qui est efficace pour atteindre ces buts, et non la science directement. Ce n'est pas la science qui permet de fabriquer des ordinateurs, mais (entre autre) les modèles quantiques de transistors qu'elle produit.

Pourquoi est-ce important ? Parce que cela permet de répondre à l'argument présenté plus haut. On peut déterminer, sur la base d'une observation de la pratique, que la science est dirigée vers certains buts, et donc arriver à la conclusion, purement descriptive, que X (une pratique quelconque) est une manière d'atteindre ces buts. L'argument était : il n'y a rien de normatif dans cette conclusion, puisque rien ne nous pousse à adhérer aux buts de la science, et pourtant les philosophes semblent tirer des conclusions normatives du fait que X fait partie des pratiques scientifiques. Mais à la lumière de ce qui vient d'être dit, le but général de la science a un statut bien particulier. C'est en quelque sorte un "méta-but" : produire des représentations efficaces pour la réalisations de buts (de premier ordre) variés. Or, dans la mesure où ce méta-but est relativement indépendant de buts particuliers, il se rapproche assez fortement d'une notion de rationalité instrumentale qui semble justifiée de manière universelle sur le plan normatif. Nous avons donc des raisons indépendantes d'adhérer au but de la science, puisqu'il n'est pas seulement conforme à la rationalité instrumentale (au sens où la science serait efficace pour atteindre ses buts), mais relève directement de la rationalité instrumentale (l'efficacité idéale est le but de la science).

En d'autres termes, le fait que les scientifiques soient en général rationnels n'est pas tautologique, mais en effet justifié par le succès des sciences, succès évalué non pas du seul point de vue de ce qu'ils font, mais de manière en quelque sorte externe à la science : produire des représentations efficaces pour un ensemble de buts variés est un succès, non seulement du point de vu de la science, mais de manière plus générale. C'est ce type d'évaluation externe que permet une conception pragmatique de la connaissance.

On pourrait essayer de tempérer l'universalité de la science, son unité, en faisant valoir que le type de but qu'elle permet de réaliser avec succès n'est pas n'importe lequel ni illimité dans son domaine, que ce type de but peut dépendre de la discipline, etc. Mais rappelons qu'il s'agit de caractériser la visée idéale de cette activité, et non ses accomplissements effectifs, ce pour quoi un succès imparfait ou un simple progrès dans une direction donnée est suffisant. Or il me semble difficile de nier la visée unificatrice, idéalement universelle, de la théorisation.

Conclusion

La forme argumentative utilisée par les philosophes proposant de reconstruire la rationalité scientifique devrait donc être la suivante :

  • N - il est rationnel de développer des représentations efficaces pour une variété idéalement grande de buts.
  • D - la science développe de telles représentations (avec succès).
  • DN - donc les scientifiques agissent de manière globalement rationnelle.
  • D - en général, les scientifiques agissent suivant X.
  • N - donc X est une norme rationnelle.
L'argument part bien d'une prémisse normative, mais elle est facilement acceptable en dehors des cercles scientifiques puisqu'il ne s'agit pas d'une affirmation à propos de la science en particulier : il ne s'agit donc pas de dire "la science c'est bien, et puis c'est tout". La seconde et quatrième prémisses concernent la science plus spécifiquement, mais elles sont entièrement descriptives. Elles nous permettent ensemble d'arriver à une conclusion normative, et justifient donc la méthode philosophique consistant à reconstruire la rationalité scientifique sur la base d'une observation des normes à l'œuvre en science, ou à considérer que ces normes sont des "données empiriques", pas forcément infaillibles, mais suffisamment robustes, auxquelles doit se confronter toute théorie d'épistémologie normative.

vendredi 3 décembre 2021

Croyances, valeurs et risque épistémique

En quel sens nos attitudes épistémiques, par exemple nos croyances, sont-elles chargées de valeurs ? La connaissance scientifique est-elle indépendante de toutes valeurs ?

Un argument en faveur de l'idée que les croyances sont chargées de valeur est l'argument du risque épistémique.

Le risque épistémique

Croyez-vous qu'il va pleuvoir ? Si je vous demande ceci en vue de savoir si je dois prendre mon parapluie, votre réponse dépendra de données appuyant ou non la plausibilité qu'il pleuve (les prédictions météorologiques, ou la couleur du ciel). Mais vous ne pouvez ignorer que je vous pose la question pour une raison précise, et peut-être évaluerez-vous aussi à quel point mon parapluie est encombrant et à quel point mon manteau est perméable avant de répondre. Imaginez que selon les prévisions, la probabilité de pluie dans l'heure soit de 30%. Si je n'ai pas de manteau et que de toute façon mon parapluie est léger, cela ne vous coûtera pas grand chose de me répondre "oui il est possible qu'il pleuve", mais si j'ai déjà un bon manteau et que mon parapluie est particulièrement encombrant, vous serez peut-être plus tenté de me répondre "non, je ne pense pas qu'il va pleuvoir", alors que les données en faveur ou à l'encontre de cette croyance sont les mêmes dans les deux cas.

Peut-être vous pourriez également me dire "je ne sais pas s'il va pleuvoir, mais étant donné que /ça a l'air coûteux/ça ne coûte rien/ de prendre ton parapluie, /ne le prend pas/prend le/". Mais on ne peut nier, me semble-t-il, que les premières façons de s'exprimer (juste dire "je ne pense pas qu'il va pleuvoir") font partie de notre pratique discursive. Généralement, exprimer une croyance, ou juste faire une affirmation, ce n'est pas simplement faire état de notre connaissance des faits, c'est aussi s'engager, prendre une certaine responsabilité, à savoir assurer nos auditeurs qu'ils peuvent agir sur la base de notre affirmation. Or cette assurance dépend en partie du contexte, d'une évaluation du risque d'erreur, donc de ce qu'on considère dommageable ou souhaitable (porter un parapluie inutile, rester sec), en un mot, de nos valeurs. Si les enjeux sont importants (si je porte un costume très cher qui ne résiste pas à l'eau), un doute peut surgir qui ne surviendrait pas dans un autre contexte.

Ainsi, dire "je crois que X" n'est pas, en général, indépendant du contexte et de nos valeurs.

Cette façon de voir les choses permet de rendre compte d'une bonne partie de nos désaccords apparemment factuels en termes de différences de valeur, par exemple dans les discussions politiques. Si Jean pense que l'insécurité est causée par l'immigration, c'est peut-être parce-qu'il y a de son point de vue très peu de risque à agir sur la base de cette croyance (il n'est pas lui même immigré et n'a aucune affection pour eux), et donc son niveau d'acceptation pour cette croyance n'est pas très élevé. Si Anne pense l'inverse, c'est peut-être parce que pour elle, le risque d'erreur est assez dramatique (Anne, contrairement à Jean, valorise énormément le fait de ne pas accuser les gens à tort de problèmes dont ils ne sont pas les cause), et donc il lui faut beaucoup plus de preuve avant d'accepter cette croyance.

Dans un monde idéal, on exigerait le niveau de preuve maximal pour toutes nos croyances, et les valeurs n'interviendraient pas. Mais nous vivons dans un monde incertain où il faut souvent choisir d'affirmer ou non, de croire ou de ne pas croire, sans preuves concluantes. Et ces choix sont guidés par nos valeurs.

Un adepte de théories de complot place généralement la barre de la preuve extrêmement haut pour les croyances "officielles". Il exige qu'on lui explique le moindre détail "suspect". Il agit comme si le risque d'erreur (croire à tort la version officielle) était extrêmement grave, peut-être parce que suivant ses valeurs, les manipulations du pouvoir sont le pire des crimes possible (ou au moins que le fait que la théorie implique des choses très grave fait partie des ressors du complotisme). De manière plus générale, on peut supposer que les personnes envisageant des possibilités que la plupart considèrent non pertinentes attribueraient une charge émotionnelle démesurée à ces possibilités, tout comme la possibilité qu'il pleuve devient pertinente si j'ai un beau costume alors qu'elle est sans importance dans d'autres cas. Ainsi on pourrait peut-être expliquer en partie le phénomène du complotisme par les valeurs.

À tout ceci s'ajoute un aspect plus sémantique. Je vous dis "il ne va pas pleuvoir", vous ne prenez pas votre parapluie, et il se met à pleuvoir. Je vous suis redevable. Mais je peux aussi me défendre : "ce n'est pas de la pluie, c'est juste quelques gouttes". Si vous avez un bon manteau, vous acquiescerez, mais si vous avez un costume très cher qui ne résiste pas à la moindre goutte d'eau, vous direz probablement "moi j'appelle ça de la pluie". Ainsi, non seulement l'évaluation des possibilités, mais aussi celle des conditions de vérité des énoncés, leur signification même, varie en fonction de nos valeurs.

Il n'est pas toujours évident de savoir où interviennent les valeurs, si c'est au niveau épistémique ou sémantique. Si Jean crois que l'immigration cause l'insécurité, est-ce parce qu'il entend "immigration" en un sens bien précis (qui exclut les immigrés issus de pays riche, et les "blancs" en general) et "insécurité" en un sens très large (qui inclut de vagues sentiments d'inquiétude à la vue d'une personne racisée) ? Sans doute. Est-ce que si l'on se mettait systématiquement d'accord sur le sens des mots (à partir de quand on peut considérer qu'il pleut) nos valeurs n'interviendraient plus du tout dans nos affirmations, et nous serions parfaitement objectifs ? Je n'en suis pas certain. On peut prendre des exemples de type tout ou rien, sans modulation sémantique, pour s'en convaincre : "Crois-tu que Marie sera à la soirée ?" Si c'est pour savoir si je dois prendre le livre que je lui ai emprunté, "oui je crois que Marie sera là, prend le", mais si il faut faire 50km pour récupérer ce livre, "non ce n'est pas sûr que Marie soit là, ne t'embête pas". Ici nos valeurs (la pénibilité de parcourir 50km, peut-être renforcée si l'on est écologiste) influencent non pas le sens de l'affirmation "Marie sera là", qui reste parfaitement non ambigu, mais uniquement le fait même d'accepter cette affirmation.

Une alternative bayésienne ?

La notion de risque épistémique semble indiquer que ce qu'on croit dépend du contexte, et notamment de nos intérêts et des décisions impliquées par nos croyances, autrement dit, qu'il est illusoire de distinguer strictement croyances et valeurs. Cependant quelqu'un pourra invoquer, en réponse, une distinction entre croire et accepter.

Ainsi dans l'exemple de la pluie ci-dessus j'aurais un degré de crédence de 30% envers le fait qu'il va pleuvoir, mais mon acceptance concernerait le fait d'agir sur la base de cette croyance, et ceci (mais non la croyance) dépendrait du contexte et des valeurs et intérêts. On pourrait représenter l'acceptance comme un seuil de crédence à partir duquel cela "vaut le coup" d'agir sur la base d'une croyance (inférieur à 30% si le parapluie est léger, supérieur si le parapluie est encombrant). Si mon degré de crédence dépasse le seuil, j'accepte d'agir sur la base de la croyance. Selon cette théorie, généralement, quand nous affirmons des choses, nous exprimons une acceptation, mais il y aurait en fait un autre état mental "caché", le degré de crédence, indépendant de nos valeurs, qui, combiné au contexte (au seuil de crédence pertinent suivant nos valeurs), expliquerait nos affirmations.

Cette théorie (basée sur la bayésianisme et la théorie de la décision, et sans doute assez consensuelle en philosophie) a l'avantage d'être assez élégante sur le plan formel. Mais ça reste une théorie. En pratique, nous n'avons pas vraiment accès à de tels degrés de crédence indépendants du contexte, et quand on nous demande d'en fournir un en nous "mettant un pistolet sur la tempe", on peut soupçonner que le contexte, le risque d'erreur et les valeurs influencent en fait notre réponse.

Mais le bayésien pourra adopter une stratégie de repli : ok, notre cerveau ne fonctionne pas forcément ainsi, mais idéalement, il devrait, et en particulier dans le cas de la science, il est essentiel de distinguer croyance et acceptation, c'est à dire de distinguer les rôles respectifs des valeurs et des données empiriques dans l'acceptation des hypothèses.

Si ce n'était pas le cas, on pourrait accepter tout et n'importe quoi, nous dira le bayésien. Les régimes totalitaires sont bien connus pour avoir tenté d'instrumentaliser la science. Or s'il n'y a pas de différence entre croire et accepter, on pourrait affirmer que du point de vue des nazis, la thèse d'infériorité de telle race humain (qui présuppose son existence) était parfaitement acceptable sur la plan rationnel, parce que le risque courru en cas d'erreur était (du point de vue des nazi) négligeable. Ou encore, pour prendre un exemple moins dramatique, mais plus pertinent dans le contexte actuel, il pourrait être acceptable pour un laboratoire pharmaceutique d'affirmer que tel médicament est efficace alors que les preuves sont très faibles, suivant un principe de "précaution économique", puisque affirmer qu'il ne l'est pas alors qu'il l'est reviendrait à perdre beaucoup d'argent. C'est certes immoral, mais ce ne serait pas épistémologiquement problématique, tout comme il n'est pas forcément irrationnel d'accepter qu'il va pleuvoir, et donc de prendre un parapluie "par précaution" si je n'ai pas de manteau, alors que le ciel est plutôt clair.

Ceci, nous dira le bayésien, est contre-intuitif : il semble plus correct de dire que la science nazi ou celle de ce laboratoire est de la mauvaise science, et pas seulement sur le plan moral, parce que leurs affirmations ne sont pas appuyées par des données. Ou, pour prendre un cas qui serait moralement vertueux, on peut décider de ne pas construire une centrale nucléaire par principe de précaution parce qu'il existe un risque peut-être faible, mais inconnu, d'accident extrêmement grave. Si l'on ne distinguait pas acceptation et croyance, cela voudrait dire que l'on croit que l'accident se produira nécessairement, uniquement parce qu'il serait grave. Or ce n'est pas le cas. Il faut faire la part des choses.

Selon cette manière de voir, la science ne devrait pas nous dire quelles hypothèses considérer comme vraies pour l'action, mais seulement nous fournir des degrés de crédence, et ce serait le rôle du politique (par exemple) que de fixer un seuil de crédence acceptable pour la décision en prenant en compte les risques d'erreurs et le contexte social.

Un autre problème est que si croyance et acceptation étaient identiques, on pourrait, dans certaines situations, à la fois croire et ne pas croire quelque chose. Imaginez que mon parapluie soit très encombrant et que j'aie déjà un manteau étanche. Je pourrais alors agir sur la base de la croyance "il ne va pas pleuvoir", car prendre le parapluie est coûteux pour peu de bénéfice. Cependant cela ne me coûte pas grand chose de fermer les fenêtres "au cas où il pleuve quand même", et alors, j'agis sur la base de la croyance "il va pleuvoir". Si croire, c'est la même chose qu'accepter, je me retrouve dans la situation bizarre où je crois, et ne crois pas, qu'il va pleuvoir au même moment, mais à propos de deux actions distinctes.

On devrait plutôt dire dans ces cas là que :

  • soit je crois qu'il ne va pas pleuvoir, mais je ferme les fenêtres parce que "on sait jamais",
  • soit que je crois qu'il va pleuvoir, mais je ne prends pas le parapluie parce que "tant pis s'il pleut".

Donc il faudrait distinguer acceptation et croyance, au moins dans le contexte exigeant de la science, mais peut-être aussi dans des cas plus mondains. Ce qui ouvre la voie à l'idée que les croyances sont neutres sur le plan des valeurs, et que seule l'acceptation pour la décision est affectée par le contexte.

Mauvaise science ou non-science ?

Tout ceci peut paraître convainquant, et je pense qu'il y a là un fond de vérité (nous y reviendrons). Reste qu'on prend généralement la peine d'évaluer nos croyances quand c'est pertinent, c'est à dire si l'on pense que la croyance peut servir de base à l'action au moins indirectement. De même en science, il n'y a pas d'affirmations hors sol : publier un article scientifique, c'est faire un acte analogue à une affirmation qui peut avoir des conséquences, en l'occurrence, qui peut impliquer que cet article servira de base à l'action, et donc, cela engage une responsabilité qui dépend de valeurs sociales (du type d'action que le résultat est susceptible d'engendrer). Quand une évaluation statistique d'une hypothèse est disponible (ce qui n'est pas toujours le cas), les scientifiques ne se contentent pas de nous fournir des p-value : ils intègrent aussi dans leurs articles des seuils pour déterminer si l'hypothèse est acceptable ou non.

Mais surtout, je pense que l'analyse bayésienne du cas de la science nazi présenté plus haut n'est pas entièrement juste. Ou plutôt elle l'est dans le cas où les nazis (ou le laboratoire pharmaceutique) resteraient opaques sur leurs valeurs, et prétenderaient avoir montré que telle race est inférieure (j'imagine que c'était le cas mais je n'ai pas vérifié). Mais alors le tort épistémique ne tient pas au fait de prendre en compte les valeurs en soi, seulement au manque de transparence, et à quelque chose qui s'apparente assez directement à de la fraude.

Imaginons que les nazis publient des articles scientifiques du type "notre hypothèse n'est pas du tout confirmée parce que notre échantillon est trop petit pour conclure quoi que ce soit, cependant par 'précaution idéologique', on pense qu'il faut l'accepter comme vraie". S'agirait-il de mauvaise science ? Pas vraiment, il s'agit plutôt de non-science. La conclusion qu'il faudrait en tirer est que les nazi se fichent, en fait, de savoir si l'hypothèse de l'infériorité de telle race est plausible (ou que le laboratoire pharmaceutique se fiche de savoir si le médicament est efficace). Tout ce qu'ils veulent, c'est persécuter un certain groupe de gens bien identifiés socialement (vendre leur médicament). Tout comme je me fiche de savoir s'il est vraiment plausible qu'il pleuve si mon costume ne résiste pas à l'eau : je prends mon parapluie de toute façon.

Cette analyse nous demande de réévaluer légèrement la manière dont on a présenté le risque épistémique. Agir sur la base d'une hypothèse, ce n'est pas forcément la croire : ce peut être seulement la croire possible. Or la gravité d'une erreur (donc nos valeurs) peuvent nous pousser à croire qu'une chose est possible. Dans le cas de la centrale nucléaire, la gravité d'un accident nous pousse à le considérer comme possible. Écarter cette possibilité pourrait être considéré comme une faute. Ceci permet de rendre compte également du cas de la "double croyance" : je ferme ma fenêtre parce que je crois possible qu'il pleuve, mais en fait je ne crois pas qu'il va pleuvoir, donc je ne prend pas mon parapluie (il reste toujours une tension, qui est qu'on peut croire à la fois que p est qu'il est possible que non-p, ce qu'on pourrait qualifier de position faillibiliste).

Qu'est-ce que tout cela implique ? Simplement que prendre en compte les valeurs sociales n'est pas un problème en science sur le plan épistémologique tant que l'on est parfaitement transparent sur ces valeurs (ce qui n'a rien d'évident !). Ces valeurs ont une fonction "de second ordre" : elles impliquent de s'intéresser ou non à un sujet. Les nazis de notre exemple imaginaire (moralement condamnables mais épistémologiquement vertueux, car parfaitement transparents, je ne prétends pas que ce fut le cas des vrais !) ont simplement décidé de ne pas s'intéresser au sujet, donc de ne pas faire de science. S'ils avaient eu d'autres valeurs impliquant de s'intéresser plus sérieusement au sujet, ils auraient fait de la science. Le bayésien a raison de dire qu'on ne peut considérer leurs résultats comme scientifique, mais il aurait tort de considérer qu'une interférence de valeurs est problématique en soi.

On peut supposer que ceci s'applique aussi à la science d'aujourd'hui : peut-être que parfois certaines hypothèses sont écartées par les scientifiques parce qu'ils jugent que le risque qui est pris en les écartant est faible, ou que le risque qu'on prendrait en rejetant les hypothèses concurrentes serait trop fort (et il n'est pas certain que les valeurs impliquées dans ces jugements soient toujours explicites : c'est vraiment là que peut se situer le problème).

En cas de désaccord apparemment factuel lors de discussions politiques, quand une fausseté est énoncée à la légère, il pourrait être parfois utile, plutôt que d'asséner simplement des chiffres pour convaincre, de rappeler aussi à notre interlocuteur que cette question factuelle nous importe vraiment (et pourquoi), et qu'on ne peut donc se contenter de preuves à la légère comme il ou elle le fait : si la question factuelle importe finalement peu pour notre interlocuteur (peut-être parce qu'il pense qu'il serait très risqué de rejeter sa fausseté à tort), il y a peu de chance que quelques données empiriques le convainquent, mais questionner ses valeurs peut avoir un effet. Les désaccords apparemment factuels peuvent cacher des désaccords sur le plan des valeurs.

On entend souvent dire qu'un certain désintérêt ou détachement est nécessaire à la bonne science. Mais notre conclusion ici est que paradoxalement, faire de la bonne science nécessite au contraire de montrer un véritable intérêt pour le sujet qu'on étudie (une manière moins paradoxale de dire les choses est que pour faire de la bonne science, il ne faut pas prendre à la légère le risque d'erreur, ni dans un sens, ni dans l'autre : le rôle des valeurs est bien "de second ordre").

En quel sens se détache-t-on des valeurs ?

Ainsi, l'exemple de la science nazi n'est pas suffisant pour affirmer qu'il y aurait des "degrés de crédence cachés" qui expliqueraient ou devraient intervenir dans la décision. Il est insuffisant pour distinguer croyance et acceptation. Donc ce n'est pas un problème si la science évalue ses hypothèses en prenant en compte des valeurs pour estimer le niveau de preuve requis, pour peu qu'elle reste transparente.

Soyons clair, tout ceci n'est pas forcément fatal pour le modèle bayésien qui a d'autres choses à faire valoir. Mais on pourrait lui opposer un autre modèle qui serait celui-ci : nos valeurs nous font considérer certains états de fait ou hypothèses comme possibles. Les données empiriques nous amènent parfois à éliminer certaines possibilités, mais ces possibilités résistent d'autant plus à être éliminées qu'elles sont chargées de valeurs et impliquent des actions différentes (en un sens négatif ou positif : si j'ai vraiment envie de trouver de l'or dans mon jardin, je continuerai à fouiller même si les données ne sont pas favorables parce-que "le jeu en vaut la chandelle"). C'est en général un fonctionnement rationnel en termes de gestion du risque. Ce modèle implique que nos croyances (ce qu'on considère possible) dépend du contexte.

Mais il faut tout de même conceder quelque-chose. En général, si nos valeurs nous permettent de prendre une décision sans tenir compte de faits empiriques (je prend un parapluie car mon costume coûte très cher), on ne peut affirmer agir sur la base d'une croyance ferme. On agit plutôt sur la base d'une possibilité. Ce n'est que quand les valeurs sont conflictuelles, quand il y a du positif et du négatif quelle que soit la réalité, mais que ça implique des décisions différentes, qu'il devient vraiment intéressant de mener une enquête empirique pour fixer une croyance. En ce sens, disposer de valeurs univoques qui impliquent d'agir de telle manière indépendamment des faits peut aller à l'encontre de la bonne marche de la science, principalement en éliminant l'intérêt d'une enquête empirique, mais adopter une approche plus pluraliste (non pas une absence de valeur, mais au contraire une certaine ouverture à plusieurs valeurs, ou encore une tolérance envers les systèmes de valeur alternatifs et un fonctionnement inclusif) au contraire stimule la recherche. Ainsi on retrouve cette intuition qu'un contexte trop rigide sur le plan des valeurs, par exemple un régime totalitaire, n'est pas favorable à la science.

Par ailleurs, si à l'issue d'une enquête les données empiriques excluent catégoriquement certaines possibilités, les valeurs qu'on associe à ces possibilités deviennent non pertinentes pour la décision. Si le ciel est entièrement bleu, peu importe que je déteste être mouillé ou que je tienne beaucoup à ce costume : je crois qu'il ne va pas pleuvoir. Si je vous pose la question, vous pouvez me répondre "non il ne va pas pleuvoir" sans savoir pourquoi je le demande, sans éléments de contexte, si c'est évident qu'il va faire beau. Autrement dit, si le niveau de preuve est suffisamment élevé, il est vrai que ma croyance ne dépend plus réellement de mes valeurs et qu'elle acquière une forme d'objectivité, puisqu'elle devient virtuellement acceptable quelles que soient les valeurs, au sens où il faudrait un contexte très particulier associé à un niveau d'exigence extrêmement élevé pour me faire hésiter à agir sur sa base. C'est une manière de comprendre la locution "les faits se fichent de ce que vous pensez" qu'on entend parfois : s'il est évident qu'il pleut, peu importe que je préfère le soleil. Mais pour autant ma croyance n'est pas "hors sol", elle garde sa fonction principale, qui est de servir de base à l'action motivée, et donc je l'entretiens parce que j'ai certaines valeurs.

En somme on peut dire qu'il y a du vrai dans l'idée que la croyance robuste s'accompagne d'un détachement vis-à-vis des valeurs. Il s'agit juste de ne pas confondre "acceptable quelles que soient les valeurs" et "acceptable en l'absence de toutes valeurs". C'est bien la première locution, et non la seconde, qui caractérise l'objectivité comme horizon.