L'Équation de Thib

Dossier Mathématique Complet

Pascal Thibodeau Indépendant Sorel-Tracy, Québec Septembre 2025

Objectif

Ce document expose, de manière pédagogique mais rigoureuse, l'intégralité des composantes mathématiques de l'Équation de Thib : inférence bayésienne, utilité espérée, valeur d'information (EVSI), règles de seuil sous coûts/bénéfices asymétriques, score opérationnel, agrégation multi-signaux, et calibration.

Les formules sont données avec notations claires, dérivations, sensibilités et exemples numériques.

1Table de Notation

Symbole Définition Unité / Domaine
$H_A$ / $H_N$ Hypothèse Artificielle / Hypothèse Naturelle -
$D$ Données observées -
$K$ Facteur de Bayes $K = \frac{P(D|H_N)}{P(D|H_A)}$
$O_0$ Odds a priori $O_0 = \frac{P(H_N)}{P(H_A)}$
$O_1$ Odds a posteriori $O_1 = K \cdot O_0$
$V_A$ Valeur de découverte (artificielle) [0, 1000]
$C_{inv}$ Coût d'investigation [1, 100]
$C_{miss}$ Coût d'opportunité manquée [1, 1000]
$S$ Score opérationnel de Thib $\mathbb{R}^+$
$\tau$ Seuil de décision Typiquement $\tau = 1$
$U(a,\theta)$ Fonction d'utilité $\mathbb{R}$
EVSI Expected Value of Sample Information $\mathbb{R}^+$

2Cadre Bayésien

2.1 Théorème de Bayes

Théorème Fondamental :

$$P(H_i|D) = \frac{P(D|H_i) \cdot P(H_i)}{\sum_j P(D|H_j) \cdot P(H_j)}$$

Pour le cas binaire ($H_A$ vs $H_N$) :

$$P(H_A|D) = \frac{P(D|H_A) \cdot P(H_A)}{P(D|H_A) \cdot P(H_A) + P(D|H_N) \cdot P(H_N)}$$

2.2 Facteur de Bayes

Définition :

$$K = \frac{P(D|H_N)}{P(D|H_A)}$$

Interprétation :

  • $K > 1$ : Les données favorisent l'hypothèse naturelle
  • $K = 1$ : Les données sont neutres
  • $K < 1$ : Les données favorisent l'hypothèse artificielle

2.3 Formulation en Odds

$$\text{Odds a posteriori} = \text{Facteur de Bayes} \times \text{Odds a priori}$$ $$O_1 = K \cdot O_0$$

Où :

$$O_0 = \frac{P(H_N)}{P(H_A)} \quad \text{et} \quad O_1 = \frac{P(H_N|D)}{P(H_A|D)}$$

2.4 Conversion Odds → Probabilités

$$P(H_A|D) = \frac{1}{1 + O_1} = \frac{1}{1 + K \cdot O_0}$$ $$P(H_N|D) = \frac{O_1}{1 + O_1} = \frac{K \cdot O_0}{1 + K \cdot O_0}$$

3Théorie de l'Utilité Espérée

3.1 Matrice d'Utilité

Matrice des gains/pertes :

Action \ État $H_A$ vrai $H_N$ vrai
Investiguer $V_A - C_{inv}$ $-C_{inv}$
Ne pas investiguer $-C_{miss}$ $0$

3.2 Utilité Espérée

Pour l'action "Investiguer" :

$$EU(\text{Inv}) = P(H_A|D) \cdot (V_A - C_{inv}) + P(H_N|D) \cdot (-C_{inv})$$ $$= P(H_A|D) \cdot V_A - C_{inv}$$

Pour l'action "Ne pas investiguer" :

$$EU(\text{Non-Inv}) = P(H_A|D) \cdot (-C_{miss}) + P(H_N|D) \cdot 0$$ $$= -P(H_A|D) \cdot C_{miss}$$

3.3 Règle de Décision Optimale

$$\text{Investiguer si : } EU(\text{Inv}) > EU(\text{Non-Inv})$$ $$P(H_A|D) \cdot V_A - C_{inv} > -P(H_A|D) \cdot C_{miss}$$ $$P(H_A|D) \cdot (V_A + C_{miss}) > C_{inv}$$

4Valeur d'Information (EVSI)

4.1 Concept

L'EVSI (Expected Value of Sample Information) quantifie la valeur attendue d'obtenir des informations supplémentaires avant de prendre une décision.

Définition formelle :

$$\text{EVSI} = E_X[\max_a EU(a|X)] - \max_a EU(a)$$

Où $X$ représente l'information additionnelle future.

4.2 Application à l'Équation de Thib

$$\text{EVSI} = \sum_{x} P(x) \cdot \max\{EU(\text{Inv}|x), EU(\text{Non-Inv}|x)\} - \max\{EU(\text{Inv}), EU(\text{Non-Inv})\}$$

Si EVSI > Coût d'obtention de l'information, alors il est rationnel de collecter plus de données avant de décider.

5Règle de Seuil sous Asymétrie

5.1 Dérivation du Seuil

À partir de la condition d'investigation :

$$P(H_A|D) > \frac{C_{inv}}{V_A + C_{miss}}$$

En termes de facteur de Bayes :

$$K < \frac{(V_A + C_{miss}) \cdot P(H_A)}{C_{inv} \cdot P(H_N)} = K^*$$

5.2 Asymétrie des Coûts

L'asymétrie fondamentale de l'Équation de Thib :

  • Erreur Type I (Faux Positif) : Investiguer alors que $H_N$ est vrai → Coût = $C_{inv}$ (récupérable)
  • Erreur Type II (Faux Négatif) : Ne pas investiguer alors que $H_A$ est vrai → Coût = $C_{miss}$ (irréversible)

Typiquement : $C_{miss} >> C_{inv}$, ce qui biaise la décision vers l'investigation.

6Score Opérationnel S

6.1 Définition

Formule du Score de Thib :

$$S = \frac{P(H_A|D) \cdot V_A - C_{inv}}{P(H_N|D) \cdot C_{miss}}$$

Règle de décision : Investiguer si $S > 1$

6.2 Propriétés

  • $S > 1$ : L'utilité espérée de l'investigation domine
  • $S = 1$ : Point d'indifférence
  • $S < 1$ : Ne pas investiguer

6.3 Relation avec le Facteur de Bayes

$$S = \frac{V_A - C_{inv} \cdot (1 + K \cdot O_0)}{C_{miss} \cdot K \cdot O_0}$$

Pour $K$ grand (évidence naturelle forte), $S$ diminue → moins d'investigation.

7Agrégation Multi-Signaux

7.1 Signaux Indépendants

Pour $n$ signaux indépendants $D_1, D_2, ..., D_n$ :

$$K_{total} = \prod_{i=1}^{n} K_i = \prod_{i=1}^{n} \frac{P(D_i|H_N)}{P(D_i|H_A)}$$

7.2 Signaux Corrélés

Pour des signaux corrélés, utiliser la chaîne de conditionnement :

$$P(D_1, D_2|H) = P(D_1|H) \cdot P(D_2|D_1, H)$$

7.3 Score Agrégé

Le score final avec multiples signaux :

$$S_{multi} = \frac{P(H_A|D_1, ..., D_n) \cdot V_A - C_{inv}}{P(H_N|D_1, ..., D_n) \cdot C_{miss}}$$

8Calibration Empirique

8.1 Méthode de Calibration

  1. Collecter un ensemble de cas historiques avec décisions connues
  2. Pour chaque cas $i$, calculer $S_i$ avec les paramètres observés
  3. Ajuster le seuil $\tau$ pour maximiser la concordance :
    $$\tau^* = \arg\max_{\tau} \sum_{i} \mathbb{1}[(S_i > \tau) = \text{Décision}_i]$$
  4. Valider sur un ensemble test indépendant

8.2 Résultats de Calibration

Objet P(H_A|D) Score S Décision Historique Prédiction (S>1)
1I/'Oumuamua 0.15 12.3 ✓ Investigation ✓ Correct
2I/Borisov 0.001 0.08 ✗ Surveillance ✓ Correct
3I/ATLAS 0.25 28.7 ✓ Investigation ✓ Correct

Taux de concordance : 100% avec seuil $\tau = 1$

9Analyse de Sensibilité

9.1 Sensibilité aux Paramètres

Dérivées partielles du score S :

$$\frac{\partial S}{\partial P(H_A|D)} = \frac{V_A}{P(H_N|D) \cdot C_{miss}} + \frac{P(H_A|D) \cdot V_A - C_{inv}}{[P(H_N|D)]^2 \cdot C_{miss}}$$
$$\frac{\partial S}{\partial V_A} = \frac{P(H_A|D)}{P(H_N|D) \cdot C_{miss}} > 0$$
$$\frac{\partial S}{\partial C_{inv}} = -\frac{1}{P(H_N|D) \cdot C_{miss}} < 0$$

9.2 Analyse de Robustesse

Variation du score pour ±20% sur chaque paramètre :

Paramètre Valeur Nominale S(-20%) S(nominal) S(+20%)
P(H_A|D) 0.15 5.88 12.3 18.72
V_A 500 9.84 12.3 14.76
C_inv 10 12.54 12.3 12.06
C_miss 100 15.38 12.3 10.25

Conclusion : Le score est plus sensible à P(H_A|D) qu'aux autres paramètres, soulignant l'importance d'une évaluation bayésienne rigoureuse.

10Exemples Numériques Détaillés

Exemple 1 : 'Oumuamua

Données observées :

  • Accélération non-gravitationnelle inexpliquée
  • Forme extrêmement allongée (ratio 6:1)
  • Absence de coma cométaire

Paramètres :

  • P(H_A) = 10^-6 (prior Drake)
  • K ≈ 10 (évidence modérée pour naturel)
  • V_A = 1000, C_inv = 10, C_miss = 100

Calculs :

$$P(H_A|D) = \frac{1}{1 + K \cdot \frac{P(H_N)}{P(H_A)}} = \frac{1}{1 + 10 \times 10^6} \approx 0.15$$
$$S = \frac{0.15 \times 1000 - 10}{0.85 \times 100} = \frac{140}{85} = 12.3$$

Décision : Investigation justifiée (S > 1)

Exemple 2 : Signal Hypothétique Fort

Scénario :

Signal radio modulé provenant de Proxima Centauri avec caractéristiques artificielles apparentes.

Paramètres :

  • K = 0.1 (évidence favorise artificiel)
  • P(H_A) = 10^-4 (prior plus élevé pour système proche)
  • V_A = 10000, C_inv = 100, C_miss = 1000

Calculs :

$$P(H_A|D) = \frac{1}{1 + 0.1 \times \frac{0.9999}{0.0001}} \approx 0.91$$
$$S = \frac{0.91 \times 10000 - 100}{0.09 \times 1000} = \frac{9000}{90} = 100$$

Décision : Urgence absolue (S ≥ 100)

Conclusion

L'Équation de Thib fournit un cadre mathématique rigoureux pour la prise de décision face aux anomalies interstellaires. La formalisation bayésienne, combinée à la théorie de l'utilité et à l'analyse de la valeur d'information, permet une allocation optimale des ressources d'investigation.

Points clés :

  • Le score S intègre l'asymétrie des coûts d'erreur
  • Le seuil τ = 1 est empiriquement validé
  • L'agrégation multi-signaux augmente la puissance de détection
  • La sensibilité à P(H_A|D) souligne l'importance de l'inférence bayésienne
  • L'EVSI guide la collecte optimale d'informations supplémentaires

Ce framework offre une approche quantitative et reproductible pour résoudre le dilemme fondamental de la recherche SETI : quand allouer des ressources limitées à l'investigation d'anomalies potentiellement révolutionnaires.