Transparence

Méthodologie SPORE

Cette page documente avec transparence le fonctionnement réel des métriques affichées sur SPORE. Le projet revendique la rigueur scientifique — la rigueur commence par dire honnêtement comment chaque chiffre est produit, y compris quand la méthode est imparfaite.

Le score de Nouveauté (0,00 à 1,00)

Ce que c'est : une estimation, par le LLM lui-même, de l'originalité de l'hypothèse formulée par rapport à la littérature scientifique récente trouvée via Semantic Scholar.

Comment il est produit : après avoir interrogé l'API Semantic Scholar sur les mots-clés de l'hypothèse, SPORE soumet l'ensemble des papiers trouvés au LLM (DeepSeek ou Claude selon l'étape) avec une consigne explicite : « évalue à quel point cette hypothèse est nouvelle par rapport à ce qui existe déjà ». Le LLM retourne un score entre 0 et 1 et un verdict catégoriel (novel · incremental · already_explored · already_proven).

Ce que ce n'est PAS : une mesure objective basée sur des embeddings, une distance cosinus, ou une analyse statistique du graphe de citations. Il n'y a pas de formule mathématique derrière. C'est une auto-évaluation heuristique.

Limites assumées

Le score reflète le biais d'auto-évaluation du LLM (tendance à surévaluer ses propres productions, ou à sous-évaluer si entraîné à la prudence).
La fenêtre temporelle de comparaison dépend des résultats Semantic Scholar et n'est pas strictement bornée.
Un concept « redécouvert » qui existe depuis 30 ans mais n'apparaît pas dans le top 10 Semantic Scholar peut être scoré comme nouveau.
Le score moyen observé sur les briefs publiés est de 0,80 — c'est un signal de surévaluation systématique, pas une mesure neutre.

Comment le lire : utilisez le score Nouveauté comme un indicateur relatif (cette hypothèse semble plus nouvelle que celle-là, selon le modèle), pas comme une mesure absolue. Pour évaluer la vraie nouveauté d'une hypothèse, lisez la section « Évaluation de nouveauté » du brief, qui liste les travaux les plus proches identifiés.

Évolution prévue : un sprint futur (référencé en backlog comme N2.7-bis) implémentera un score algorithmique basé sur la distance sémantique (embeddings sentence-transformers) et l'absence de cooccurrence dans le corpus. Le score actuel sera conservé en parallèle pour comparaison.

Le score de consensus du Panel (0 à 10)

Ce que c'est : la moyenne pondérée des scores individuels donnés par les 5 reviewers IA du panel post-publication.

Comment il est produit : chaque reviewer (Méthodologue, Expert du domaine, Avocat du diable, Industriel, Stratège financement) attribue un score sur 10 selon ses critères propres, accompagné d'un verdict catégoriel (strong_accept · accept · weak_accept · weak_reject · reject) et d'une note de confiance (0 à 1). Le consensus_score est une moyenne pondérée par la confidence de chaque reviewer.

Verdict du Meta-Reviewer

Si consensus_score ≥ 7,0 et verdict iter1 ≥ majorité accept → publish_brief
Si 4,5 ≤ consensus_score < 7,0 → revise_and_resubmit (1 itération maximum)
Si consensus_score < 4,5 → reject

Ce que ce n'est PAS : une validation indépendante. Les 5 reviewers sont des projections du même espace de représentation linguistique que celui qui a généré l'hypothèse. Ils détectent les incohérences internes, pas la contradiction expérimentale.

Le taux de rejet (kill rate)

Ce que c'est : la proportion de collisions tentées qui n'aboutissent pas à un brief publié.

Comment il est produit : compteur public mis à jour à chaque cycle, visible sur la page Statistiques.

Pourquoi il est élevé : sur 2 095 collisions tentées, 38 briefs publiés (taux de rejet de 98,2 %). Ce chiffre n'est PAS un défaut — c'est la sélection rigoureuse en action. La majorité des paires de domaines aléatoires ne produisent pas de pont causal scientifiquement défendable. Publier toutes les collisions reviendrait à publier 95 % de bruit.

Vérification des références bibliographiques

Ce que c'est : chaque DOI cité dans un brief publié a été vérifié techniquement via l'API Semantic Scholar.

Ce que ça signifie : le DOI existe, il pointe vers un article identifié sur Semantic Scholar, le titre et les auteurs récupérés correspondent à ce qui est cité dans le brief.

Ce que ça ne signifie PAS : la conclusion citée n'a pas été vérifiée. SPORE garantit que les références existent et sont correctement identifiées. SPORE ne garantit pas que le LLM a correctement interprété le contenu de chaque article. Pour les briefs critiques, vérifier toujours la conclusion en consultant l'article original.

Coûts publics

Tous les coûts d'inférence LLM sont publiés en temps réel sur la page Statistiques. Coût moyen par brief : ~0,51 $. Coût total cumulé depuis le lancement : visible publiquement.

Stack technique

LLM : DeepSeek V3.2 (primaire) + Claude (étapes critiques)
Embeddings : sentence-transformers all-MiniLM-L6-v2
Bibliographie : Semantic Scholar API
Domaines scientifiques : OpenAlex (500 concepts level 2)
Pipeline : Python 3.12, LangGraph, SQLite
Frontend : Next.js 14, App Router

Cette page est un document évolutif. Si vous trouvez une formulation imprécise, contactez benoit@spore-research.com.

Mise à jour : mai 2026.