Projet Recherche en Attribution d'Auteur P.R.A.D.A.

Méthodologie  

Le principe méthodologique qui fonde le projet consiste à associer une approche historique et philologique du corpus que l’on a établi à une analyse relevant de l’informatique et, plus particulièrement, de la linguistique computationnelle. 

L’approche historique visera, pour l’essentiel, à confirmer et à préciser les dimensions du corpus en tentant de déterminer le plus exactement possible les bornes chronologiques qui marquent le début et la fin de la collaboration de Barbey d’Aurevilly à trois des cinq journaux concernés – Le Globe, Le Phare de Dieppe, L’Époque – pour lesquels nos connaissances, en l’état actuel, sont très lacunaires. Cette approche doit permettre de recenser l’ensemble des numéros sur lesquels pourra porter l’investigation de la linguistique informatique. 

Pour préparer le traitement de ces textes par les méthodes de la linguistique computationnelle, un travail préalable de numérisation devra être effectué. Celui-ci concerne non seulement les textes du corpus, mais aussi un échantillon de textes critiques de Barbey d’Aurevilly auquel ce corpus pourra être comparé, voire un échantillon de textes d’autres journalistes du temps (les autres Junius – Adolphe Duchêne, Charles Monselet, Aurélien Scholl, Jules Vallès – mais aussi des chroniqueurs et des critiques connus à cette époque tels que Xavier Aubryet, Philarète Chasles, Granier de Cassagnac, Jules Janin, Jules Levallois). 

L’équipe éditoriale chargée d’éditer l’œuvre critique de Barbey d’Aurevilly aux Belles Lettres mettra à la disposition du projet la numérisation intégrale, en mode texte, des articles publiés en volume par l’écrivain-journaliste, ainsi que les articles non recueillis qui sont identifiés comme les siens. En revanche, les articles du corpus de textes anonymes (ou publiés sous un pseudonyme) et l’échantillon de textes d’autres journalistes et d’autres critiques devront être numérisés en mode texte. 

L’analyse computationnelle, qui est au cœur du projet, doit permettre de résoudre un problème auquel les méthodes traditionnelles utilisées par les linguistes et par les spécialistes de littérature pour identifier la paternité de textes littéraires (approches idéologique, biographique, historique, analyse des manuscrits) fournissent des réponses qui restent en deçà des critères actuels de validité et de robustesse. De nombreuses tentatives d’utilisation des méthodes statistiques dans ces questions d’attribution ne sont validées ni par les mathématiciens, ni par les informaticiens, ni par les linguistes. À cela plusieurs raisons : beaucoup de ces tentatives se voient reprocher soit une utilisation non systémique des instruments statistiques, soit un choix arbitraire de paramètres diagnostiques, soit l’impossibilité d’estimer la probabilité d’une décision erronée au cours de la vérification de l’hypothèse statistique. 

En revanche, l’utilisation systémique des instruments fournis par la théorie de reconnaissance de formes (pattern recognition), qui servira de cadre théorique à ce projet, permet de trouver les solutions optimales aux problèmes de l’attribution d’auteur : grâce à la prise en compte de l’évolution des paramètres du style individuel d’un auteur sous l’influence de contraintes chronologiques, génériques et thématiques (le sujet de l’œuvre), la reconnaissance des formes permet d’estimer les probabilités d’appartenance d’un texte à plusieurs classes a priori, ce qui revêt une importance particulière dès qu’on a affaire à une œuvre commune à deux (trois, quatre, etc.) auteurs. Dans un second temps, la détermination également des constituants isotopiques d’un discours associé au crible du tri d’information ouvre la possibilité pour une approximation du sens, une détermination d’ensembles dont la somme donne une ébauche mesurable et quantifiable du sujet d’un fragment textuel. Cette démarche, proche de la logique du « topic modeling », ou de l’analyse sémantique latente probabiliste pourrait être exploitée systématiquement sur le corpus littéraire du projet. Ce travail permettrait, en le croisant avec les résultats des investigations sur les formants syntaxiques, (1) de créer un répertoire des thèmes saillants du corpus, (2) de tisser automatiquement des relations entre des fragments textuels du corpus et de renforcer, voire de valider ou d’invalider des propositions d’attribution et (3) de proposer une cartographie élémentaire des fragments littéraires en résonnance..

La démarche scientifique qu’on se propose d’adopter s’appuiera sur la définition stylémétrique du style, condition sine qua non pour résoudre les problèmes de l’attribution d’auteur. On combinera les méthodes traditionnelles de l’analyse linguistique et de l’analyse littéraire avec les méthodes de l’analyse statistique, la stylémétrie bénéficiant, dans ce contexte, des résultats obtenus grâce aux méthodes traditionnelles. 

Ainsi, la méthode utilisée, dans sa pluridisciplinarité, cumulera les avantages de l’analyse qualitative des styles individuels et ceux d’une large gamme de méthodes statistiques et probabilistes. Contrairement aux solutions antérieures fondées sur l’utilisation d’instruments statistiques isolés, cette méthode s’appuiera sur la conception systémique des caractéristiques du style, dans laquelle le texte est considéré comme un vecteur multidimensionnel ou un point de l’espace multidimensionnel dont les axes sont les paramètres diagnostiques. La caractéristique majeure de cette méthode est l’utilisation des paramètres structuraux et syntaxiques de la phrase, ce qui, en matière de linguistique computationnelle, distingue l’école russe (qui considère le style comme une catégorie structurelle et syntaxique) de l’école occidentale (qui préfère analyser les composantes lexicales du texte).