Jean Guy Meunier, PhD (Montréal), est professeur-chercheur à l’Université du Québec à Montréal, co-directeur du Laboratoire d’analyse cognitive de l’information (LANCI), membre de l’Institut des sciences cognitives de l’UQAM, membre du Centre de recherches dans les humanités numériques (CRHN) et membre titulaire de l’Académie internationale de philosophie des sciences (Bruxelles). Il effectue de la recherche dans le domaine des humanités numériques depuis les années 1970. La SEMI/SDH, principale association canadienne de chercheurs dans le domaine des humanités numériques, lui a décerné un prix pour sa contribution à ce domaine.
This is the source
La numérisation des textes est omniprésente dans les humanités numériques. Elle semble se présenter uniquement comme une modification du support matériel : du texte sur papier au texte numérique. Mais elle fait plus que cela. La numérisation touche aussi le texte en tant qu’objet sémiotique. Or, les multiples opérations de cette technologie mettent en œuvre des décisions interprétatives qui ne sont pas sans affecter le texte sémiotique, c’est-à-dire celui qui se donne à lire et à analyser. En ce sens, la numérisation des textes n’est pas neutre. Elle est un moment important d’une herméneutique matérielle.
Cet article considère les problèmes herméneutiques des textes numériques.
La numérisation des documents est une des nombreuses technologies informatiques
qui transforment la culture et la science. Tous les supports matériels
classiques de l’image au film, de la musique à la sculpture peuvent être
transformés et déposés sur un support dit numérique. Mais plus que tout autre,
le texte, dans son format traditionnel – manuscrit, codex, livre, revue,
rapports, magazine, etc. –, est, depuis une vingtaine d’années, soumis à une
numérisation massive. Et à cette masse de textes numérisés s’est ajoutée celle
issue de la production directe de textes via des logiciels de traitement de
textes. De nos jours, peu de textes échappent ainsi à la technologie de la
numérisation
Si certains projets de ce
Grâce à de tels projets ainsi qu’aux nouvelles possibilités offertes par les technologies informatiques actuelles, tant d’archivage, de traitement que de télécommunications, on espère que des villages reculés auront désormais la possibilité de bonifier leur mince bibliothèque locale de plusieurs millions de copies de livres numériques.
Cette numérisation massive de documents textuels, par l’importance de son
impact présent et futur sur la culture et la science, change radicalement le
rapport au savoir et à sa communication
La technologie de numérisation des textes met en relation deux termes : la
Le terme
Dans une seconde acception, la
Cette double signification a son utilité. Elle permet au discours sur la
numérisation d’être métonymique. De fait, ce terme naviguera souvent entre ces
deux significations ; ce qui permettra de masquer la complexité tant du
processus physique que du processus algorithmique mis en œuvre. Par exemple :
si on dit qu’un service d’archives mène un projet de
Un même type d’ambiguïté accompagne le terme texte
renvoient d’ailleurs en tout premier
lieu au tissu et au tissage :
Un livre (sens le plus courant) est un
ensemble de pages reliées entre elles et contenant des signes destinés à
être lus.
(https://fr.wikipedia.org/wiki/Livre)
ou
. Dans le cadre informatique, le texte
demeure aussi un objet physique, à ceci près toutefois, que le support physique
change de nature et devient électromagnétique (disque dur, clef USB, etc.) ou
lumineux d’un écran. Par ces transformations, la notion de texte se voit
intégrée à de nouvelles pratiques discursives : on parle désormais de textes
copiés par des imprimantes, reproduits par des scanneurs, traités par des
logiciels, diffusés sur internet ou envoyés par des téléphones intelligents.
Pour désigner le dernier cas, un nouveau synonyme, le texto
, est même
apparu ; dans l’industrie, on dira dès lors que les messages textes
sont plus économiques que les messages oraux. Dans tous ces cas d’énonciation
et indépendamment de la forme matérielle qui lui est associée, du papier
jusqu’au format électronique
Parallèlement à cette conception du texte comme contenant
, une seconde
acception, beaucoup plus classique, riche et complexe, renvoie au contenu
proprement dit, c’est-à-dire à un ensemble organisé de signes linguistiques.
Pris en ce sens, le texte est un objet sémiotique qui transcende sa
matérialisation dans un support physique, ou du moins, il qui ne saurait s’y
réduire. Conformément à cette acception, mille textes matériels imprimés
peuvent tous être à propos d’un même texte sémiotique. Par exemple, une
imprimante peut produire mille textes matériels du même texte de la
constitution américaine.
Bien que dans certains cas, ces considérations sur les supports physiques soient importantes, c’est sur ce contenu du texte sémiotique que portent principalement les grands projets de numérisation. Pour ces derniers, le contenu de textes comme la Bible ou le Coran est en effet plus important que les supports physiques qui les ont portés au fil des siècles, de la peau de mouton au papyrus, en passant par le papier, le microfilm et, finalement, le support électromagnétique.
À la lumière de l’ambiguïté de ces deux notions de numérisation
et de
texte
, la problématique de la numérisation de textes
s’avère beaucoup plus complexe qu’il n’y paraît de prime abord. En effet, par
numérisation de textes, on peut autant renvoyer au processus physique qu’au
processus algorithmique et à la manipulation des signes textuels. En
conséquence, la compréhension de cette technologie de numérisation des textes
sera constamment confrontée à cette ambiguïté. Aussi, pour explorer avec plus
de précision ce qu’est cette technologie de numérisation des textes, nous
aurons à répondre à deux questions épineuses : 1) Quelles sont les grands types
d’opérations physiques et algorithmiques que la numérisation des textes met en
œuvre ? 2) Quels effets ces opérations ont-elles sur la lecture et l’analyse
des textes ?
Les réponses à ces questions sont tout sauf simples. Et elles s’avèrent
déterminantes pour la compréhension des pratiques d’une herméneutique
matérielle distante
électronique
À première vue, le processus de numérisation de texte semble très simple.
Quelques secondes suffisent pour qu’un document textuel sur papier s’affiche
sur un écran. La majorité des opérations physiques et algorithmiques mises en
œuvre échappent à l’attention. Pourtant, le processus est complexe. En fait, il
peut être décomposé en plusieurs phases, chacune constituée de plusieurs
sous-opérations dont le produit est toujours un document constitué de signes
qui se doivent d’être fidèles au texte source. En cela, la numérisation produit
un document que nous appellerons un texte
Dans notre description du processus de numérisation, nous symboliserons par une
lettre indicée T i le type de
document textuel produit par chaque type d’opération. Ainsi, nous distinguerons
(voir figure suivante) : 1) les textes sources
numériquesT
Vu la multiplicité des objectifs et complexité des opérations en jeu dans les divers projets de numérisation de texte, cette liste n’est aucunement exhaustive. Il serait possible d’identifier de nombreux autres types d’opération et documents textuels, mais ceux retenus ici seront suffisamment pertinents pour révéler, ou à tout le moins illustrer, les enjeux herméneutiques de la numérisation des documents textuels sur leur lecture et leur analyse.
Le premier moment de ce processus de numérisation peut lui sembler externe. Pourtant, il s’agit d’une étape qui lui est tout aussi essentielle qu’intrinsèque. En effet, dès le point de départ, un projet de numérisation doit distinguer au moins deux ensembles de documents textuels.
Un premier ensemble est constitué des documents textuels T(c) c’est-à-dire
de documents qui forment une
Mais dans plusieurs cas, surtout dans des projets de recherche, un choix
sera effectué. Car il peut s’avérer impossible ou encore non pertinent de
tout numériser. Ainsi, un deuxième ensemble de documents textuels Tp sera construit et il constituera le corpus. Par
exemple, la collection Tc des œuvres écrites de
Jean -Paul Sartre pourrait contenir uniquement les œuvres publiées,
délaissant la correspondance, les manuscrits, les cahiers de notes, etc. Et
un projet de recherche pourrait ne retenir comme corpus Tp que les textes qui sont de nature
philosophique.
On définit habituellement un corpus de textes Tp
comme un sous-ensemble de la collection de textes à numériser ou déjà
numérisés qui sont réunis en regard des objectifs d’une recherche (c.
Cependant, dans la grande majorité des cas, il n’en constitue qu’un
sous-ensemble.
Pour construire tant une collection qu’un corpus, deux critères particuliers
peuvent être considérés, l’un interne, l’autre externe. Le critère interne
est lié aux hypothèses d’utilisation du corpus ou des manipulations qui lui
seront appliquées. Aucun corpus n’est neutre et toute sélection de textes
est déterminée ou normée par une pratique ou une théorie. Par exemple, des
bibliothèques auront souvent à choisir des documents textuels à numériser
pour construire leur propre collection électronique. Cette collection sera
formée, entre autres, en regard d’une politique d’archivage ou encore des
besoins supposés de leur clientèle. Pour constituer leur corpus, les
littéraires pourront privilégier les textes qui sont susceptibles de
susciter une critique ou une analyse ; les archivistes choisiront ceux qui
peuvent constituer un témoignage prototypique d’un événement institutionnel
ou social ; les linguistes sélectionneront ceux qui présentent des
régularités d’une langue, tandis que les philosophes retiendront les textes
les plus pertinents sur le plan théorique ou conceptuel. Bref, tout projet
de numérisation débute par la sélection de textes et donc de la
constitution, soit d’une collection, soit d’un corpus en regard des
objectifs poursuivis. Ces collections et corpus ne sont pas sans liens avec
ce que
Un critère externe, de nature matérielle ou sociale, entre également en jeu.
Sur le plan matériel, la constitution d’une collection ou d’un corpus peut
demander une attention particulière à l’état physique des textes. Par
exemple, la numérisation de textes anciens nécessite une analyse préalable
de leur état de conservation, de leur dégradation ou de leur capacité à
subir des manutentions mécaniques. De même, la numérisation de journaux et
des revues ne peut se faire sans prendre préalablement en considération leur
format, leur quantité, leur qualité d’impression, etc. La structure même des
documents demande également à être analysée, et ce pour plusieurs raisons.
Tout d’abord, les variantes structurelles entre les différents types de
textes (articles de revue, lettres, pièces de théâtre, manuscrits, etc.),
qu’ils soient inclus dans un même corpus ou non, nécessitent l’utilisation
de procédés de numérisation adaptés pour chacun d’eux. Aussi, pour chacun,
différentes transformations structurelles sont possibles. Par exemple, au
sein d’un même document, on trouvera souvent des variantes dans la
pagination, la mise en page, dans les types de polices, dans la
justification, dans la disposition des notes. Autant d’éléments dont un
processus sérieux de numérisation devra éventuellement s’occuper. Par
exemple, si un texte contient des
Sur le plan social, certains projets auront peut-être à considérer les autres projets avec lesquels ils pourraient entrer en relation. Par exemple, un projet de numérisation des œuvres d’un auteur peut s’inscrire dans le cadre ou répondre aux objectifs de diverses politiques et activités organisationnelles, des centres de recherche aux bibliothèques et libraires. Dans de tels cas, les projets de numérisation peuvent avoir avantage à se conformer à différents standards industriels (XML, SGML) ou académiques (TEI). Par exemple, un projet de numérisation de la correspondance d’un écrivain français lauréat d’un prix Nobel de littérature aura peut-être à se conformer aux divers paramètres du corpus numérisé du
Bref, tous ces critères matériels et ceux propres à un projet particulier jouent un rôle déterminant dans la construction d’un corpus. En tant qu’ils construisent une classe particulière de textes, ils établissent des relations entre les textes. Relations qui ne sont pas sans faire émerger du sens nouveau dans chacun d’eux. Une collection et un corpus ont donc un effet direct sur la lecture et l’analyse de textes. L’interprétation qui s’ensuivra sera différente de celle qui serait proposée d’un texte isolé sans lien avec une collection ou un corpus. On peut imaginer comment un corpus contenant
Habituellement réalisé au moyen d’un dispositif appelé
machine
, c’est-à-dire un mécanisme physique intégré dont le
produit final est une configuration de variations normées de voltage
électrique. Ces configurations représentent le document source sous une
forme électronique que nous appellerons ici, le document textuel
électronique Te. Il est un texte numérisé. Il faut
bien noter cependant, que ce document textuel Te
n’est pas encore transformé en document textuel encodé par des chiffres 0 et
1, il n’est qu’une suite d’engrammes physiques (des
lisibles
par un humain
À cette étape, le support électronique d’un document textuel n’est toutefois
pas toujours isomorphe au document textuel source. Très souvent, la copie
électronique ne retient pas tout ce qui se trouvait sur l’original.
Plusieurs propriétés physiques informationnelles du document d’origine ne
sont pas intégralement captées et reproduites. Ces pertes et bruits produits
dans l’opération de transduction peuvent avoir plusieurs causes. Par
exemple, la nature incandescente de la source lumineuse peut contribuer à
restreindre le spectre lumineux. Relativement à ce même spectre, celui-ci
peut n’être qu’imparfaitement capté ou converti par les capteurs, voire
déformé par la lentille du numériseur. La vibration mécanique (
En raison de cette complexité de l’opération physique, certaines précautions
doivent être prises afin de s’assurer de la conformité du processus de
numérisation aux objectifs initiaux : par exemple, on devra être attentif à
la manutention physique des documents originaux
Dans tout ce processus de conversion du document textuel source en document
textuel électronique TeTe, certaines propriétés ou
caractéristiques des signaux originaux sont omises ou laissées pour compte.
Ou encore, certains ajouts peuvent produire du bruit. D’un point de vue
herméneutique, si cet ajout ou cette perte d’information est négligeable
pour des documents textuels simples ou d’utilisation courante (par exemple
dans le cas d’un texte dactylographié), il en va tout autrement lorsque les
textes originaux sont anciens et dégradés. Une numérisation de papyrus ou de
vieux codex est particulièrement sensible à ce type de traitement : qu’il
s’agisse d’un manuscrit médiéval ou d’un parchemin retrouvé dans une
ancienne mosquée, l’omission d’une marque ou d’un signe particulier peut
donner lieu à des interprétations radicalement différentes. Pour cette
raison et afin d’éviter que des informations cruciales du texte original
échappent ou soient ajoutées à la transduction du texte matériel en texte
électronique, il est coutume de solliciter l’aide et l’expertise d’exégètes,
de philologues et de paléographes à cette étape du processus de
numérisation. À la lumière de ces différentes considérations, à mi-chemin
entre la transduction électronique et l’interprétation textuelle, force est
de convenir que le concept d’ herméneutique matérielle
prend ici un
tout nouveau sens. La production d’un document textuel électronique Te implique toujours des décisions herméneutiques
relatives à la représentativité de texte électronique. Elle en appelle à une
multitude d’actes interprétatifs.
Le document textuel électronique Te n’est
cependant pas encore un texte numérique au sens propre du terme. Pour le
devenir, chaque variation électrique du document textuel électronique doit
être encodée en une suite de symboles appartenant à un code numérique
binairen) ou en anglais le
Enregistré sur des supports électroniques auxquels on peut ajouter de l’annotation de formatage tels JPEG (
Il existe donc une différence importante entre le document textuel
électronique (Te), inscrit sur les supports
électroniques et le document textuel numérique (Tn). Le document textuel numérique est en effet issu d’une technologie
où des algorithmes complexes (la compilation) transforment les signaux
physiques en une suite (et même de couches) de symboles 1 et 0. Cette suite
de symboles est le langage natif d’un ordinateur. Comme
Ce dernier document textuel numérique n’est normalement pas
n en un format qui fait apparaître des symboles
directement interprétables par des humains.
Une manière simple de procéder consistera à traduire des configurations de
symboles binaires par l’activation d’une imprimante ou de par l’activation
de point lumineux (pixels) sur un écran électronique (moniteur) ou par
l’activation d’un projecteur sur une toile réfléchissante. Ainsi, est
produit un document textuel image Ti. Ce document
textuel est évidemment
Ce document textuel image Ti est en un sens comme
une photographie du document textuel original. De fait, il contient le texte
original. En effet, apparaissent aussi toutes les autres marques que le
document source présentait (ratures, corrections, tache, trous, etc.).
Certains sont importants mais d’autres sont du bruit.
Malgré son contenu hybride, ce texte-image est précieux ; dans plusieurs domaines de recherche, il devra être conservé et facilement accessible et disponible pour les chercheurs. Faute d’avoir accès au document matériel originel, le chercheur pourra s’en servir comme socle de validation. Reste que ce document image n’est pas le document source. Dans un projet paléographique, un petit trou dans le manuscrit original peut apparaitre comme une marque sémio-linguistique importante (exemple : dans les documents textes anciens).
Encore une fois, comme dans les transformations précédentes, il existera
divers types d’interventions qui toucheront ce texte-image ; par exemple :
la compression, la résolution en pixels, le filtrage, etc.
Par ailleurs, le texte-image pose des problèmes particuliers à la lecture, surtout si celle-ci porte sur le texte image-écran. Le parcours du texte impose des contraintes perceptuelles et cognitives qui ont été mises en évidence par les recherches. Le texte-image sur écran perd de nombreuses balises qu’offrait le codex. Des repaires physiques disparaissent. Il surcharge la mémoire. L’annotation, le commentaire, le marquage ne sont pas toujours accessibles. Ce sont autant d’éléments qui affectent la lecture, l’interprétation et la compréhension du contenu sémiotique. Cela dit, il est important de noter que le texte-image n’épuise pas toutes les variantes des textes numérisés.
Bref, si nous résumons ces premières étapes, nous devons constater qu’il y a des enjeux herméneutiques distincts, mais importants. Chacune des étapes peut comporter de décisions qui modifient le document textuel, soit en ajoutant soit en éliminant quelque chose. Toutes ces décisions qui touchent la matérialité du texte peuvent ultimement affecter l’interprétation des textes. On imagine ce que toutes ces modifications pourraient signifier si le document textuel source était issu de la collection biblique des rouleaux manuscrits de Qumran ! Et qu’il faut lire ceux-ci sur en format PDF sur l’écran d’un téléphone intelligent !
À ce stade de la chaîne de traitement, le texte-image (Ti) n’est qu’un ensemble de transcriptions de configurations de
taches d’encre sur un support papier ou d’activation de pixels lumineux sur
un écran. Certaines des configurations de tâches d’encre ou de pixels sont
reconnues par les humains comme des symboles linguistiques, mais un
ordinateur ne peut manipuler ces symboles comme des signes linguistiques. Le
texte-image est figé, statique. Or, pour de nombreuses finalités de lecture,
et surtout d’analyse et d’édition, de diffusion, l’ordinateur doit manipuler
de manière dynamique ces symboles comme des signes linguistiques. Le
texte-image doit donc être transformé en texte d). Il y a deux manières
de procéder pour ce faire : l’une manuelle, l’autre automatique.
En ce qui a trait à l’approche manuelle, il arrive que certains textes-images soient si complexes, bruités et idiosyncrasiques qu’aucun algorithme ne peut réussir à reconnaître des configurations de signes linguistiques. On peut penser ici aux manuscrits écrits à la main, en langue ancienne ou ceux contenant des symboles particuliers, comme les notes sténographiées de Husserl ou les textes de
numériqueassociée à
clavierrenvoie habituellement au pavé numérique, c’est-à-dire le clavier avec des chiffres. Le clavier ordinaire d’un ordinateur est une technologie mécanique qui transforme une pression effectuée sur une touche en un signal électrique qui, à son tour, est transformé en un code numérique. Lorsque les textes à copier sont complexes, la saisie passe souvent par l’intermédiaire de plusieurs personnes. Elles encoderont manuellement, en parallèle et de manière comparée, le texte-image (ou le texte source lui-même) pour assurer la plus grande fidélité du texte vivant avec l’original.
La procédure automatique repose quant à elle sur la reconnaissance optique
de caractères (ROC)n ou même du i – celles qui forment des signes linguistiques
dynamiques : des lettres, ponctuation chiffres, espaces, etc.) et filtrant,
si nécessaire des marques résultant de la texture du papier, des taches ou
de tout autre source non pertinente du point de vue linguistique. Ces
algorithmes complexes, basés sur des modèles mathématiques de reconnaissance
ou de classification de formes, permettent dans les configurations de pixels
des textes-images, notamment par le truchement de différentes opérations de
translation, de rotation, de compression et de réduction ou d’agrandissement
d’échelle, d’identifier des signes linguistiques et d’éliminer les effets
dus au bruit ou aux imperfections. Ces opérations de reconnaissance
utilisent parfois des dictionnaires ou des outils linguistiques. Il est
évident que le document textuel dynamique Td est
distinct du texte-image, tout comme du texte numérique avec lequel il est
souvent confondu.
Les signes linguistiques reconnus et affichés sur écran ou imprimés sur
papier correspondent à des standards, par exemple, ASCII. Le texte peut
alors être enregistré sous un format manipulable par des logiciels
spécialisés dans le traitement de signes linguistiques. Les formats
d’enregistrement les plus connus et utilisés sont TXT logiciel de traitement
de textes
. TM, par exemple, ne traite pas du texte
sémiotique, mais des signes linguistiques encodés de manière standard.
Pour ce logiciel, il n’y a pas de différence informatique entre la
klr ok kf prp oi klr
et Il lit ce livre au lit
. Les deux
sont des suites de signes linguistiques même si la première suite n’a
aucun sens.
Ainsi, à ce stade du processus le texte numérique dynamique vivant
ou en anglais living
par les entreprises informatiques spécialisées en logiciels ROC. Mais le
terme dynamique semble utilisé le plus souvent.d) peut certes être lu comme le texte-image, mais
surtout il peut être, corrigé, souligné, commenté et ultimement traité par
une variété d’algorithmes. Il reste cependant que ce texte dynamique est
lui-même présent dans l’ordinateur comme un texte électronique manipulable
dans sa version numérique par des programmes.
Ici encore, cette phase de la chaîne de traitement présente ses propres
enjeux herméneutiques. En effet, la transformation manuelle ou automatique à
l’origine de la création du texte dynamique influencera la lecture et
l’analyse. Tout comme dans le cas des textes sources électroniques,
numériques, images celui-ci subira des transformations importantes. Par
exemple, de multiples informations textuelles, tels le soulignement, le
surlignage, les polices de caractères, la mise en italique, en gras ou en
page, la pagination, les notes et commentaires peuvent être conservées ou
éliminées. Des erreurs de reconnaissance dues notamment au bruit (une tache,
une ombre, une interférence) peuvent s’y glisser mots
mal identifiés.
De telles modifications affecteront éventuellement l’analyse du texte. C’est surtout d’ailleurs ce type de texte qui servira comme point de départ des multiples stratégies d’analyse du contenu textuel : annotations, lexicométrie, classification, visualisation, édition, etc. Ces opérations d’analyse exigent un texte dynamique. Encore ici, la différence entre une herméneutique classique et matérielle prend tout son sens.
Dans sa forme la plus élémentaire, un texte numérisé dynamique n’est qu’une
suite de caractères séparés par des espaces. Mais au sens sémiotique, un
texte est plus qu’une suite de symboles. En effet, comme le soulignent
régulièrement plusieurs linguistiques et sémioticiens ( lit
dans la
séquence alphabétique : Il lit ce livre au lit.
Aussi, si le projet de numérisation implique certaines manipulations
sémiotiques du texte dynamique (Td), il peut
devenir nécessaire d’ajouter des informations spécifiques aux multiples
types ou formes de signes présents dans le texte dynamique. Cela sera
effectué par le biais d’annotations qui représentent sur le plan
informatique des métadonnées, c’est-à-dire des étiquettes ou des marqueurs
qui nomment la catégorie de l’information et qui sont ajoutés au texte
dynamique.
Les types d’annotations varient selon les objectifs du projet de
numérisation, qu’il s’agisse de production d’une édition papier ou
électronique, d’archivage, d’aide à la recherche sur Internet, de
construction d’un Web sémantique, de fouille ou d’analyse de données
textuelles spécialisées. Plusieurs stratégies (manuelles ou automatiques) et
classes d’annotations ont été proposées par le passé. Si certaines formes
d’annotation portent sur le traitement informatique de type documentaire
(indexation, archivage, notamment)
Un premier type d’annotation relève de ce que
Les annotations intratextuelles portent quant à elles sur le contenu interne
du texte. Celles-ci peuvent toucher différentes dimensions textuelles.
Ainsi, on pourra vouloir indiquer le statut linguistique des signes –
notamment : leur catégorie syntaxique (p. ex., porte
comme
porte
comme
De plus, l’annotation peut avoir pour but de distinguer les signes non
linguistiques présents dans le texte, mais qui participent de manière
importante au contenu du texte sans pour autant constituer du
texte
, par exemple les tableaux, les schémas, les cartes, les
photos, les images et ainsi de suite. Finalement, on inclura aussi les
commentaires, variantes, remarques, précisions, etc. – c’est-à-dire, les
Une troisième catégorie d’annotation, relevant de ce que Genette appelle
épitexte
et que Foucault et Kristeva
désignent par intertexte
, renvoie à des
textes externes, liés de manière intermédiaire au contenu textuel principal.
Certains éléments épitextuels
peuvent être
produits par l’auteur du texte principal, par exemple la correspondance, le
journal intime et les interviews, alors que d’autres portent spécifiquement
sur lui, par exemple les critiques et les analyses. Certains seront privés
d’autres publiques. Enfin, d’autres formes d’annotations relevant du même
cadre discursif
que le texte annoté
peuvent jouer un rôle important dans la compréhension de son contenu
sémiotique, par exemple les textes historiques ou techniques. Bien que ces
différents textes n’aient pas de rapport direct avec le texte principal, une
analyse textuelle rigoureuse se doit toutefois de les prendre en compte.
Plusieurs projets de numérisation ont recours à ces divers types d’annotations, bien qu’à des degrés divers. Les pratiques peuvent faire preuve d’une grande variabilité de détail et de complexité. Compte tenu de cette diversité et des complications qu’elle est susceptible d’entraîner, une normalisation des marquages s’est imposée pour de nombreux projets de numérisation, normalisation permettant d’assurer à la fois une certaine cohésion interprétative et une communicabilité informatique.
Au niveau proprement informatique, cette normalisation des pratiques d’annotations s’est traduite par le développement de plusieurs standards, certains étant plus utilisés que d’autres. Le SGML (
Un second type de marquage plus simple, XML (
En tant qu’ensembles terminologiques et conceptuels structurés, recouvrant
la dimension sémantique d’un champ de connaissances, les ontologies peuvent
servir à organiser les informations sémantiques contenues dans des textes,
notamment en vue de faciliter leur intégration web. Dans la perspective où
une bonne partie des textes numérisés est susceptible d’être affichée dans
des sites internet, plusieurs spécialistes du domaine proposent d’intégrer
de ces ontologies aux pratiques d’annotation habituelles
Dans l’ensemble, les différentes normes décrites ci-dessus ont certes contribué à uniformiser la mise en ligne des collections textuelles. Désormais, les formats XML et HTML ainsi que leurs variantes sont essentiels à tout projet de numérisation et de mise en ligne. Toutefois, ce type de balises ne saurait entièrement convenir aux projets académiques, dans la mesure où ceux-ci nécessitent bien souvent des formats de balisage plus fins.
Le format proposé par le consortium international de la
Par le truchement de ces différents formats et techniques d’annotation,
cette dernière phase du processus de numérisation produit ainsi un nouveau
texte : le texte annoté (Ta). De plus comme il
faut préciser le type d’annotations, il faut indexer ce texte : soit Ta i
où
Sur le plan interprétatif, les techniques d’annotation soulèvent leurs propres enjeux herméneutiques. Encore plus que pour les autres phases du processus de numérisation, ces opérations peuvent orienter profondément l’interprétation du contenu sémiotique du texte. Et dans ce contexte transformationnel, l’herméneutique matérielle est directement interpellée.
Un premier enjeu est la multiplicité des perspectives possibles. À l’inverse
des autres opérations qui peuvent occasionner une réduction du texte, les
annotations lui ajoutent au contraire une quantité non négligeable
d’informations. En outre, ces nouvelles informations reposent souvent sur
une diversité de cadres théoriques qui ne sont pas universellement
partagés
Malgré ces difficultés et la tendance générale qui en découle, la
possibilité de découvrir et d’établir des normes d’annotation minimales,
applicables aux textes présentant certaines similarités (par exemple,
d’ordre littéraire, philosophique ou technique), demeure néanmoins réaliste.
Par exemple, un poème pourrait permettre une annotation sensible au vers, au
verset, à la métrique, aux lignes ou aux strophes, sans pour autant que ces
différentes annotations soient liées entre elles. Également, une annotation
littéraire pourrait se résumer à identifier les personnages d’une pièce de
théâtre ou à préciser certains types d’actes de langage. Une annotation
sémiologique ou linguistique pourrait se contenter de distinctions entre
actants, actions ou épreuve, de même qu’une annotation philologique pourrait
se limiter à préciser des variantes dans des manuscrits. En ce sens, il
semblerait donc possible d’effectuer certaines annotations générales
communes, malgré le caractère spécifique au
domaine
d’un bon nombre d’entre elles. En fait, le cœur du
problème de l’annotation est que celle-ci constitue une forme déguisée
d’interprétation ou, pour reprendre l’expression de
Un deuxième enjeu herméneutique est la multiplication des documents textuels
annotés Ta. En effet, contrairement à une démarche
herméneutique classique qui ne porte que sur un texte source canonique et
ses diverses transcriptions ou éditions, l’annotation multiplie les types de
textes presque à l’infini. De plus, ces annotations sont souvent
transparentes au lecteur et à l’analyste : alors que dans le texte papier,
auquel l’interprète peut ajouter des
Ainsi, dans le cadre numérique, l’annotation informatique multiplie les
types de textes. Un texte annoté syntaxiquement est différent d’un texte non
marqué sémantiquement. Ainsi, presque chaque texte numérique Ta se multiplie en n textes différents par l’ajout
divers types d’annotations, complexifiant d’autant la démarche
herméneutique.
Les deux derniers textes, le texte-image et le texte dynamique, peuvent
donner accès au contenu sémiotique textuel ; ils sont lisibles. Mais seuls
les textes dynamiques et annotés permettent une manipulation
computationnelle et analytique. Par contre, ces derniers documents ne sont
habituellement pas la forme ultime que visent les projets de numérisation.
On désire offrir aux différents lecteurs un document textuel édité Td qui contiendra les multiples qualités résultant
d’un travail éditorial propre à un document numérisé affichable sur écran ou
ultimement imprimable sous une forme ou une autre. L’édition dite
électronique
pourra se plier à diverses normes ou pratiques
selon les usages qu’on en fera (par exemple : les livres, les revues,
l’accès libre, l’interopérabilité, le catalogage, la, pérennisation, les
tablettes – liseuses, le multimodal, etc.). Bref, ces éditions électroniques
ne contiennent plus uniquement des ensembles de lignes de textes
.
Elles créent des textes en ligne
.
Ce travail d’édition permettra divers types d’accès au contenu textuel.
Comme
Un premier est de type décompositionnel ; le texte édité déconstruit les
formes classiques de la présentation du codex ou du livre connu. Par
exemple, si dans textes édités pour des sites web (voir les sites web
consacrés à ShakespeareThe Cambridge Wittgenstein Archive (http://www.wittgen-cam.ac.uk/).
Un autre type est compositionnel. Ici le texte édité devient agrégation de segments de textes autonomes, qui, par exemple dans
, permettent des recompositions infinies de nouveaux textes qui à leur tour peuvent être ajustés afin de répondre aux divers types de lecteurs. Cessnippets
textospour être diffusés dans les réseaux sociaux par l’intermédiaire de téléphones intelligents. Cela invite évidemment à une multitude de parcours de lecture. Il va sans dire le contenu sémiotique des textes devient alors de plus en plus hybride.
Une des dimensions importantes du travail éditorial classique plus particulièrement de l’édition experte, académique et critique est le sceau d’autorité et de validité qu’il appose un texte sémiotique. En effet, les éditeurs jouent un rôle de garant de la qualité d’un texte par la correction, l’évaluation, la disposition, l’ajout d’appareillage critique, etc. Or, l’édition électronique des textes, ce travail ne se retrouve pas toujours de manière évidente. Certes, on le voit dans l’édition de l’
Bref, comme, le texte numérique édité (Td) modifie à sa manière la dynamique
herméneutique. Les nouvelles formes d’édition comme le dit Gabler, elle
invite au dépassement des frontières qui délimitaient l’édition classique : The digital medium has the potential to develop into
an environment suitable to reintegrate textual criticism into
criticism – and, just a importantly: to ground criticism again in
textual criticism.
De ce fait, le texte édité n’est pas innocent sur le plan herméneutique. Il instaure une nouvelle forme de médiation structurelle, critique et évaluative entre le format du texte et son contenu. La lecture, l’analyse et la compréhension des textes en sont modifiées. Si dans certains cas, elles sont balisées par une édition classique et qu’elle invite à une compréhension proche de l’horizon connu du lecteur et de l’analyste, dans d’autres cas, elles plongent le lecteur dans une boite de Pandore dont l’issu peut être autant une impasse ou un cul-de-sac qu’un nouvel horizon à explorer et découvrir.
Dans la variété des types des textes identifiés jusqu’à maintenant nous pouvons distinguer deux ensembles de textes selon qu’ils donnent ou ne donnent pas accès immédiat au contenu textuel comme objet de lecture et d’analyse.
Le premier ensemble contient les textes électroniques et les textes
numériques qui, bien que porteurs de marques ou de symboles, ne sont pas
comme des textes lisibles et analysables par des humains ; ils ne peuvent
ancrer la compréhension. Le deuxième contient les textes-images, les textes
annotés, les textes dynamiques, les textes édités. Ceux-ci sont
véritablement les textes à lire, à analyser et à
interpréter (T l)
c’est-à-dire dire ils sont des textes signifiants, objets de sémiose et
ultimement de compréhension.
Sur le plan de la lecture, l’expérience perceptuelle de la lecture est modifiée par l’introduction de tout nouveaux facteurs physiques susceptibles d’influencer le parcours visuel. Du nombre, citons notamment la grandeur de l’écran, le lieu, la luminosité, l’angle, le format de l’écran, la polarité, le lissage des caractères, le mode d’affichage de déroulement, le fenêtrage et le mouvement des yeux. À la lumière de la quantité et de l’importance de ces paramètres d’affichage, la lecture d’un même texte sur le moniteur d’un ordinateur de bureau, une tablette ou un portable est susceptible de produire des expériences textuelles différentes.
Comme l’ont montré de nombreuses recherches, la lecture papier, en raison
notamment de la portabilité, durabilité, maniabilité et facilité
d’annotation des livres, continue d’être préférée à la lecture-écran
Si la lecture classique séquentielle convient fort bien aux romans policiers, rien toutefois ne permet de croire que cette forme traditionnelle de lecture textuelle continuera également de prévaloir pour d’autres types de textes. Selon le contexte et les objectifs de lecture, le format textuel numérisé, annoté de liens hypertextuels renvoyant à des définitions, à des explications ainsi qu’à des critiques et commentaires de spécialistes, sera peut-être préféré au format papier traditionnel, ouvrant ainsi la lecture a un parcours textuel plus éclaté. L’impact de ce changement de mode de lecture est bien évident dans le cas d’un ouvrage comme l’
Outre la lecture, l’analyse technique est aussi profondément modifiée par la
numérisation de textes. En effet, le texte à analyser, parce que dynamique,
annoté, édité permet une plus grande diversité d’approches analytiques
assistées par ordinateur que le permettaient celles réalisées
traditionnellement
Enfin, il va sans dire que la numérisation des textes affecte aussi
grandement leur diffusion et leur partage. Certes, l’analyse de l’impact
Jusqu’alors limitée, sous sa forme classique, à l’interprétation des textes
dans un horizon du sujet, de la culture et du savoir, l’herméneutique doit
désormais s’ajuster au contexte numérique, tant à la nouvelle matérialité du
texte qu’aux outils d’assistance et à la nouvelle pratique interprétative
qui lui est liée. De nos jours, l’herméneutique classique ne peut donc se
faire indépendamment d’une herméneutique matérielle. En dépit de cette
nouvelle contrainte, toute démarche de ce genre aboutira néanmoins et
toujours à la création d’un nouveau texte à lire (Tl) et, partant, à l’ajout d’un nouvel élément à la
Au fil de cette analyse, nous avons voulu mieux préciser la nature du texte non
pas numérique
à proprement parler encode le texte par des symboles 0 et 1. Celui-ci, comme
texte, est normalement illisible par des humains ; un second, dit texte
image
, peut être affiché sur écran ou imprimé sur papier et lu en tant
que tel, mais l’analyse y est surtout manuelle
; viennent ensuite le
texte à lire et à analyser. Ainsi,
partant d’un texte source sélectionné parmi une collection de textes, la
numérisation produit non pas une copie unique dite numérique
du texte,
mais bien une véritable galaxie de textes numérisés. Interreliés et organisés
hiérarchiquement, les textes numérisés formant cette galaxie ouvrent ainsi à
des parcours nouveaux de lecture et d’analyse.
Dans une telle perspective, une critique ou une valorisation de la textualité numérisée doit être prudente. Les défauts et les qualités, les solutions et les problèmes, les avantages et les désavantages du texte numérisé ne s’appliquent pas à tous et de la même manière. Chaque format ou type de texte présente sa signature. Et il faut en saisir la forme, l’usage, la portée, la pertinence, pour en souligner les problèmes ou la valeur.
Enfin, la lecture et l’analyse des textes numérisés, quelle qu’en soit la richesse ou la finesse, ne peuvent jamais se faire de manière totalement automatisée, l’ordinateur ne pouvant ici jouer qu’un rôle d’assistance. Même à l’ère numérique, la lecture et l’analyse des textes demeureront une activité humaine. Elles ne peuvent être réduites à un processus intégralement algorithmique. Tout dans le monde n’est pas un modèle complètement computationnel.
Qu’elle soit classique ou matérielle, la pratique herméneutique est
nécessairement interpelée par ces transformations, dans la mesure où elle ne
porte plus sur un texte unique, mais sur une galaxie de textes. Par ailleurs,
l’analyse et l’interprétation textuelles vont même jusqu’à jouer un rôle actif
dans le processus de numérisation en soi, que ce soit au niveau de la mise en
corpus, de la saisie électronique, de l’encodage numérique et l’annotation. À
la lumière de ces transformations, l’activité interprétative se trouve du coup
plongée dans un contexte dynamique radicalement différent du cadre
herméneutique classique, que les thèses sémiotiques de Peirce et discursives de
Foucault permettent de mieux comprendre et modéliser. L’interprétation porte
toujours sur un système de signes canoniquement inscrits dans des puces,
affichés ou imprimés, et elle navigue dans une galaxie de systèmes de signes.
Évidemment, ce nouveau paysage herméneutique n’est pas sans affecter le monde scientifique et culturel. Cette connectivité numérique, intertextuelle, hybride influenceront grandement le savoir des lecteurs et des analystes, leurs connaissances et désirs ainsi que leur langage. En ce sens, la numérisation des textes modifie profondément les fonctions sémiotiques classiques des textes ; elle les enrichit de pratiques rhétoriques originales, informées de nouvelles formes d’affirmation, de conviction, d’organisation et d’argumentation. Cela dit, malgré toutes ces transformations, Hermès veillera au grain.
The digitization of texts is omnipresent in the digital humanities. It seems to present itself only as a modification of the material medium: from text on paper to digital text. But it does more than that. Digitization also affects the text as a semiotic object. The multiple operations of this technology implement interpretative decisions that are not without their effects on the semiotic text; that is to say, the text that offers itself for reading and analysis. In this sense, the digitization of texts is not neutral. It is an important moment of material hermeneutics.
Considering the hermeneutic issues of digital texts.
For articles in languages other than English, DHQ provides an English-language abstract to support searching and discovery, and to enable those not fluent in the article's original language to get a basic understanding of its contents. In many cases, machine translation may be helpful for those seeking more detailed access. While DHQ does not typically have the resources to translate articles in full, we welcome contributions of effort from readers. If you are interested in translating any article into another language, please contact us at editors@digitalhumanities.org and we will be happy to work with you.
l’écrit d’écran