Université de Pau et des Pays de l’Adour

Centre Universitaire de Recherche Scientifique

Diplôme d’études supérieures spécialisées

Traducteur-Documentaliste Scientifique

1996-1997

 

Amélie DUPAS

v

Rapport de stage

Service commun de la documentation
de l’Université Jean Moulin Lyon 3

Le traitement informatique
des documents en caractères non latins :
la solution envisagée par le SCD Lyon 3 et d’autres exemples

 

Ce stage a été effectué au Service commun de la documentation de l’Université Jean Moulin Lyon 3 du 5 mai au 25 juillet 1997, sous la direction de

Frédérique Molliné, directeur du SCD Lyon 3 et de

Jean Bernon, responsable de la Coordination des nouvelles technologies

Université Jean Moulin Lyon 3

Service commun de la documentation

4 cours Albert Thomas

69371 Lyon cedex 08

Téléphone : 04 78 78 79 00

Télécopie : 04 78 78 79 89

Adresse électronique : scd@univ-lyon3.fr

Jean Bernon : bernon.scd@univ-lyon3.fr

Je tiens à remercier toute l’équipe du SCD pour leur accueil, particulièrement Mme Frédérique Molliné et M. Jean Bernon pour le sujet du stage, très intéressant, qui m’a fait découvrir un aspect, inattendu pour moi, du traitement de la documentation.

Je remercie également toutes les personnes qui ont bien voulu me recevoir dans leurs bibliothèques et toutes celles qui ont pris le temps de répondre à mes question au téléphone, je pense tout particulièrement à Sara Yontan et Vincent Hachard (BnF) qui m’ont fourni de nombreux renseignements et documents.

Je n’oublie pas Mme Marie-Annick Cazaux que je remercie spécialement pour la gentillesse avec laquelle elle m’a apporté son aide début avril, quand je me suis retrouvée sans stage.

Résumé

Ce stage effectué au SCD de l’Université Jean Moulin Lyon 3 portait sur le traitement informatique des documents en caractères non latins. Après l’organisation du SCD et son informatisation, la solution adoptée par le SCD pour traiter ses documents est examinée et mise en œuvre. Les solutions adoptées ou envisagées par d’autres bibliothèques en France sont indiquées. Une dernière partie est consacrée à l’étude de solutions nouvelles.

Abstract

This internship at the Libraries Management Department of the University of Lyon III relates to the automated treatment of documents in non-roman characters. This work reports the organization and the installation of the computer system of the Libraries Management Department, the solution chosen by the Department for this documents, and the solutions chosen by other libraries in France. The last part reports the newest solutions studied for the automated treatment of documents in non-roman characters.

Zusammenfassung

Dieses Praktikum am Bibliothekenamt der Universität Lyon III betrifft die EDV-Verarbeitung der mit nicht-lateinischen Schriften geschriebenen Dokumenten. Diese Arbeit berichtet über die Organisation und die Computerisierung des Bibliothekenamtes und über die durch das Bibliothekenamt und andere französische Bibliotheken angewandte Lösungen zur EDV-Verarbeitung dieser Dokumenten. Der letzte Teil ist den neuesten Lösungen gewidmet.

 

Table des matières

Résumé

Table des matières

Abréviations

Introduction

1. Le Service commun de la documentation de l’Université Lyon 3

1.1. L’organisation du SCD

1.2. La Bibliothèque universitaire

1.2.1. La bibliothèque de la Manufacture, section Lettres (Manu-Lettres)

1.2.2. La bibliothèque de la Manufacture, section Droit-AES (BDA)

1.2.3. La bibliothèque Droit-Gestion (BDG)

1.2.4. La bibliothèque Langues-Philosophie (BLP)

1.2.5. La bibliothèque Lettres-Civilisations (BLC)

1.2.6. La bibliothèque Droit-Lettres (Centrale)

1.3. L’informatisation du SCD Lyon 3

1.3.1. La première informatisation (1994)

1.3.2. La deuxième informatisation : SIBER (Système d’Information pour les Bibliothèques d’Etude et de Recherche) (1996-97)

2. Le traitement des ouvrages en caractères non latins à Lyon 3

2.1. Présentation

2.2. Mise en œuvre

2.2.1. Les normes de romanisation

2.2.2. Les diacritiques dans le système Geac/Advance

2.2.3. La rédaction d’un document pour le codage des diacritiques

3. Étude des solutions exploitées par d’autres bibliothèques

3.1. Le fonds chinois de la Bibliothèque Municipale de Lyon

3.2. Le Service des langues orientales (SLO) de la BnF

3.2.1. La BnF

3.2.2. La romanisation au SLO

3.2.3. Le futur système d’information

3.3. Le fonds des langues slaves à la bibliothèque de la Sorbonne

3.4. La Bibliothèque de Documentation Internationale Contemporaine (Université de Paris X, Nanterre) et la bibliothèque de l’Alliance Israélite Universelle

3.4.1. La BDIC

3.4.2. La bibliothèque de l’Alliance Israélite Universelle

3.4.3. Le logiciel Aleph

3.5. La bibliothèque inter-universitaire des Langues Orientales

3.5.1. La BIULO

3.5.2. Les systèmes CJK-OCLC et CJK-RLIN

3.5.2.1. OCLC-CJK

3.5.2.2. RLIN-CJK

4. Vers une solution universelle ?

4.1. La prise de conscience et l'influence d'experts de pays à écriture non latine

4.2. La normalisation des systèmes de transcription

4.3. La normalisation des jeux de caractères

4.3.1. Evolution

4.3.2. Les jeux de caractères à 8 bits : ISO 8859 et ISO 5426

4.3.3. Le codage des idéogrammes,

4.3.3.1. Les codes nationaux

4.3.3.2. CCCII et EACC

4.3.4. Unicode et l'ISO 10646

4.4. Le tri et la récupération des notices

4.5. L’ajustement des standards ISBD et UNIMARC

4.6. La motivation des concepteurs et diffuseurs d’applications informatiques

4.7. Conclusion

Conclusion

Glossaire

Bibliographie

1. Documents papier

2. Documents électroniques

Annexe A : L’organisation du SCD Lyon 3 et du service des nouvelles technologies

Annexe B : Le réseau SIBER

Annexe C : Le fonds en langues étrangères de Lyon 3

Annexe D : Le codage des diacritiques dans le système Geac/Advance

Annexe E : Le format UNIMARC des notices dans la base Agate (fonds chinois de la Bibliothèque Municipale de Lyon)

Annexe F : Les systèmes de romanisation dans la base BN-Opale

Annexe G : Le jeu de caractères latins étendu ISO 5426-1983

Annexe H : Carte des différents jeux de caractères intégrés à Unicode

Annexe I : Les quatre premiers jeux de caractères d’Unicode

Abréviations

AES Administration économique et sociale

AFNOR Association française de normalisation

ANSI American National Standards Institute

ASCII American Standard Code for Information Interchange

BDA Bibliothèque de la Manufacture, section Droit-AES

BDG Bibliothèque Droit-Gestion1

BDIC Bibliothèque de Documentation Internationale Contemporaine

BDL Bibliothèque Droit-Lettres1

BIU Bibliothèque inter-universitaire

BLC Bibliothèque Lettres-Civilisations1

BLP Bibliothèque Langues-Philosophie1

BN Bibliothèque Nationale

BnF Bibliothèque nationale de France

BU Bibliothèque universitaire

CAPES Certificat d’aptitude au professorat de l’enseignement du second degré

CCCII Chinese Character Code for Information Interchange (code de caractères chinois pour l’échange d’information)

CJK Chinese, Japanese, Korean (chinois, japonais, coréen)

DIS Draft International Standards (projet de norme internationale)

EACC East Asian Character Code (code de caractères est-asiatiques)

IAE Institut d’administration et de gestion des entreprises

IEC International Electrotechnical Commission (Commission électrotechnique internationale)

IFLA International Federation of Library Associations (Fédération internationale des associations de bibliothèques)

IPA International Phonetic Alphabet (alphabet phonétique international)

ISO Organisation internationale de normalisation (International Organisation for Standardization)

ISO/TR ISO Technical Report (rapport technique ISO)

JIS Japanese Industrial Standard (Norme industrielle japonaise)

OCLC Online Computer Library Center

OPAC On line public access catalogue (catalogue public à accès en ligne)

RLIN Research Library Information Network

SCD Service commun de la documentation

SIBER Système d’Information pour les Bibliothèques d’étude et de Recherche

UCS Universal Character Set (jeu de caractères universel)

 

Introduction

L’objet de ce stage, effectué au Service commun de la documentation de l’Université Jean Moulin Lyon 3, dans le cadre du DESS Traduction et Documentation Scientifiques de l’Université de Pau et des Pays de l’Adour, est le traitement informatique des documents en caractères non latins. En effet, l’Université Jean Moulin Lyon 3 possède environ 9000 ouvrages en différentes langues non latines telles que le russe, l’arabe, l’hébreu, le chinois, etc.

Comment intégrer ce type de documents à un catalogue à l’heure de l’informatisation des bibliothèques ?

C’est à cette question, tout à fait nouvelle pour moi, que j’ai tenté de répondre en visitant différentes bibliothèques, en m’entretenant avec des responsables et en menant un recherche bibliographique.

Le Service commun de la documentation de l’Université Jean Moulin Lyon 3 envisage une solution originale compatible avec son équipement informatique, à savoir cataloguer les ouvrages en transcrivant les caractères originaux en caractères latins et lier par un lien hypertexte l’image numérisée de la page de titre et du sommaire à la notice de l’ouvrage. J’ai donc également rédigé un document destiné à expliciter la saisie des diacritiques en relation avec les normes de translittération, afin de faciliter le travail des catalogueurs.

Le Service commun de la documentation
de l’Université Lyon 3

L’Université Jean Moulin Lyon 3 a été créée en 1973. Elle se compose de quatre facultés (Droit, Langues, Lettres et Civilisations, Philosophie), de l’Institut d’administration des entreprises (IAE) et de l’Institut universitaire de technologie (IUT). Elle s’est dotée d’un Service commun de la documentation au 1er septembre 1990. Il se compose de la BU (Bibliothèque universitaire) et des BA (Bibliothèques associées ou bibliothèques de recherche). Les bibliothèques de facultés et de l’IAE ont été intégrées à la section de BIU attribuée à Lyon 3. Toutes les bibliothèques non intégrées sont dites associées. Leurs ressources et collections sont distinctes de la BU. Un contrat de coopération a également été passé avec la bibliothèque de l’annexe universitaire de Bourg-en-Bresse.

A l’origine, les locaux de l’Université étaient répartis sur deux sites : le site des Quais (quai Claude Bernard) et le site de La Doua (campus des sciences). Ce dernier a été libéré en 1992 lorsque l’Université Lyon 3 a commencé à s’installer dans l’ancienne Manufacture des Tabacs mise à la disposition de Lyon 3 par la Communauté Urbaine de Lyon et en cours de réhabilitation par tranches (1990-98) dans le cadre d’Université 2000.

Le projet de réhabilitation prévoit de réserver 10 000 m2 à la bibliothèque, répartis entre un bâtiment neuf de 5000 m2 ouvert le 12 novembre 1996 et une aile à réhabiliter de 5000 m2, ces deux parties devant communiquer en L. La Bibliothèque Universitaire de Lyon 3 (de même que les locaux d’enseignement) sera alors répartie sur deux sites : « les Quais » avec la Bibliothèque Droit-Gestion et « la Manu » qui regroupera les fonds de 1er et 2ème cycles.

L’organisation du SCD

A la suite de l’ouverture de la Bibliothèque de la Manufacture, le Service commun de la documentation a été restructuré en janvier 1997 et est maintenant divisé en six secteurs (annexe A) :

la Bibliothèque de la Manufacture, dirigée par Marie-Noëlle Laroux,

la Bibliothèque Droit-Gestion, dirigée par Carole Letrouit,

la Chaîne du livre et du document, service qui comprend en particulier le service central d’acquisition, dirigé par Marie-Lise Krumenaeker,

la Coordination des nouvelles technologies, service dirigé par Jean Bernon,

la Gestion administrative et financière, service dirigé par Geneviève Maurice,

le Service de rétroconversion des Bibliothèques Associées (bibliothèques de recherche), dirigé par Béatrice Sudul, chargée de mission à cet effet.

Les responsables des cinq premiers secteurs ainsi que Mme Molliné, directeur du SCD, forment l’équipe de direction de SCD.

La Bibliothèque universitaire

Elle se compose des six bibliothèques suivantes :

La bibliothèque de la Manufacture, section Lettres (Manu-Lettres)

Dédiée à l’enseignement des Lettres, Langues et Sciences Humaines, cette bibliothèque, créée de toutes pièces pour le 1er cycle et installée dans le nouveau bâtiment construit sur le site de la Manufacture, a été ouverte au public le 12 novembre 1996. Cette construction allie transparence et flexibilité. Elle a été conçue pour recevoir une bibliothèque moderne qui a intégré les nouvelles technologies. La Manu-Lettres rassemblera à terme tous les fonds correspondant aux disciplines littéraires.

La bibliothèque de la Manufacture, section Droit-AES (BDA)

Cette bibliothèque, consacrée à l’enseignement de 1er cycle de Droit et d’AES, était localisée sur le campus de La Doua. Elle a déménagé sur le site de la Manufacture en même temps que le premier cycle de Droit et d’AES, lors de l’ouverture de la première tranche (1992). Installée dans des locaux provisoires, elle emménagera, après la deuxième tranche de travaux, dans l’aile rénovée qui communiquera avec le bâtiment neuf de la section Lettres. Les enseignements de second cycle seront alors implantés sur le campus. La Bibliothèque de la Manufacture servira alors les 1er et 2ème cycles.

La bibliothèque Droit-Gestion (BDG)

Créée en 1988 dans le dôme du bâtiment de l’Université Lyon 3 situé quai Claude Bernard, tout de suite informatisée, cette bibliothèque a été intégrée en 1991. Elle a pour objectif de devenir la bibliothèque de 3ème cycle et de recherche de la Faculté de Droit et de l’IAE. Les ouvrages de 2ème cycle, jusqu'à présent disponibles là, sont progressivement déplacés à BDA, le frein à ce déplacement étant le fait que l’enseignement correspondant est toujours dispensé sur le site des quais.

La bibliothèque Langues-Philosophie (BLP)

Cette bibliothèque, petite par sa surface, née de la réunion des bibliothèques de la Faculté des Langues et de celle de Philosophie est à l’étroit dans ses locaux et doit déménager à la Manufacture. Elle possède un fonds d’environ 9000 ouvrages en caractères non latins (russe, arabe, hébreu, chinois, etc.).

La bibliothèque Lettres-Civilisations (BLC)

Cette bibliothèque possède des fonds d’histoire, de géographie et s’est progressivement enrichie d’un fonds sur la francophonie. Elle constituait la bibliothèque de la Faculté des Lettres et Civilisations. Elle a été intégrée au SCD en 1991. Elle est en particulier dédiée au 2ème cycle et réserve une salle à la préparation des concours (CAPES, agrégation) pour les étudiants de Lyon 2 et Lyon 3. Elle doit déménager à la Manufacture.

La bibliothèque Droit-Lettres (Centrale)

Cette bibliothèque a un statut tout à fait à part. Créée en 1896 à la réunion en Université des facultés lyonnaises, cette bibliothèque possède un fonds très riche et très important, ainsi que de nombreux livres anciens et pièces rares. Elle constituait la section Droit-Lettres de la bibliothèque inter-universitaire de Lyon et est toujours une bibliothèque de recherche (très important fonds de périodiques). Son statut a changé en 1990 à la création des SCD et une convention répartit les fonds, les locaux et le personnel entre les deux universités Lyon 2 et Lyon 3. Depuis janvier 1997, elle est dirigée par un directeur placé sous l’autorité du recteur.

L’informatisation du SCD Lyon 3

La première informatisation (1994)

Lors de la première phase d’informatisation, réalisée en contrat avec l’Etat, il s’agissait d’informatiser les fonctions documentaires de la BU et d’installer un serveur de cédéroms sur le réseau de l’université.

Le réseau de cédéroms a été implanté dès juillet 1993 sur le site des quais (BDG et quelques laboratoires de l’IAE et de la Faculté de Droit). Il a ensuite été déployé aux autres bibliothèques du site, puis à celui de la Manufacture et enfin à Bourg-en-Bresse.

Le système intégré Geac/Advance a été choisi pour constituer le catalogue et gérer les fonctions documentaires telles que le prêt, les acquisitions, le bulletinage. Les fichiers informatiques existants ont été rétroconvertis pour constituer la base bibliographique. Elle s’enrichit par récupération de notices BN-Opale qui écrasent les notices succinctes créées lors des acquisitions.

Les utilisateurs ont ainsi accès depuis 1994 à l’identification, la localisation et la disponibilité des ouvrages grâce à des postes installés sur les trois sites.

La rétroconversion des fonds des bibliothèques associées (environ 30), amorcée en 1995, est toujours en cours.

Enfin, en 1995, des postes d’accès à Internet ont été implantés dans les bibliothèques, en accès semi-direct.

Il existait donc trois types de postes distincts pour accéder aux cédéroms, au catalogue et à Internet.

La deuxième informatisation : SIBER (Système d’Information pour les Bibliothèques d’Etude et de Recherche) (1996-97)

La réflexion menée dans le cadre de la réorganisation du SCD Lyon 3 autour de l’aménagement du site de la Manufacture a révélé la confusion possible pour les usagers concernant l’accès à ces trois types de gisements documentaires (base bibliographique, banque de données, documents électroniques).

Le même souci de transparence et de flexibilité à la base de la réflexion architecturale pour le nouveau bâtiment du site de la Manufacture a conduit l’équipe du SCD à envisager un système d’accès informatisé multisupport-multimédia. Ce projet a été réalisé en partenariat avec la société Archimed et a été nommé Système d’information pour les bibliothèques d’étude et de recherche (SIBER).

Pour l’utilisateur, il s’agit d’une interface unique permettant l’accès à l’ensemble des fonctions et des services. L’accès aux trois modules que sont le catalogue, le réseau de cédéroms et Internet est totalement transparent.

Articulé autour du noyau documentaire géré par le serveur Geac/Advance, ce système, d’une grande complexité technique, s’organise autour des produits Archimed en faisant coexister en réseau plusieurs serveurs hétérogènes. Ces produits sont :

Book-Line. C’est un OPAC multimédia. Il permet de lier aux notices bibliographiques des objets de différente nature, par exemple une image numérisée, un enregistrement sonore, un film vidéo, un cédérom, un site Internet, par des liens hypertextes définis par l’administrateur. Chaque usager peut consulter son « album » et dispose d’un bloc note. Il peut ainsi enregistrer des résultats de recherche, vérifier ses emprunts et pourra, à l’avenir, réserver des documents et suggérer des acquisitions. De son côté, l’administrateur peut paramétrer les niveaux de sécurités, les droits des usagers, éditer des statistiques, etc.

CD-Line. C’est un réseau de cédéroms muni d’une interface conviviale et sécurisée. L’administrateur peut gérer les titres, les mises à jour, les droits en fonction des licences, etc. Un premier écran propose un accès thématique, un deuxième écran affiche les titres des cédéroms du thème choisi et permet de lancer la consultation.

Archimed Internet Explorer. Cette interface permet d’offrir un accès limité à Internet. L’administrateur sélectionne les sites web qui seront accessibles ; au SCD Lyon 3, le choix a été effectué par l’équipe de coordination des nouvelles technologies en accord avec les responsables des différentes bibliothèques en fonction des domaines d’enseignement.

Les modules réservés à l’administrateur.

Web-Line permet de diffuser le catalogue sur Internet en personnalisant l’interface de consultation et en intégrant les fonctions de Book-Line (en cours de réalisation).

Digi-Line est une station de numérisation qui permet au SCD d’être autonome dans sa politique de numérisation.

Creative-Line permet de personnaliser les différents modules en créant des documents multimédia.

Des postes d’accès à SIBER ont été installés sur les trois sites (annexe B).

Le traitement des ouvrages en caractères non latins à Lyon 3

Présentation

Le fonds d’environ 9000 ouvrages recensés en caractères non latins (voir annexe C) de l’université Lyon 3 a été constitué essentiellement à partir de dons et d’échanges. Les acquisitions ne sont pas très nombreuses. Elle concernent essentiellement le russe, l’arabe, le chinois et le japonais.

Le problème de l’intégration de ces ouvrages au catalogue est longtemps resté en suspens. Jusqu’à présent, ils sont catalogués sur fiches papier lorsque quelqu’un de compétent dans la langue est trouvé pour effectuer cette tâche. La fiche comporte éventuellement la romanisation. Une personne du service, d’origine russe, a été chargée du cataloguer les ouvrages en langues slaves.

Comme on l’a vu précédemment, le SCD s’est doté d’un logiciel intégré de documentation (Geac/Advance) et d’un système multimédia (Book-line, etc. de la société Archimed).

Les responsables du SCD ont donc imaginé une solution adaptée aux outils informatiques dont ils disposent pour que ces ouvrages soient enfin mentionnés dans le catalogue : cataloguer les ouvrages en transcrivant les caractères originaux en caractères latins et lier par un lien hypertexte l’image numérisée de la page de titre et du sommaire à la notice de l’ouvrage.

Le système Geac/Advance est paramétré pour utiliser le jeu de caractères latins étendu ISO 5426 (voir page * et annexe G). Il n’est donc pas possible d’utiliser d’autres caractères que ceux prévus par le jeu ISO 5426 (pour les notices bibliographiques), c’est-à-dire les caractères utilisés en français, quelques lettres spéciales et des signes diacritiques. La solution de la romanisation s’est donc imposée. Cette solution étant loin d’être idéale, la fonctionnalité multimédia du système d’information permet de compléter la notice romanisée par l’image numérisée de la page de titre et du sommaire. Le lecteur pourra ainsi vérifier si la notice qu’il a reçu en réponse à son interrogation correspond à son attente.

L’avantage de cette solution est d’être adaptée aux moyens informatiques et de les utiliser pleinement. Les images numérisées permettent d’avoir une idée précise du contenu du document. Cependant, une recherche sur les caractères originaux est impossible puisque le texte représenté sur les images ne peut pas être indexé.

La numérisation des pages de titre et des sommaires avec le module Digi-Line est l’objet d’une étude menée par une autre stagiaire. Les liens hypertexte seront réalisés par l’équipe de Coordination des nouvelles technologies, responsable de la mise en place de SIBER.

Mon rôle était de rassembler les informations concernant la translittération ou la transcription des caractères non latins et de rédiger un document destiné aux catalogueurs.

Mise en œuvre

Les normes de romanisation

Quelques définitions :

ð La translittération est l’opération qui consiste à représenter les caractères d’une écriture alphabétique ou syllabique par les caractères d’un alphabet de conversion. En principe cette conversion doit se faire caractère par caractère ; chaque caractère du système graphique converti est rendu par un caractère et un seul de l’alphabet de conversion, ce qui est la façon la plus simple d’assurer la réversibilité complète et sans ambiguïté de l’alphabet de conversion dans le système converti.

ð La retranslittération est l’opération qui consiste à convertir les caractères d’un alphabet de conversion dans le système d’écriture converti. C’est l’opération exactement inverse de la translittération. Elle s’exécute en appliquant les règles d’un système de translittération en sens inverse, de façon à reconstituer le texte translittéré sous sa forme originale.

ð La transcription est l’opération visant à noter la prononciation d’une langue donnée au moyen du système de signes d’une langue de conversion. Un système de transcription repose nécessairement sur les conventions orthographiques de la langue de conversion. La transcription n’est pas strictement réversible. Elle peut être utilisée pour la conversion de tous les systèmes d’écriture. Elle est la seule méthode utilisable pour les systèmes non entièrement alphabétique ou syllabiques et pour toutes les écritures idéophonographiques, comme le chinois.

ð La romanisation est la conversion d’écritures non latines dans l’alphabet latin. Pour celle-ci, on peut utiliser soit la translittération, soit la transcription, soit un mélange des deux méthodes, suivant la nature du système converti.

D’après une recherche dans le catalogue de l’Afnor, disponible sur son serveur web, cette organisation publie :

5 normes homologuées rassemblées dans un recueil de normes :

ISO 9:1995 (F) Translittération des caractères cyrilliques,

ISO 233-2:1993 (F) Translittération des caractères arabes,

ISO 259-2:1995 (F) Translittération des caractères hébraïques,

ISO 3602:1990 (F) Romanisation du japonais (écriture en kana),

ISO 7098:1992 (F) Romanisation du chinois,

1 projet de norme de translittération des caractères grecs Z 44-004 de 1992,

1 fascicule de documentation de translittération de l’écriture coréenne FD ISO TR 11941:1997 (rapport technique).

L’interrogation du catalogue de l’ISO, disponible sur son serveur web, permet de constater que :

Le projet concernant les caractères grecs a été homologué par l’ISO (ISO 843:1997). Le texte n’est disponible qu’en anglais, mais l’Afnor devrait bientôt valider ce texte et publier la norme française.

Il existe d’autres normes ou projets de norme :

ISO/DIS 233-3 translittération du persan (projet),

ISO 9984:1996 translittération des caractères géorgiens,

ISO 9985:1996 translittération des caractères arméniens,

ISO/DIS 11940 translittération du thaï (projet).

On constate qu’il existe des normes de translittération et de transcription pour les langues en caractères non latins les plus répandues. Pour des langues moins courantes, telles que le bengali, l’hindi, le persan, les grandes bibliothèques, par exemple la Bibliothèque du Congrès ou la BnF, ont des systèmes propres.

La BnF met à disposition la liste des systèmes de romanisation utilisés dans la base BN-Opale (voir annexe F et page *).

Les diacritiques dans le système Geac/Advance

Les systèmes de romanisation utilisent les diacritiques ainsi que les lettres spéciales du jeu de caractères latins étendus ISO 5426 (voir page * et annexe G). Le système Geac/Advance fonctionnant avec ce jeu de caractères permet de les saisir. Mais l’émulation des terminaux de sortie ne permet d’afficher ou d’imprimer que les caractères du jeu ISO 646 (ASCII).

Pour faciliter la saisie des caractères et des diacritiques non accessibles au clavier français, le système Geac/Advance a prévu des codes mnémoniques de la forme &**.

Il est possible d’accéder à la table des codes des diacritiques et de la modifier. Chaque champ de cette table comporte une description du caractère, son code ISO 5426 hexadécimal, le code ASCII hexadécimal du caractère d’affichage (s’il y a lieu) et le code ASCII hexadécimal du caractère de saisie (mnémonique ou code ASCII).

J’ai donc vérifié et complété cette table :

signes des colonnes 2 et 3 : seuls quelques signes sont affichables, pour les autres, il n’y a pas d’affichage,

diacritiques des colonnes 4 et 5 : les lettres accentuées disponibles à l’affichage sont définies à part, chacune dans un champ, et le code de saisie et celui d’affichage sont identiques ; sur les autres lettres, les diacritiques ne sont pas affichés,

lettres des colonnes 6 et 7 : si la lettre n’est pas définie dans la table ASCII, le caractère d’affichage est choisi le plus proche possible (Œ sera affiché OE, Ð sera affiché D, mais Þ ne sera pas affiché).

Exemples :

Caractère

à

A-E liés

accent aigu

Code ISO 5426

C1,61

E1

C2

Affichage (ASCII)

85

92

 
Saisie (ASCII)

85

26,41,45

26,41,47

Des essais de notices ont permis de constater les erreurs dans la table, elles ont pu être corrigées. D’autre part, il semble que Book-Line permette l’affichage des caractères latins étendus, mais la table de codage doit être vérifiée puisque quelques erreurs apparaissent.

La rédaction d’un document pour le codage des diacritiques

Après une courte introduction et quelques exemples, un tableau général indique :

le numéro du signe dans le tableau du jeu de caractères ISO 5426,

sa description,

son code mnémonique,

sa représentation,

le caractère affiché, s’il existe.

Un deuxième tableau indique, langue par langue, les signes utilisés en reprenant le contenu du tableau général.

Ce document constitue l’annexe D.

Étude des solutions exploitées par d’autres bibliothèques

Le fonds chinois de la Bibliothèque Municipale de Lyon

Rencontre avec M. Jean-Louis Boully, le 16 mai 1997.

Adresse : 30, boulevard Vivier Merle, 69431 Lyon cedex.

Le fonds chinois de la Bibliothèque Municipale de Lyon est catalogué à part sur le logiciel Agate en utilisant une couche logicielle qui permet de saisir aussi bien des caractères latins que des caractères chinois par basculement entre les deux modes par une séquence d’échappement. Ce logiciel « Chinese Star » permet d’intégrer des caractères chinois dans différents types de logiciels : traitement de texte (p. ex. Word pour Windows), logiciel de recherche sur Internet (p. ex. Netscape), logiciel de catalogage Agate.

ð Le logiciel Chinese Star permet de saisir les caractères chinois de différentes façons : par la transcription phonétique puis choix du caractère parmi plusieurs propositions, par des tables de caractères, par des codes numériques, par décomposition graphique des caractères.

Ce logiciel, un des plus répandu en Chine, utilise seulement la norme de codage GB (voir page *). Il permet de saisir 15000 caractères, aussi bien du chinois traditionnel que du chinois simplifié.

ð Le logiciel de catalogage Agate équipe surtout des petites et moyennes bibliothèques municipales. Il correspond à la norme Unimarc qui permet le catalogage en caractères non latins. Le logiciel a été paramétré pour doubler les champs. Les notices contiennent donc les caractères chinois originaux et la transcription. Les deux types de données sont indexées. Les fichiers autorité contiennent à la fois les données transcrites et les éléments en caractères originaux. Il est donc possible d’effectuer des recherches par les caractères chinois aussi bien que par la transcription.

L’annexe E présente, avec l’aimable autorisation de M. Boully, le format UNIMARC des notices.

Le Service des langues orientales (SLO) de la BnF

Rencontre avec Mme Marie Avril (Directeur du SLO), Mme Salima Boukris (SLO/arabe), Mme Kill-Ja Song (SLO/coréen), le 4 juin 1997. Contacts téléphoniques avec Mme Sara Yontan (SLO/turc et déléguée à la normalisation) et M. Vincent Hachard (chef du service Littérature française, Département Art et Littérature).

Adresse : 11, quai François Mauriac, 75706 Paris cedex 13.

La BnF

La BnF est née de la fusion de la Bibliothèque Nationale et de la Bibliothèque de France.

A la BN, les documents en caractères non latins étaient catalogués sur fiches papier en caractères originaux par un spécialiste de la langue. Seuls les ouvrages reçus au titre du dépôt légal, les périodiques étrangers, les partitions musicales (c’est-à-dire les documents ne relevant pas du SLO) étaient saisis dans la base BN-Opale romanisés. Cette base, créée en 1983, contient tous les ouvrages en caractères latins, y compris les langues riches en diacritiques telles que le vietnamien. Les terminaux ont été configurés pour afficher ces signes.

L’ouverture de salles en libre accès à la BnF a nécessité l’introduction de tous les documents, même en caractères non latins, dans le catalogue pour faciliter leur accès. En l’absence de la possibilité de saisir les caractères originaux, la décision de cataloguer les ouvrages du Service des littératures orientales (SLO) en translittération ou romanisation sur le système informatique Geac/Ivry (ou Geac-Libre Accès) a été prise en janvier 1996. Les zones romanisées des notices sont doublées pour avoir plus tard en parallèle les zones en caractères originaux et leur romanisation.

Cette décision avait été retardée dans l’espoir d’obtenir directement un système de catalogage informatisé de ces documents avec les caractères d’origine. Un tel système ne verra le jour à la BnF que (au mieux) dans trois ans.

La romanisation au SLO

Pour toutes les langues alphabétiques, des normes ou des systèmes de translittération réversibles ont été choisis pour pouvoir retranslittérer automatiquement les notices en caractères originaux lorsque le nouveau système informatique sera mis en place. Pour les langues non alphabétiques (romanisation non réversible), le catalogage manuel en caractères originaux est poursuivi.

Le module de catalogage a été muni d’une émulation qui permet d’afficher tous les signes diacritiques. Le catalogue sur cédérom n’affiche pour l’instant que quelques signes diacritiques, mais chaque nouvelle version présente des améliorations.

L’annexe F donne la liste des systèmes de romanisation utilisés dans la base BN-Opale.

Pour les caractères cyrilliques, arabes et hébraïques, la norme ISO est utilisée, de même que pour le chinois. Pour le coréen, la BN a adopté un système de translittération réversible propre.

Pour le grec, le projet ISO/DIS 843.3 (1995) a été adopté, ce système vient d’être homologué comme norme. Un programme de recherche appliqué HELEN, mené par la Commission Européenne (DG XIII) de 1993 à 1995, a développé un programme de conversion des caractères grecs en caractères latins et réciproquement dans des notices bibliographiques, et également pour promouvoir un système de translittération réversible.

Pour le persan, la BN a adopté un système propre qui ne correspond pas au projet ISO/DIS 233-3. En ce qui concerne le japonais, la BN utilise, dans BN-Opale, le système Hepburn, plus facile et plus logique que le système de la norme ISO 3602, et utilisé par les japonais.

Le futur système d’information

En 1999, les deux bases actuelles, BN-Opale et Geac/LA seront reversées dans une base unique, le SI (système d’information). Le catalogage des documents en caractères non latins sera poursuivi en romanisation.

Dans un deuxième temps, les caractères non latins seront intégrés au système et le catalogage dans la base SI sera fait en caractères originaux et doublé par la romanisation, selon un calendrier de priorités : 1° alphabets arabe, cyrillique, hébraïque, grec ; 2° chinois, japonais, coréen ; 3° autres langues. Une des zones romanisées (doublées) sera retranslittérée automatiquement pour les notices translittérées et retranscrite manuellement pour les notices transcrites non réversiblement.

Le futur SI fonctionnera avec le système Unicode (voir page *) et les notices contiendront les données en caractères originaux et romanisées. Il utilisera le format Intermarc intégré pour faciliter le codage des langues, zone par zone.

Le fonds des langues slaves à la bibliothèque de la Sorbonne

Rencontre avec Mme Françoise Richard, le 6 juin 1997.

Adresse : 47, rue des Écoles, 75230 Paris cedex 05 ; tél. 01 40 46 30 27.

Les ouvrages en langues slaves sont catalogués par translittération des caractères cyrilliques selon la norme ISO 9:1986 (identique à la norme ISO 9:1995 pour les langues slaves), depuis 1986, sur le réseau SIBIL.

Un problème n’a pas été résolu : les signes diacritiques sont codés mais n’apparaissent pas dans le catalogue. Ils sont cependant rétablis sur les produits (micro-fiches).

L’objectif de la bibliothèque est la mise en place d’un système informatisé intégré (actuellement, elle fonctionne avec deux systèmes différents pour le catalogage et pour le prêt), puis éventuellement l’acquisition d’un logiciel permettant le traitement des caractères originaux (par exemple Aleph).

La Bibliothèque de Documentation Internationale Contemporaine (Université de Paris X, Nanterre) et la bibliothèque de l’Alliance Israélite Universelle

La BDIC

Contact : Mme Irène Paillard (conservateur, projet Aleph)

Adresse : 6, allée de l’Université, 92001 Nanterre cedex.

Cette bibliothèque de 3ème cycle et de recherche possède un important fonds de périodiques et d’ouvrages en différentes langues slaves (en particulier le russe). Elle a choisi le logiciel intégré de gestion de bibliothèques Aleph qui permet de saisir ces caractères pour permettre les échanges avec les bibliothèques américaines parce qu’elles n’utilisent pas les systèmes de translittération ISO.

Ce logiciel est en cours d’installation. Il fonctionnera en tant que base parallèle, réservée aux documents en caractères cyrilliques.

La bibliothèque de l’Alliance Israélite Universelle

Contact : M. Jean-Claude Kuperminc (Directeur).

Adresse : 45, rue La Bruyère, 75425 Paris cedex 09.

Spécialisée dans le judaïsme et l’histoire juive, cette bibliothèque possède environ 120000 ouvrages. Elle utilise également le système Aleph, mais avec les caractères hébraïques. 2500 notices ont déjà été rétroconverties à partir de fiches papier. Pour faciliter ce travail, il existe des cédéroms qui permettent de récupérer des notices bibliographiques d’ouvrages en hébreu au format utilisé par Aleph.

Les modules de prêt et d’OPAC ne sont pas encore utilisés en raison du faible nombre de volumes entrés dans la base.

Le logiciel Aleph

Aleph est un logiciel intégré de gestion documentaire développé par la Bibliothèque Universitaire de Jérusalem. Très répandu, il est utilisé par toutes les BU en Israël et la plupart des bibliothèques juives aux Etats-Unis, et fait son entrée en France. En Europe, il est particulièrement utilisé au Danemark, en Hongrie et en Italie.

Le logiciel peut intégrer actuellement 5 jeux de caractères différents (latin, cyrillique, grec, arabe et hébraïque) et peut donc gérer les deux directions (de gauche à droite et de droite à gauche). L’utilisation d’Unicode est envisagée dès que la norme sera validée. Le système permettra alors tous les caractères prévus, y compris le groupe CJK (voir page *).

La bibliothèque inter-universitaire des Langues Orientales

La BIULO

Contact : Mme Nelly Guillaume (directrice) et Mme Cristina Cramerotti (conservatrice, projet CJK)

Adresse : 4, rue de Lille, 75007 Paris.

Cette bibliothèque possède 500 000 ouvrages dont 85 % en langues étrangères (anglais, russe, arabe, turc, chinois, japonais, etc.) et 80 langues sont enseignées à l’Institut des langues orientales.

La bibliothèque fait partie du réseau OCLC. Elle constitue un pôle associé de la BnF pour les langues rares d’Extrême Orient (hindi, bengali, tamoul, tibétain, indonésien, ourdou et thaï). La partie de son fonds correspondant à ces langues est translittérée dans le catalogue. Pour le reste, le catalogue sur fiches est maintenu (caractères originaux). Le logiciel de traitement de texte Unitype permet d’imprimer les fiches et les catalogues.

La bibliothèque envisage l’acquisition du module CJK d’OCLC.

Les systèmes CJK-OCLC et CJK-RLIN

Les réseaux OCLC et RLIN proposent tous les deux des systèmes pour le traitement des documents en langues idéographiques.

OCLC-CJK

Cet outil permet le catalogage de documents en langues idéographiques, en particulier le chinois, le japonais et le coréen. Il permet en plus d'accéder en ligne à WorldCat, le catalogue OCLC complet, et au catalogage partagé. Il inclut également un système qui transforme la romanisation Pinyin en romanisation Wade-Giles.

Les avantages sont un clavier normal, cinq méthodes pour générer les caractères (phonétiques et graphiques), un éditeur de texte (fonctions copier-coller). Le principal inconvénient est l'absence, dans le système, de la possibilité de gérer les langues alphabétiques non latines.

La prochaine version du système fonctionnera seulement sous Windows 95 et Windows NT.

En janvier 1994, la base CJK contenait 769 000 notices dont 41,5 % de documents chinois, 49,5 % de documents japonais et 9,0 % de documents coréens. En janvier 1997, elle en contient 1,415 millions et en avril 1997 1,455 millions dont 42,85 % de documents chinois, 48,9 % de documents japonais, 8,0 % de documents coréen et 0,25 % de documents en d'autres langues.

RLIN-CJK

RLIN a proposé dès 1983 un système de saisie de caractères idéographiques sur son réseau. Cette application nécessite un terminal spécial muni d'un clavier spécialisé. Les catalogueurs doivent posséder une très bonne connaissance des caractères idéographiques et suivre une longue formation au système.

La nouvelle version des terminaux RLIN pour Windows permet tous les jeux de caractères des langues JACKPHY (japonais, arabe, chinois, coréen, persan, hébreu, yiddish + caractères cyrilliques).

L'inconvénient principal de cette application est d’avoir besoin de terminaux spécifiques (sauf pour la version sous Windows), mais son avantage est de rassembler en plus des langues CJK, les langues alphabétiques à caractères non latins.

La base RLIN contient à peu près autant de notices de documents en japonais et en coréen que la base OCLC, mais plus en chinois.

Le système de codage des caractères est commun aux deux réseaux, il s'agit du système EACC (voir page *). Cela permet l'échange de notices entre ces deux réseaux, des accords existant entre eux.

Vers une solution universelle ?

L'IFLA se penche depuis un certain temps déjà sur le problème des documents en caractères non latins. Elle a organisé dès 1986 une pré-conférence à Tokyo sur ce thème. Sept ans plus tard, en 1993, une deuxième conférence, organisée à Madrid en marge du 59ème congrès de l'IFLA à Barcelone a fait le point sur les progrès réalisés et ceux restant à faire.

Six axes problématiques ou de réflexion avaient été identifiés.

La prise de conscience et l'influence d'experts de pays à écriture non latine

La participation d'experts de ces pays commence à augmenter au sein des comités de normalisation et instances influentes, en particulier ceux des pays CJK. L'UNESCO et l'IFLA ont mis en place, à la fin des années 1980, un programme commun pour favoriser la bibliothéconomie dans les pays du Tiers-monde.

La normalisation des systèmes de transcription

Ces dix dernières années, un grand nombre de normes de translittération ou de transcription ont été homologuées (voir page *) grâce à la participation de spécialistes des pays concernés. La difficulté est maintenant l'application de ces systèmes, en général non phonétiques, donc difficilement lisibles pour les spécialistes des langues concernées. Une autre difficulté est l'utilisation de nombreux diacritiques dans les systèmes de romanisation puisque les jeux de caractères utilisés ne permettent généralement pas de les afficher tous.

L'obstacle le plus important est sans doute les problèmes posés par les changements de systèmes de romanisation pour les bibliothèques, en particulier pour récupérer les notices et localiser les documents. Par exemple, OCLC a dû incorporer à son système un programme de conversion entre les deux systèmes de romanisation du chinois, le pinyin récemment introduit et le système Wade-Giles précédemment utilisé.

La normalisation des jeux de caractères

Evolution

La première méthode de codage acceptée était le BCD (Binary Coded Decimal, décimal codé binaire) à 6 bits, largement utilisé autour des années 1960. Il comportait 64 caractères (A-Z, 0-9 et 28 symboles spéciaux). Limité, ce système a été remplacé en 1965 par un système codé sur 7 bits, le code ASCII, qui a été certifié par l'ANSI en 1977, puis par l'ISO et dont la version internationale est la norme ISO 646.

Le code ASCII est très largement insuffisant puisque l'anglais est la seule langue qui puisse être écrite avec ce code. Des systèmes à 8 bits ont donc été développés. Pouvant coder 256 caractères, ils sont bien adaptés aux langues alphabétiques et peuvent être utilisés pour plusieurs langues à caractères voisins. Ils ne permettent pourtant pas de coder les idéogrammes. Au Japon, à Taïwan, en Chine, différents codes ont été développés, sur 16 ou 24 bits. La solution est donc de se mettre d'accord sur un jeu de caractères universel.

Les jeux de caractères à 8 bits : ISO 8859 et ISO 5426

L'ISO 8859 code des jeux de caractères sur 8 bits (1 octet) pour écrire les langues européennes. Cette norme en dix parties prévoit les caractères latins accentués et un nombre limité de caractères cyrilliques, arabes, grecs et hébraïques.

Partie 1 : caractères latins (langues d'Europe de l'Ouest)
Partie 2 : caractères latins (langues d'Europe de l'Est)
Partie 3 : caractères latins (langues d'Europe du Sud)
Partie 4 : caractères latins (langues d'Europe du Nord)
Partie 5 : caractères latins + cyrilliques  
Partie 6 : caractères latins + arabes  
Partie 7 : caractères latins + grecs  
Partie 8 : caractères latins + hébraïques  
Partie 9 : caractères latins (turc)
Partie 10 : caractères latins (islandais, langues baltes)

Les ordinateurs personnels ne fonctionnent pas avec ces normes de codage puisqu'elles ont été adoptées trop tard.

D'autre part, pour les échanges de notices bibliographiques, des jeux de caractères spécifiques ont été définis, en particulier pour des notices multilingues ou en caractères non latins non translittérées. Les standards ISO 5426, 5426-2, 5427, 5428 sont les extensions de caractères latins, latins rares, cyrilliques et grecs respectivement. Il existe d'autres codes pour des jeux de caractères africains, hébraïques, arméniens, géorgiens, etc.

Le jeu de caractères défini par défaut dans les notices UNIMARC est le jeu ISO 646. Ce jeu de caractères peut être complété par d'autres jeux de caractères. Le jeu utilisé en France est le jeu de caractères latins étendu ISO 5426-1983. Il fournit des codes et caractères spéciaux pour la plupart des langues latines et pour les translittérations de langues non latines en alphabet latin. Il prévoit des symboles spéciaux, des lettres spéciales et des signes diacritiques dont le code précède celui de la lettre qu'il accompagne. Ces caractères sont représentés à l'annexe G.

Le codage des idéogrammes,

Les codes nationaux

Le premier code conçu pour le traitement des caractères idéographiques était le code japonais JIS S 6226-1978. Il a ensuite servi de modèle à d’autres codes utilisés en Asie Orientale. Les caractères sont codés sur deux octets. La version 1990 est appelée JIS X 0208:1990. Elle contient environ 6500 caractères et inclut les kanas et des caractères latins, grecs et cyrilliques. Ce jeu de caractères est utilisé par de nombreux logiciels de traitement de texte et systèmes informatiques japonais.

La Chine Populaire s'est inspirée de ce standard pour concevoir son propre standard GB 2312 (GB). La Corée du Sud, de son côté, a publié son code KS C 5601 (KS) qui contient près de 5000 idéogrammes et 2350 combinaisons syllabiques de son alphabet hangul.

Le standard taïwanais CNS X-11643, appelé Big5, a été développé plus tard, en 1986. Il défini environ 13000 caractères chinois divisés en deux parties en fonction de leur fréquence d'usage. Différentes extensions ajoutées par les concepteurs informatiques font qu'il n'existe plus un véritable standard Big5 bien défini. La dernière version publiée contient environ 55000 caractères.

Les caractères de ces quatre codes (JIS, GB, KS et Big5) sont codés sur 2 octets (16 bits).

CCCII et EACC

Les quatre codes mentionnés ci-dessus (JIS, GB, KS et Big5) ne recouvrent pas les même caractères, n'en contiennent pas le même nombre et bien sûr n'ont pas les même codes pour les caractères communs. Au début des années 1980, les grandes bibliothèques américaines ont décidé d'informatiser les catalogues CJK. A cette époque, il n'existait encore que les codes restreints japonais et taïwanais. Le Chinese Character Research Group à Taipei proposa alors de réaliser rapidement un jeu de caractères très large, CCCII (Chinese Character Code for Information Interchange). Il contient maintenant environ 70000 caractères des trois langues CJK, codés sur 3 octets.

Le réseau RLIN a adopté un autre standard, extrait de CCCII, EACC (East Asian Character Code) pour le catalogage des documents en caractères CJK. Ce code est devenu la norme américaine ANSI Z39.64-1989. Il a été introduit dans le réseau RLIN en 1983, et OCLC l'a repris en 1986. Il est donc possible d'échanger des notices en écritures idéographiques entre les deux principaux réseaux nord-américains, mais pas avec, par exemple, les bibliothèques japonaises qui utilisent le standard JIS.

Unicode et l'ISO 10646

On imagine sans peine les problèmes posés par la multiplication des standards de codage des caractères au moment où, d'Internet aux réseaux de bibliothèques, les échanges en tous genres s'accélèrent. D'où l'idée d'un jeu de caractères universel qui intègre toutes les langues écrites.

Deux projets ont débuté simultanément :

ð La norme ISO/IEC 10646-1:1993, intitulée "Jeu de caractères universel codé sur plusieurs octets" ("Universal Character Set", UCS) a été approuvée en 1992 et publiée en 1993. Le codage des caractères est prévu sur 4 octets. Ce code s'insère donc dans un cadre à quatre dimensions. On peut se le représenter en imaginant une rue de 256 maisons, chaque maison comportant 256 niveaux, chaque niveau comportant 256 couloirs et chaque couloir 256 pièces, chaque pièce contenant un caractère.

Le premier niveau de la première maison constitue le "plan de base multilingue" (Basic Multilingual Plane, BMP). Ce niveau est pour l'instant le seul rempli. Ces caractères sont donc codés sur seulement 2 octets puisque pour tous les caractères de ce niveau, deux des quatre octets restent identiques, avec la valeur hexadécimale 00 00.

ð Parallèlement s'est développé Unicode, un (autre) jeu de caractères universel, né de la réflexion d'un consortium d'industriels autour de Apple et Rank Xerox. Ce jeu est codé sur deux octets.

Ces deux projets ont fusionné en 1991. Des aménagements ont été faits et Unicode est identique au plan multilingue de base (BMP) de l'ISO 10646. Il est souvent affirmé qu’Unicode et l'ISO 10646 sont identiques, cette affirmation est fausse si l’on s’en tient à la définition stricte des deux systèmes, si l’on considère par contre que le jeu de l’ISO 10646 est réduit au BMP, puisque les autres niveaux ne sont pas définis, elle est, pour l’instant, acceptable.

Les 127 premiers caractères d'Unicode sont ceux de l'ISO 646. Les 127 suivants sont ceux de l'ISO/IEC 8859-1 (latin-1), ce qui facilitera les conversions.

Unicode contient :

les caractères latins accentués (différentes langues européennes),

l'alphabet phonétique international (IPA)

les caractères grecs, cyrilliques, géorgiens et arméniens, hébraïques,

les quatre formes des caractères arabes,

les caractères des langues du sous-continent indien

le thaï et le laotien,

les caractères idéographiques CJK,

des opérateurs mathématiques,

les caractères spéciaux pour la reconnaissance optique de caractères,

des caractères graphiques et géométriques.

Il y manque encore quelques langues rares et les langues mortes que les spécialistes aimeraient voir figurer dans ce code : le cherokee, le cree et l’éthiopien ont été acceptés et entreront dans la prochaine version, d’autres langues modernes comme le khmer, ainsi que des langues archaïques ou obsolètes (telles que l’étrusque), les écritures cunéiformes (par exemple babyloniennes), les hiéroglyphes (par exemple égyptiens), ne sont pas encore prévus.

Pour gagner de la place et pouvoir coder le plus grand nombre de langues possible, il a été décidé de ne coder qu'une seule fois chaque caractère. Ce point est particulièrement délicat pour les idéogrammes CJK. Un même caractère utilisé en Chine, au Japon ou en Corée ne devra être codé qu'une seule fois. Il a donc été procédé à l'"unification Han" (Han Unification).

Le but de cette unification est de n’assigner qu’un code à chaque caractère Han, qu’il soit chinois, japonais ou coréen. Dans de nombreux cas, c’est simple, dès lors que la forme et la signification sont identiques dans toutes les langues dans lesquelles il est utilisé. Pour d’autres caractères, ce n’est pas si simple, il peut exister de légères variations dans leur apparence. Le Ideographic Rapporteur Group (IRG), réuni par l’ISO et comprenant des représentants de Chine, du Japon, de Corée, des États-Unis, du Vietnam, de Hongkong et de Taiwan a classé les idéogrammes et est arrivé à une table de près de 21000 caractères uniques. Cette table est utilisée par la norme Unicode.

L'annexe H représente une carte des différents sous-jeux de caractères intégrés à Unicode et l'annexe I les caractères des quatre premiers de ces sous-jeux ("basic latin", "latin-1 supplement", "latin extended-A" et "latin extended-B" de la version 2.0 d’Unicode publiée en 1996.

Le tri et la récupération des notices

L’ordre alphabétique classique pour les caractères latins ne suffit pas pour classer des notices, puisqu’il existe des lettres liées. La lettre I-J liés est par exemple classée à AY dans les systèmes néerlandais et non pas à IJ comme on pourrait le penser au premier abord.

Les principaux problèmes sont les idéogrammes chinois, la séparation des mots dans les écritures syllabiques, les digraphes et les diacritiques.

L’ajustement des standards ISBD et UNIMARC

Des ajustements ont déjà été réalisés, on peut définir jusqu’à quatre jeux de caractères dans la zone 100 d’UNIMARC et on peut doubler certains champs pour saisir des caractères originaux et leur romanisation, par exemple.

La motivation des concepteurs et diffuseurs d’applications informatiques

Sur ce point également, les progrès avancent. Les deux grands réseaux bibliographiques américains RLIN et OCLC proposent des solutions pour certaines écritures non latines (voir page *).

D’un autre côté, les applications de gestion intégrée de bibliothèque permettant l’une ou l’autre de ces écritures se développent, on a mentionné le système Aleph (voir page *).

Conclusion

Parmi les bibliothécaires confrontés au problèmes des langues à écriture non latine, la tendance est nettement à l’introduction des caractères originaux dans le catalogue, pour en faire des outils multi-langues et multi-écritures (multilingual and multiscript). Non seulement par respect des langues écrites en caractères non latins, mais aussi pour satisfaire les lecteurs qui ne sont souvent pas familiarisés avec les procédés de romanisation.

Les bibliothèques attendent donc beaucoup d’Unicode qui devrait résoudre les problèmes de codage des caractères. Ce code doit cependant être homologué et surtout, les concepteurs de systèmes d’exploitation et d’applications informatiques devront le prendre en considération.

Il faudra ensuite discuter des difficultés propres aux bibliothèques et des logiciels de gestion documentaire, comme le tri et la récupération des notices, les formats ISBD et Unimarc.

Le problème des langues à écritures non latines progresse donc dans le bon sens, mais tout n’est pas encore résolu et il faudra certainement encore quelques années et beaucoup d’efforts pour arriver à une solution universelle.

Conclusion

Ce stage m’a permis d’observer le fonctionnement d’un Service commun de la documentation, et plus particulièrement la réflexion menée à Lyon 3 autour du passage de la Bibliothèque Universitaire classique au Système d’Information dans le cadre de la mission d’accompagnement de l’enseignement et de la recherche de l’université.

Quant à mon travail lié au problème, pour moi insoupçonné, du traitement informatique des documents en caractères non latins, il m’a permis d’apprendre beaucoup de choses, concernant ces langues et concernant en particulier les contraintes du format bibliographique et le codage des caractères. Il s’est partagé en trois parties :

ð La rédaction d’un document qui permettra aux catalogueurs de saisir la translittération des titres et des noms d’auteurs (page * et annexe D). Ce document met en relation les caractères définis par l’ISO 5426, le jeu de caractères utilisé dans le format Unimarc pour la saisie de notices bibliographiques et les mnémoniques de saisie propres au logiciel Geac/Advance. Il précise les normes de translittération ou de transcription à utiliser (c’est-à-dire celles utilisées dans BN-Opale) et spécifie, langue par langue, les caractères à utiliser.

ð Une étude des solutions mises en place ou envisagées par des grandes bibliothèques françaises concernées par le problème (pages * à *). Je me suis rendue à Paris où j’ai visité le département des Langues Orientales de la BnF et j’ai rencontré un conservateur responsable du fonds slave à la bibliothèque de la Sorbonne. J’ai également rencontré à Lyon le conservateur responsable du fonds chinois. Grâce à ces visites, j’ai pu contacter d’autres responsables de bibliothèques et prendre connaissance du Logiciel Aleph, en cous d’installation à la BDIC et installé à la bibliothèque de l’Alliance Israélite Universelle, et aussi avoir un avis comparatif sur les systèmes CJK de OCLC et RLIN, grâce aux responsables de la bibliothèque des Langues Orientales.

ð Une recherche bibliographique sur les solutions envisagées au niveau mondial, en particulier sur le jeu de caractères universel Unicode (page *). Au cours de mes entretiens revenait souvent le nom de ce jeu de caractères universel qui pourrait résoudre tous les problèmes. J’ai donc fait des recherches bibliographiques, en particulier sur Internet, à propos d’Unicode (un site web y est consacré), à propos des systèmes de gestion documentaire dont on m’a parlé : les systèmes CJK d’OCLC et RLIN, ainsi que des recherches plus générales sur les problèmes posés par les caractères non latins aux bibliothèques. J’ai également eu connaissance d’une conférence satellite de l’IFLA sur ce problème spécifique. J’ai pu me procurer les actes de cette conférence, mais la revue bibliographique n’est pas complète puisque je n’ai pas pu accéder à tous les documents dont j’avais besoin.

Ce stage a donc été pour moi très riche en nouveautés et j’en sais maintenant beaucoup plus long sur le codage des caractères et sur les difficultés liées au catalogage de documents en langues non latines.

Glossaire

AFNOR : Association française de normalisation. Cet organisme anime le système français de normalisation, élabore les normes françaises, représente et défend les intérêts français dans les instances européennes et internationales de normalisation, assure la promotion de l'application des normes, et développe la certification de produits et services.

ASCII : (American Standard Code for Information Interchange)

BN : La Bibliothèque Nationale, vieille de cinq cents ans, a pour principale mission de conserver les ouvrages reçus, en particulier par le dépôt légal.

BN-Opale : Cette base maintenue par la BN puis la BnF constitue le catalogage partagé avec des bibliothèques universitaires ou spécialisées. Elle contient plus de deux millions de références, et plus de dix millions d'accès indexés (dépôt légal, achat, don ou échange depuis 1970, périodiques entrés par dépôt légal , abonnement, don ou échange depuis 1960, les documents informatiques depuis 1994, etc. Elle permet la production de la Bibliographie nationale française.

BnF : La Bibliothèque nationale de France est née de la fusion de la BN et de la Bibliothèque de France, le grand projet de bibliothèque moderne imaginé par François Mitterand.

CCCII : Ce code de caractères chinois pour l’échange d’information (Chinese Character Code for Information Interchange) a été réalisé par le Chinese Character Research Group à Taiwan. Il contient environ 70000 caractères idéographiques codés sur 3 octets (page *).

CJK : Ce sigle désignant un groupe de trois langues utilisant des idéogrammes : chinois, japonais, coréen (Chinese, Japanese, Korean), est devenu un qualificatif utilisé par les spécialistes pour désigner les particularité spécifiques de ces langues.

EACC : Ce code de caractères est-asiatiques (East Asian Character Code) extrait de CCCII, a été adopté par les bibliothèques américaines pour le catalogage des documents en caractères CJK. Ce code est devenu la norme américaine ANSI Z39.64-1989 (voir page *).

Geac/Advance : Système de gestion intégrée de bibliothèques développé par la société Geac.

ISO : L’Organisation internationale de normalisation (International Organisation for Standardization) est une fédération mondiale d'organismes nationaux de normalisation. L’ISO élabore les normes internationales, résultats de consensus entre les différentes parties.

OCLC : Ce réseau de bibliothèque, d’abord dénomme Ohio College Library Center, est devenu un réseau mondial en 1981, et a changé son nom en Online Computer Library Center. Ses membres partagent le catalogue commun.

Retranslittération (n. f.) : définition page *

RLIN : Ce réseau de bibliothèques (Research Library Information Network) met en commun une base de donnée bibliographique selon le principe du catalogage partagé. Il a été le premier à proposer le catalogage des documents en caractères CJK avec les caractères originaux.

Romanisation (n. f.) : définition page *

SIBER : Système d’information pour les bibliothèques d’étude et de recherche. Ce système d’information rassemble toutes les possibilités multimédia (catalogue OPAC, cédéroms, Internet) sur un seul type de poste de consultation (voir page *)

Transcription (n. f.) : définition page *.

Translittération (n. f.) : définition page *.

Unicode : Jeu de caractères universel, les caractères sont codés sur 16 bits (2 octets), voir page *.

 

Bibliographie

Cette bibliographie recense les documents papier et électroniques que j’ai consulté durant mon stage et qui m’ont aidé à rédiger ce rapport.

1. Documents papier

AFNOR. Documentation. T. 1, Présentation des publications, traitement documentaire et gestion de bibliothèques. 6ème éd. Paris : Afnor, 1996. (Recueil de normes françaises).

aliprand, Joan M. Unicode and ISO/IEC 10646 : an overview. In Automated systems for access to multilingual and multiscript library materials : proceedings of the 2nd IFLA satellite meeting, Madrid, August 18-19, 1993. Ed. by Sally Mc Callum and Monica Ertel. München : Saur, 1994. P. 87-102.

BOSSMEYER, Christine. What’s next : issues arising from the satellite meeting. In Automated systems for access to multilingual and multiscript library materials : proceedings of the 2nd IFLA satellite meeting, Madrid, August 18-19, 1993. Ed. by Sally Mc Callum and Monica Ertel. München : Saur, 1994. P. 167-173.

cain, Jack. Practical applications of Unicode. In Automated systems for access to multilingual and multiscript library materials : proceedings of the 2nd IFLA satellite meeting, Madrid, August 18-19, 1993. Ed. by Sally Mc Callum and Monica Ertel. München : Saur, 1994. P. 103-114.

Comité national d’évaluation (France). Université Jean Moulin Lyon III : rapport d’évaluation. Paris : Comité national d’évaluation des établissements publics à caractère scientifique, culturel et professionnel, 1992. 160 p.

Comité national d’évaluation (France). Université Jean Moulin Lyon III : rapport d’évaluation. Paris : Comité national d’évaluation des établissements publics à caractère scientifique, culturel et professionnel, 1996. 84 p.

DURAND-DASTES, Vincent. Les textes anciens en caractères chinois dans une bibliothèque contemporaine : mémoire d'étude. Villeurbanne : ENSSIB, 1996. 80-12 p.

Manuel UNIMARC : format bibliographique : version française. Trad. par Marc Chauveinc. 2ème éd. München : Saur, 1996. VIII-396 p.

Mc CALLUM, Sally H. Tokyo to Barcelona : Progress in multiscript automation. In Automated systems for access to multilingual and multiscript library materials : proceedings of the 2nd IFLA satellite meeting, Madrid, August 18-19, 1993. Ed. by Sally Mc Callum and Monica Ertel. München : Saur, 1994. P. 13-22.

Molliné, Frédérique. L’offre électronique du Service commun de la documentation de Lyon 3 : un contexte en pleine évolution. Bulletin des bibliothèques de France, 1997, t. 42, n° 3, p. 25-30.

Université Jean Moulin (Lyon). La bibliothèque de la Manufacture : journée portes ouvertes : [brochure informative]. [Lyon] : [Université Jean Moulin], 1996.

2. Documents électroniques

AFNOR. [Site de présentation] [en ligne]. [Réf. du 1997-06-17]. Disponible sur World-Wide Web : <URL:http://www.afnor.fr>

ALIPRAND, Joan M. Multilingual and multiscript issues cataloguing. In 62nd IFLA General conference, conference proceedings, August 25-31, 1996 [en ligne]. [Réf. du 1997-07-16]. Disponible sur World-Wide Web : <URL: http://ifla.inist.fr/IV/ifla62/62-alij.htm>

Bibliothèque Nationale de France. [Site de présentation] [en ligne]. [Réf. du 1997-06-17]. Disponible sur World-Wide Web : <URL: http://www.bnf.fr>

Bibliothèque Nationale de France. 1988-1994 : la BnF en projet [en ligne]. [Réf. du 1997-06-17]. Disponible sur World-Wide Web : <URL:http://www.bnf.fr/web-bnf/connaitr/projet.htm>

Bibliothèque Nationale de France. 1996-1998 : l’ouverture [en ligne]. [Réf. du 1997-06-17]. Disponible sur World-Wide Web : <URL:http://www.bnf.fr/web-bnf/nouveau/ouv.htm>

Bibliothèque Nationale de France. La BnF : cinq siècles d’histoire [en ligne]. [Réf. du 1997-06-17]. Disponible sur World-Wide Web : <URL:http://www.bnf.fr/web-bnf/connaitr/siecle.htm>

Bibliothèque Nationale de France. La BnF : les catalogues [en ligne]. [Réf. du 1997-06-17]. Disponible sur World-Wide Web : <URL:http://www.bnf.fr/web-bnf/connaitr/catal.htm>

commission des COMMUNAUTÉs Européennes. Initiative concernant l’échange ouvert d’information : aperçu général [en ligne]. [Réf. du 1997-07-02]. Disponible sur World-Wide Web : <URL:http://www2.echo.lu/oii/en/fr-info.html>

commission des COMMUNAUTÉs Européennes. Investigation into Greek language transliteration [en ligne]. [Réf. du 1997-06-02]. Disponible sur World-Wide Web : <URL:http://www2.echo.lu/libraries/en/projects/helen.html>

commission des COMMUNAUTÉs Européennes. Open Information Interchange : Character Set Standards [en ligne]. [Réf. du 1997-05-27]. Disponible sur World-Wide Web : <URL:http://www2.echo.lu/oii/en/chars.htm>

commission des COMMUNAUTÉs Européennes. Open Information Interchange : Library Information Interchange Standards [en ligne]. [Réf. du 1997-05-27]. Disponible sur World-Wide Web : <URL:http://www2.echo.lu/oii/en/library.html>

commission des COMMUNAUTÉs Européennes. The Open Information Interchange Initiative [en ligne]. [Réf. du 1997-05-27]. Disponible sur World-Wide Web : <URL:http://www2.echo.lu/oii/en/oiistand.html>

EASTMANN, Eric. Introduction to Unicode [en ligne]. [Réf. du 1997-05-27]. Disponible sur World-Wide Web :
<URL:http ://tsetse.cs.earlham.edu/~ss96/unicode.html>

EILTS, John. Non-roman script materials in North American libraries : automation and international exchange. In 61st IFLA General conference, conference proceedings, August 20-25, 1995 [en ligne]. [Réf. du 1997-07-04]. Disponible sur World-Wide Web : <URL:http://www.nlc-bnc.ca/ifla/IV/ifla61/61-eilj.htm>

Ex-Libris (Tel Aviv, Israel). [Site de présentation] [en ligne]. [Réf. du 1997-06-11]. Disponible sur World-Wide Web : <URL:http://www.aleph.co.il>

HAKALA, Juha. Electronic publishing and libraries [en ligne]. 1997-03-27. Disponible sur World-Wide Web : <URL:http://renki.helsinki.fi/elpub.html>

hudrisier, Henri. La norme de représentation des caractères sur plusieurs octets (ISO/IEC 10646), un enjeu pour le sommet d’Hanoi. In Med’iacom inforoutes : un défi pour le monde arabe, la Méditerranée et la Francophonie. Beyrouth, 9-11 avril 1997 [en ligne]. [Réf. du 1997-07-02]. Disponible sur World-Wide Web :
<URL:http://www.refer.fr/multi_ct/nti/beyrouth/allocuti/hudris.htm>

International Research Institute for Zen Buddhism. [Site de présentation] [en ligne]. [Réf. du 1997-06-19]. Disponible sur World-Wide Web : <URL:http://www.iijnet.or.jp/iriz/irizhtml/irizhome.htm>

LARMOUTH, John. Applications for the European Information Society [en ligne]. [Réf. du 1997-07-03]. Disponible sur World-Wide Web :
<URL:http://concord.cscdc.be/conference/presentation/2_1400_3_2/index.htm>

Online Computer Library Center Inc (Dublin, Ohio). OCLC CJK database growth tables [en ligne]. [Réf. du 1997-07-15]. Disponible sur World-Wide Web : <URL:http://www.oclc.org/oclc/cjk/stats/stats.htm>

Online Computer Library Center Inc (Dublin, Ohio). OCLC CJK Plus adds Pinyin-to-Wade-Giles conversion feature [en ligne]. Public-Acces Computer systems News. 1993, Vol. 4, Nr. 11, p. 1-2. [Réf. du 1997-07-15]. Disponible sur World-Wide Web : <URL:http://www.lib.ncsu.edu/stacks/p/pacsn/pacsn-v4n11.txt>

Online Computer Library Center Inc (Dublin, Ohio). OCLC CJK yearly growth [en ligne]. [Réf. du 1997-07-15]. Disponible sur World-Wide Web : <URL:http://www.oclc.org/oclc/cjk/stats/cjkyears.htm>

Online Computer Library Center Inc (Dublin, Ohio). OCLC-CJK Software : Service Overview [en ligne]. [Réf. du 1997-07-15]. Disponible sur World-Wide Web : <URL:http://www.oclc.org/oclc/cjk/descrip.htm>

Online Computer Library Center Inc (Dublin, Ohio). OCLC-CJK Software [en ligne]. [Réf. du 1997-07-15]. Disponible sur World-Wide Web : <URL:http://www.oclc.org/oclc/menu/cjk.htm>

Organisation Internationale de Normalisation. [Site de présentation] [en ligne]. [Réf. du 1997-07-08]. Disponible sur World-Wide Web : <URL:http://www.iso.ch>

Organisation Internationale de Normalisation. Comment utiliser le catalogue [en ligne]. [Réf. du 1997-07-11]. Disponible sur World-Wide Web : <URL:http://www.iso.ch/infof/howtou.htm>

Organisation Internationale de Normalisation. Introduction to ISO [en ligne]. [Réf. du 1997-07-11]. Disponible sur World-Wide Web : <URL:http://www.iso.ch/infoe/intro.html>

Research libraries group Inc (Mountain View, Californie). RLIN [Research Libraries Information Network] : [site de présentation] [en ligne]. [Réf. du 1997-07-11]. Disponible sur World-Wide Web : <URL:http://www.rlg.org/rlin.html>

tsai, Chih Hao. Unicode and the Chinese writing system : a few comments [en ligne]. 1996-05-12. Disponible sur World-Wide Web :
<URL:http://www.students.uiuc.edu/~c-tsai4/cunicode.html>

Unicode Inc. Basic principles [en ligne]. 1995-02-10. Disponible sur World-Wide Web : <URL:http://www.unicode.org/unicode/standard/principles.html>

Unicode Inc. Han unification [en ligne]. 1996-02-10. Disponible sur World-Wide Web : <URL:http://www.stonehand.com/unicode/faq/cjk/unification.html>

Unicode Inc. Unicode 2.0 Charts [en ligne]. [Réf. du 1997-07-01]. Disponible sur World-Wide Web : <URL:http://www.unicode.org/Unicode.charts/normal/Unicode2.0.html>

Unicode Inc. Unicode and internationalization glossary [en ligne]. [Réf. du 1997-05-28]. Disponible sur World-Wide Web :
<URL:http://www.stonehand.com/unicode/glosscnt.html>

Unicode Inc. Unicode Home Page [en ligne]. [Réf. du 1997-07-01]. Disponible sur World-Wide Web : <URL:http://www.unicode.org>. Egalement disponible sur World-Wide Web <URL:http://www.stonehand.com/unicode.html>

washburn, Bruce. RLIN terminal for Windows supports all JACKPHY-Plus scripts [en ligne]. RLIN Focus, December 1996, n° 23. [Réf. du 1997-07-17]. Disponible sur World-Wide Web : <URL:http://www.rlg.org/r-focus/i23.w4.html>

washburn, Bruce. RLIN terminal for Windows, version 3 [en ligne]. RLIN Focus, June 1996, n° 20. [Réf. du 1997-07-15]. Disponible sur Internet : <URL:ftp://ftp.rlg.org/pub/r-focus/20jun96/w3.txt>

WITTERN, Christian. Chinese character codes : an update [en ligne]. 1995-05-01. [Réf. du 1997-07-15]. Disponible sur World-Wide Web :
<URL:http://www.iijnet.or.jp/iriz/irizhtml/multiling/codes.htm>