Université de Pau et des Pays de lAdour
Centre Universitaire de Recherche Scientifique
Diplôme détudes supérieures spécialisées
Traducteur-Documentaliste Scientifique
1996-1997
Amélie DUPAS
v
Rapport de stage
Service commun de la
documentation
de lUniversité Jean Moulin Lyon 3
Le traitement informatique
des documents en caractères non latins :
la solution envisagée par le SCD Lyon 3 et dautres
exemples
Ce stage a été effectué au Service commun de la documentation de lUniversité Jean Moulin Lyon 3 du 5 mai au 25 juillet 1997, sous la direction de
Frédérique Molliné, directeur du SCD Lyon 3 et de
Jean Bernon, responsable de la Coordination des nouvelles technologies
Université Jean Moulin Lyon 3
Service commun de la documentation
4 cours Albert Thomas
69371 Lyon cedex 08
Téléphone : 04 78 78 79 00
Télécopie : 04 78 78 79 89
Adresse électronique : scd@univ-lyon3.fr
Jean Bernon : bernon.scd@univ-lyon3.fr
Je tiens à remercier toute léquipe du SCD pour leur accueil, particulièrement Mme Frédérique Molliné et M. Jean Bernon pour le sujet du stage, très intéressant, qui ma fait découvrir un aspect, inattendu pour moi, du traitement de la documentation.
Je remercie également toutes les personnes qui ont bien voulu me recevoir dans leurs bibliothèques et toutes celles qui ont pris le temps de répondre à mes question au téléphone, je pense tout particulièrement à Sara Yontan et Vincent Hachard (BnF) qui mont fourni de nombreux renseignements et documents.
Je noublie pas Mme Marie-Annick Cazaux que je remercie spécialement pour la gentillesse avec laquelle elle ma apporté son aide début avril, quand je me suis retrouvée sans stage.
Ce stage effectué au SCD de lUniversité Jean Moulin Lyon 3 portait sur le traitement informatique des documents en caractères non latins. Après lorganisation du SCD et son informatisation, la solution adoptée par le SCD pour traiter ses documents est examinée et mise en uvre. Les solutions adoptées ou envisagées par dautres bibliothèques en France sont indiquées. Une dernière partie est consacrée à létude de solutions nouvelles.
Abstract
This internship at the Libraries Management Department of the University of Lyon III relates to the automated treatment of documents in non-roman characters. This work reports the organization and the installation of the computer system of the Libraries Management Department, the solution chosen by the Department for this documents, and the solutions chosen by other libraries in France. The last part reports the newest solutions studied for the automated treatment of documents in non-roman characters.
Zusammenfassung
Dieses Praktikum am Bibliothekenamt der Universität Lyon III betrifft die EDV-Verarbeitung der mit nicht-lateinischen Schriften geschriebenen Dokumenten. Diese Arbeit berichtet über die Organisation und die Computerisierung des Bibliothekenamtes und über die durch das Bibliothekenamt und andere französische Bibliotheken angewandte Lösungen zur EDV-Verarbeitung dieser Dokumenten. Der letzte Teil ist den neuesten Lösungen gewidmet.
Résumé
Table des matières
Abréviations
Introduction
1. Le Service commun de la documentation de lUniversité Lyon 3
1.1. Lorganisation du SCD
1.2. La Bibliothèque universitaire
1.2.1. La bibliothèque de la Manufacture, section Lettres (Manu-Lettres)
1.2.2. La bibliothèque de la Manufacture, section Droit-AES (BDA)
1.2.3. La bibliothèque Droit-Gestion (BDG)
1.2.4. La bibliothèque Langues-Philosophie (BLP)
1.2.5. La bibliothèque Lettres-Civilisations (BLC)
1.2.6. La bibliothèque Droit-Lettres (Centrale)
1.3. Linformatisation du SCD Lyon 3
1.3.1. La première informatisation (1994)
1.3.2. La deuxième informatisation : SIBER (Système dInformation pour les Bibliothèques dEtude et de Recherche) (1996-97)
2. Le traitement des ouvrages en caractères non latins à Lyon 3
2.1. Présentation
2.2. Mise en uvre
2.2.1. Les normes de romanisation
2.2.2. Les diacritiques dans le système Geac/Advance
2.2.3. La rédaction dun document pour le codage des diacritiques
3. Étude des solutions exploitées par dautres bibliothèques
3.1. Le fonds chinois de la Bibliothèque Municipale de Lyon
3.2. Le Service des langues orientales (SLO) de la BnF
3.2.1. La BnF
3.2.2. La romanisation au SLO
3.2.3. Le futur système dinformation
3.3. Le fonds des langues slaves à la bibliothèque de la Sorbonne
3.4. La Bibliothèque de Documentation Internationale Contemporaine (Université de Paris X, Nanterre) et la bibliothèque de lAlliance Israélite Universelle
3.4.1. La BDIC
3.4.2. La bibliothèque de lAlliance Israélite Universelle
3.4.3. Le logiciel Aleph
3.5. La bibliothèque inter-universitaire des Langues Orientales
3.5.1. La BIULO
3.5.2. Les systèmes CJK-OCLC et CJK-RLIN
3.5.2.1. OCLC-CJK
3.5.2.2. RLIN-CJK
4. Vers une solution universelle ?
4.1. La prise de conscience et l'influence d'experts de pays à écriture non latine
4.2. La normalisation des systèmes de transcription
4.3. La normalisation des jeux de caractères
4.3.1. Evolution
4.3.2. Les jeux de caractères à 8 bits : ISO 8859 et ISO 5426
4.3.3. Le codage des idéogrammes,
4.3.3.1. Les codes nationaux
4.3.3.2. CCCII et EACC
4.3.4. Unicode et l'ISO 10646
4.4. Le tri et la récupération des notices
4.5. Lajustement des standards ISBD et UNIMARC
4.6. La motivation des concepteurs et diffuseurs dapplications informatiques
4.7. Conclusion
Conclusion
Glossaire
Bibliographie
1. Documents papier
2. Documents électroniques
Annexe A : Lorganisation du SCD Lyon 3 et du service des nouvelles technologies
Annexe B : Le réseau SIBER
Annexe C : Le fonds en langues étrangères de Lyon 3
Annexe D : Le codage des diacritiques dans le système Geac/Advance
Annexe E : Le format UNIMARC des notices dans la base Agate (fonds chinois de la Bibliothèque Municipale de Lyon)
Annexe F : Les systèmes de romanisation dans la base BN-Opale
Annexe G : Le jeu de caractères latins étendu ISO 5426-1983
Annexe H : Carte des différents jeux de caractères intégrés à Unicode
Annexe I : Les quatre premiers jeux de caractères dUnicode
AES Administration économique et sociale
AFNOR Association française de normalisation
ANSI American National Standards Institute
ASCII American Standard Code for Information Interchange
BDA Bibliothèque de la Manufacture, section Droit-AES
BDG Bibliothèque Droit-Gestion1
BDIC Bibliothèque de Documentation Internationale Contemporaine
BDL Bibliothèque Droit-Lettres1
BIU Bibliothèque inter-universitaire
BLC Bibliothèque Lettres-Civilisations1
BLP Bibliothèque Langues-Philosophie1
BN Bibliothèque Nationale
BnF Bibliothèque nationale de France
BU Bibliothèque universitaire
CAPES Certificat daptitude au professorat de lenseignement du second degré
CCCII Chinese Character Code for Information Interchange (code de caractères chinois pour léchange dinformation)
CJK Chinese, Japanese, Korean (chinois, japonais, coréen)
DIS Draft International Standards (projet de norme internationale)
EACC East Asian Character Code (code de caractères est-asiatiques)
IAE Institut dadministration et de gestion des entreprises
IEC International Electrotechnical Commission (Commission électrotechnique internationale)
IFLA International Federation of Library Associations (Fédération internationale des associations de bibliothèques)
IPA International Phonetic Alphabet (alphabet phonétique international)
ISO Organisation internationale de normalisation (International Organisation for Standardization)
ISO/TR ISO Technical Report (rapport technique ISO)
JIS Japanese Industrial Standard (Norme industrielle japonaise)
OCLC Online Computer Library Center
OPAC On line public access catalogue (catalogue public à accès en ligne)
RLIN Research Library Information Network
SCD Service commun de la documentation
SIBER Système dInformation pour les Bibliothèques détude et de Recherche
UCS Universal Character Set (jeu de caractères universel)
Lobjet de ce stage, effectué au Service commun de la documentation de lUniversité Jean Moulin Lyon 3, dans le cadre du DESS Traduction et Documentation Scientifiques de lUniversité de Pau et des Pays de lAdour, est le traitement informatique des documents en caractères non latins. En effet, lUniversité Jean Moulin Lyon 3 possède environ 9000 ouvrages en différentes langues non latines telles que le russe, larabe, lhébreu, le chinois, etc.
Comment intégrer ce type de documents à un catalogue à lheure de linformatisation des bibliothèques ?
Cest à cette question, tout à fait nouvelle pour moi, que jai tenté de répondre en visitant différentes bibliothèques, en mentretenant avec des responsables et en menant un recherche bibliographique.
Le Service commun de la documentation de lUniversité Jean Moulin Lyon 3 envisage une solution originale compatible avec son équipement informatique, à savoir cataloguer les ouvrages en transcrivant les caractères originaux en caractères latins et lier par un lien hypertexte limage numérisée de la page de titre et du sommaire à la notice de louvrage. Jai donc également rédigé un document destiné à expliciter la saisie des diacritiques en relation avec les normes de translittération, afin de faciliter le travail des catalogueurs.
Le Service commun de la documentation
de lUniversité Lyon 3
LUniversité Jean Moulin Lyon 3 a été créée en 1973. Elle se compose de quatre facultés (Droit, Langues, Lettres et Civilisations, Philosophie), de lInstitut dadministration des entreprises (IAE) et de lInstitut universitaire de technologie (IUT). Elle sest dotée dun Service commun de la documentation au 1er septembre 1990. Il se compose de la BU (Bibliothèque universitaire) et des BA (Bibliothèques associées ou bibliothèques de recherche). Les bibliothèques de facultés et de lIAE ont été intégrées à la section de BIU attribuée à Lyon 3. Toutes les bibliothèques non intégrées sont dites associées. Leurs ressources et collections sont distinctes de la BU. Un contrat de coopération a également été passé avec la bibliothèque de lannexe universitaire de Bourg-en-Bresse.
A lorigine, les locaux de lUniversité étaient répartis sur deux sites : le site des Quais (quai Claude Bernard) et le site de La Doua (campus des sciences). Ce dernier a été libéré en 1992 lorsque lUniversité Lyon 3 a commencé à sinstaller dans lancienne Manufacture des Tabacs mise à la disposition de Lyon 3 par la Communauté Urbaine de Lyon et en cours de réhabilitation par tranches (1990-98) dans le cadre dUniversité 2000.
Le projet de réhabilitation prévoit de réserver 10 000 m2 à la bibliothèque, répartis entre un bâtiment neuf de 5000 m2 ouvert le 12 novembre 1996 et une aile à réhabiliter de 5000 m2, ces deux parties devant communiquer en L. La Bibliothèque Universitaire de Lyon 3 (de même que les locaux denseignement) sera alors répartie sur deux sites : « les Quais » avec la Bibliothèque Droit-Gestion et « la Manu » qui regroupera les fonds de 1er et 2ème cycles.
A la suite de louverture de la Bibliothèque de la Manufacture, le Service commun de la documentation a été restructuré en janvier 1997 et est maintenant divisé en six secteurs (annexe A) :
la Bibliothèque de la Manufacture, dirigée par Marie-Noëlle Laroux,
la Bibliothèque Droit-Gestion, dirigée par Carole Letrouit,
la Chaîne du livre et du document, service qui comprend en particulier le service central dacquisition, dirigé par Marie-Lise Krumenaeker,
la Coordination des nouvelles technologies, service dirigé par Jean Bernon,
la Gestion administrative et financière, service dirigé par Geneviève Maurice,
le Service de rétroconversion des Bibliothèques Associées (bibliothèques de recherche), dirigé par Béatrice Sudul, chargée de mission à cet effet.
Les responsables des cinq premiers secteurs ainsi que Mme Molliné, directeur du SCD, forment léquipe de direction de SCD.
Elle se compose des six bibliothèques suivantes :
La bibliothèque de la Manufacture, section Lettres (Manu-Lettres)
Dédiée à lenseignement des Lettres, Langues et Sciences Humaines, cette bibliothèque, créée de toutes pièces pour le 1er cycle et installée dans le nouveau bâtiment construit sur le site de la Manufacture, a été ouverte au public le 12 novembre 1996. Cette construction allie transparence et flexibilité. Elle a été conçue pour recevoir une bibliothèque moderne qui a intégré les nouvelles technologies. La Manu-Lettres rassemblera à terme tous les fonds correspondant aux disciplines littéraires.
Cette bibliothèque, consacrée à lenseignement de 1er cycle de Droit et dAES, était localisée sur le campus de La Doua. Elle a déménagé sur le site de la Manufacture en même temps que le premier cycle de Droit et dAES, lors de louverture de la première tranche (1992). Installée dans des locaux provisoires, elle emménagera, après la deuxième tranche de travaux, dans laile rénovée qui communiquera avec le bâtiment neuf de la section Lettres. Les enseignements de second cycle seront alors implantés sur le campus. La Bibliothèque de la Manufacture servira alors les 1er et 2ème cycles.
Créée en 1988 dans le dôme du bâtiment de lUniversité Lyon 3 situé quai Claude Bernard, tout de suite informatisée, cette bibliothèque a été intégrée en 1991. Elle a pour objectif de devenir la bibliothèque de 3ème cycle et de recherche de la Faculté de Droit et de lIAE. Les ouvrages de 2ème cycle, jusqu'à présent disponibles là, sont progressivement déplacés à BDA, le frein à ce déplacement étant le fait que lenseignement correspondant est toujours dispensé sur le site des quais.
Cette bibliothèque, petite par sa surface, née de la réunion des bibliothèques de la Faculté des Langues et de celle de Philosophie est à létroit dans ses locaux et doit déménager à la Manufacture. Elle possède un fonds denviron 9000 ouvrages en caractères non latins (russe, arabe, hébreu, chinois, etc.).
Cette bibliothèque possède des fonds dhistoire, de géographie et sest progressivement enrichie dun fonds sur la francophonie. Elle constituait la bibliothèque de la Faculté des Lettres et Civilisations. Elle a été intégrée au SCD en 1991. Elle est en particulier dédiée au 2ème cycle et réserve une salle à la préparation des concours (CAPES, agrégation) pour les étudiants de Lyon 2 et Lyon 3. Elle doit déménager à la Manufacture.
Cette bibliothèque a un statut tout à fait à part. Créée en 1896 à la réunion en Université des facultés lyonnaises, cette bibliothèque possède un fonds très riche et très important, ainsi que de nombreux livres anciens et pièces rares. Elle constituait la section Droit-Lettres de la bibliothèque inter-universitaire de Lyon et est toujours une bibliothèque de recherche (très important fonds de périodiques). Son statut a changé en 1990 à la création des SCD et une convention répartit les fonds, les locaux et le personnel entre les deux universités Lyon 2 et Lyon 3. Depuis janvier 1997, elle est dirigée par un directeur placé sous lautorité du recteur.
Linformatisation du SCD Lyon 3
Lors de la première phase dinformatisation, réalisée en contrat avec lEtat, il sagissait dinformatiser les fonctions documentaires de la BU et dinstaller un serveur de cédéroms sur le réseau de luniversité.
Le réseau de cédéroms a été implanté dès juillet 1993 sur le site des quais (BDG et quelques laboratoires de lIAE et de la Faculté de Droit). Il a ensuite été déployé aux autres bibliothèques du site, puis à celui de la Manufacture et enfin à Bourg-en-Bresse.
Le système intégré Geac/Advance a été choisi pour constituer le catalogue et gérer les fonctions documentaires telles que le prêt, les acquisitions, le bulletinage. Les fichiers informatiques existants ont été rétroconvertis pour constituer la base bibliographique. Elle senrichit par récupération de notices BN-Opale qui écrasent les notices succinctes créées lors des acquisitions.
Les utilisateurs ont ainsi accès depuis 1994 à lidentification, la localisation et la disponibilité des ouvrages grâce à des postes installés sur les trois sites.
La rétroconversion des fonds des bibliothèques associées (environ 30), amorcée en 1995, est toujours en cours.
Enfin, en 1995, des postes daccès à Internet ont été implantés dans les bibliothèques, en accès semi-direct.
Il existait donc trois types de postes distincts pour accéder aux cédéroms, au catalogue et à Internet.
La réflexion menée dans le cadre de la réorganisation du SCD Lyon 3 autour de laménagement du site de la Manufacture a révélé la confusion possible pour les usagers concernant laccès à ces trois types de gisements documentaires (base bibliographique, banque de données, documents électroniques).
Le même souci de transparence et de flexibilité à la base de la réflexion architecturale pour le nouveau bâtiment du site de la Manufacture a conduit léquipe du SCD à envisager un système daccès informatisé multisupport-multimédia. Ce projet a été réalisé en partenariat avec la société Archimed et a été nommé Système dinformation pour les bibliothèques détude et de recherche (SIBER).
Pour lutilisateur, il sagit dune interface unique permettant laccès à lensemble des fonctions et des services. Laccès aux trois modules que sont le catalogue, le réseau de cédéroms et Internet est totalement transparent.
Articulé autour du noyau documentaire géré par le serveur Geac/Advance, ce système, dune grande complexité technique, sorganise autour des produits Archimed en faisant coexister en réseau plusieurs serveurs hétérogènes. Ces produits sont :
Book-Line. Cest un OPAC multimédia. Il permet de lier aux notices bibliographiques des objets de différente nature, par exemple une image numérisée, un enregistrement sonore, un film vidéo, un cédérom, un site Internet, par des liens hypertextes définis par ladministrateur. Chaque usager peut consulter son « album » et dispose dun bloc note. Il peut ainsi enregistrer des résultats de recherche, vérifier ses emprunts et pourra, à lavenir, réserver des documents et suggérer des acquisitions. De son côté, ladministrateur peut paramétrer les niveaux de sécurités, les droits des usagers, éditer des statistiques, etc.
CD-Line. Cest un réseau de cédéroms muni dune interface conviviale et sécurisée. Ladministrateur peut gérer les titres, les mises à jour, les droits en fonction des licences, etc. Un premier écran propose un accès thématique, un deuxième écran affiche les titres des cédéroms du thème choisi et permet de lancer la consultation.
Archimed Internet Explorer. Cette interface permet doffrir un accès limité à Internet. Ladministrateur sélectionne les sites web qui seront accessibles ; au SCD Lyon 3, le choix a été effectué par léquipe de coordination des nouvelles technologies en accord avec les responsables des différentes bibliothèques en fonction des domaines denseignement.
Les modules réservés à ladministrateur.
Web-Line permet de diffuser le catalogue sur Internet en personnalisant linterface de consultation et en intégrant les fonctions de Book-Line (en cours de réalisation).
Digi-Line est une station de numérisation qui permet au SCD dêtre autonome dans sa politique de numérisation.
Creative-Line permet de personnaliser les différents modules en créant des documents multimédia.
Des postes daccès à SIBER ont été installés sur les trois sites (annexe B).
Le traitement des ouvrages en caractères non latins à Lyon 3
Le fonds denviron 9000 ouvrages recensés en caractères non latins (voir annexe C) de luniversité Lyon 3 a été constitué essentiellement à partir de dons et déchanges. Les acquisitions ne sont pas très nombreuses. Elle concernent essentiellement le russe, larabe, le chinois et le japonais.
Le problème de lintégration de ces ouvrages au catalogue est longtemps resté en suspens. Jusquà présent, ils sont catalogués sur fiches papier lorsque quelquun de compétent dans la langue est trouvé pour effectuer cette tâche. La fiche comporte éventuellement la romanisation. Une personne du service, dorigine russe, a été chargée du cataloguer les ouvrages en langues slaves.
Comme on la vu précédemment, le SCD sest doté dun logiciel intégré de documentation (Geac/Advance) et dun système multimédia (Book-line, etc. de la société Archimed).
Les responsables du SCD ont donc imaginé une solution adaptée aux outils informatiques dont ils disposent pour que ces ouvrages soient enfin mentionnés dans le catalogue : cataloguer les ouvrages en transcrivant les caractères originaux en caractères latins et lier par un lien hypertexte limage numérisée de la page de titre et du sommaire à la notice de louvrage.
Le système Geac/Advance est paramétré pour utiliser le jeu de caractères latins étendu ISO 5426 (voir page * et annexe G). Il nest donc pas possible dutiliser dautres caractères que ceux prévus par le jeu ISO 5426 (pour les notices bibliographiques), cest-à-dire les caractères utilisés en français, quelques lettres spéciales et des signes diacritiques. La solution de la romanisation sest donc imposée. Cette solution étant loin dêtre idéale, la fonctionnalité multimédia du système dinformation permet de compléter la notice romanisée par limage numérisée de la page de titre et du sommaire. Le lecteur pourra ainsi vérifier si la notice quil a reçu en réponse à son interrogation correspond à son attente.
Lavantage de cette solution est dêtre adaptée aux moyens informatiques et de les utiliser pleinement. Les images numérisées permettent davoir une idée précise du contenu du document. Cependant, une recherche sur les caractères originaux est impossible puisque le texte représenté sur les images ne peut pas être indexé.
La numérisation des pages de titre et des sommaires avec le module Digi-Line est lobjet dune étude menée par une autre stagiaire. Les liens hypertexte seront réalisés par léquipe de Coordination des nouvelles technologies, responsable de la mise en place de SIBER.
Mon rôle était de rassembler les informations concernant la translittération ou la transcription des caractères non latins et de rédiger un document destiné aux catalogueurs.
Quelques définitions :
ð La translittération est lopération qui consiste à représenter les caractères dune écriture alphabétique ou syllabique par les caractères dun alphabet de conversion. En principe cette conversion doit se faire caractère par caractère ; chaque caractère du système graphique converti est rendu par un caractère et un seul de lalphabet de conversion, ce qui est la façon la plus simple dassurer la réversibilité complète et sans ambiguïté de lalphabet de conversion dans le système converti.
ð La retranslittération est lopération qui consiste à convertir les caractères dun alphabet de conversion dans le système décriture converti. Cest lopération exactement inverse de la translittération. Elle sexécute en appliquant les règles dun système de translittération en sens inverse, de façon à reconstituer le texte translittéré sous sa forme originale.
ð La transcription est lopération visant à noter la prononciation dune langue donnée au moyen du système de signes dune langue de conversion. Un système de transcription repose nécessairement sur les conventions orthographiques de la langue de conversion. La transcription nest pas strictement réversible. Elle peut être utilisée pour la conversion de tous les systèmes décriture. Elle est la seule méthode utilisable pour les systèmes non entièrement alphabétique ou syllabiques et pour toutes les écritures idéophonographiques, comme le chinois.
ð La romanisation est la conversion décritures non latines dans lalphabet latin. Pour celle-ci, on peut utiliser soit la translittération, soit la transcription, soit un mélange des deux méthodes, suivant la nature du système converti.
Daprès une recherche dans le catalogue de lAfnor, disponible sur son serveur web, cette organisation publie :
5 normes homologuées rassemblées dans un recueil de normes :
ISO 9:1995 (F) Translittération des caractères cyrilliques,
ISO 233-2:1993 (F) Translittération des caractères arabes,
ISO 259-2:1995 (F) Translittération des caractères hébraïques,
ISO 3602:1990 (F) Romanisation du japonais (écriture en kana),
ISO 7098:1992 (F) Romanisation du chinois,
1 projet de norme de translittération des caractères grecs Z 44-004 de 1992,
1 fascicule de documentation de translittération de lécriture coréenne FD ISO TR 11941:1997 (rapport technique).
Linterrogation du catalogue de lISO, disponible sur son serveur web, permet de constater que :
Le projet concernant les caractères grecs a été homologué par lISO (ISO 843:1997). Le texte nest disponible quen anglais, mais lAfnor devrait bientôt valider ce texte et publier la norme française.
Il existe dautres normes ou projets de norme :
ISO/DIS 233-3 translittération du persan (projet),
ISO 9984:1996 translittération des caractères géorgiens,
ISO 9985:1996 translittération des caractères arméniens,
ISO/DIS 11940 translittération du thaï (projet).
On constate quil existe des normes de translittération et de transcription pour les langues en caractères non latins les plus répandues. Pour des langues moins courantes, telles que le bengali, lhindi, le persan, les grandes bibliothèques, par exemple la Bibliothèque du Congrès ou la BnF, ont des systèmes propres.
La BnF met à disposition la liste des systèmes de romanisation utilisés dans la base BN-Opale (voir annexe F et page *).
Les systèmes de romanisation utilisent les diacritiques ainsi que les lettres spéciales du jeu de caractères latins étendus ISO 5426 (voir page * et annexe G). Le système Geac/Advance fonctionnant avec ce jeu de caractères permet de les saisir. Mais lémulation des terminaux de sortie ne permet dafficher ou dimprimer que les caractères du jeu ISO 646 (ASCII).
Pour faciliter la saisie des caractères et des diacritiques non accessibles au clavier français, le système Geac/Advance a prévu des codes mnémoniques de la forme &**.
Il est possible daccéder à la table des codes des diacritiques et de la modifier. Chaque champ de cette table comporte une description du caractère, son code ISO 5426 hexadécimal, le code ASCII hexadécimal du caractère daffichage (sil y a lieu) et le code ASCII hexadécimal du caractère de saisie (mnémonique ou code ASCII).
Jai donc vérifié et complété cette table :
signes des colonnes 2 et 3 : seuls quelques signes sont affichables, pour les autres, il ny a pas daffichage,
diacritiques des colonnes 4 et 5 : les lettres accentuées disponibles à laffichage sont définies à part, chacune dans un champ, et le code de saisie et celui daffichage sont identiques ; sur les autres lettres, les diacritiques ne sont pas affichés,
lettres des colonnes 6 et 7 : si la lettre nest pas définie dans la table ASCII, le caractère daffichage est choisi le plus proche possible ( sera affiché OE, Ð sera affiché D, mais Þ ne sera pas affiché).
Exemples :
| Caractère | à |
A-E liés |
accent aigu |
| Code ISO 5426 | C1,61 |
E1 |
C2 |
| Affichage (ASCII) | 85 |
92 |
|
| Saisie (ASCII) | 85 |
26,41,45 |
26,41,47 |
Des essais de notices ont permis de constater les erreurs dans la table, elles ont pu être corrigées. Dautre part, il semble que Book-Line permette laffichage des caractères latins étendus, mais la table de codage doit être vérifiée puisque quelques erreurs apparaissent.
Après une courte introduction et quelques exemples, un tableau général indique :
le numéro du signe dans le tableau du jeu de caractères ISO 5426,
sa description,
son code mnémonique,
sa représentation,
le caractère affiché, sil existe.
Un deuxième tableau indique, langue par langue, les signes utilisés en reprenant le contenu du tableau général.
Ce document constitue lannexe D.
Étude des solutions exploitées par dautres bibliothèques
Le fonds chinois de la Bibliothèque Municipale de Lyon
Rencontre avec M. Jean-Louis Boully, le 16 mai 1997.
Adresse : 30, boulevard Vivier Merle, 69431 Lyon cedex.
Le fonds chinois de la Bibliothèque Municipale de Lyon est catalogué à part sur le logiciel Agate en utilisant une couche logicielle qui permet de saisir aussi bien des caractères latins que des caractères chinois par basculement entre les deux modes par une séquence déchappement. Ce logiciel « Chinese Star » permet dintégrer des caractères chinois dans différents types de logiciels : traitement de texte (p. ex. Word pour Windows), logiciel de recherche sur Internet (p. ex. Netscape), logiciel de catalogage Agate.
ð Le logiciel Chinese Star permet de saisir les caractères chinois de différentes façons : par la transcription phonétique puis choix du caractère parmi plusieurs propositions, par des tables de caractères, par des codes numériques, par décomposition graphique des caractères.
Ce logiciel, un des plus répandu en Chine, utilise seulement la norme de codage GB (voir page *). Il permet de saisir 15000 caractères, aussi bien du chinois traditionnel que du chinois simplifié.
ð Le logiciel de catalogage Agate équipe surtout des petites et moyennes bibliothèques municipales. Il correspond à la norme Unimarc qui permet le catalogage en caractères non latins. Le logiciel a été paramétré pour doubler les champs. Les notices contiennent donc les caractères chinois originaux et la transcription. Les deux types de données sont indexées. Les fichiers autorité contiennent à la fois les données transcrites et les éléments en caractères originaux. Il est donc possible deffectuer des recherches par les caractères chinois aussi bien que par la transcription.
Lannexe E présente, avec laimable autorisation de M. Boully, le format UNIMARC des notices.
Le Service des langues orientales (SLO) de la BnF
Rencontre avec Mme Marie Avril (Directeur du SLO), Mme Salima Boukris (SLO/arabe), Mme Kill-Ja Song (SLO/coréen), le 4 juin 1997. Contacts téléphoniques avec Mme Sara Yontan (SLO/turc et déléguée à la normalisation) et M. Vincent Hachard (chef du service Littérature française, Département Art et Littérature).
Adresse : 11, quai François Mauriac, 75706 Paris cedex 13.
La BnF est née de la fusion de la Bibliothèque Nationale et de la Bibliothèque de France.
A la BN, les documents en caractères non latins étaient catalogués sur fiches papier en caractères originaux par un spécialiste de la langue. Seuls les ouvrages reçus au titre du dépôt légal, les périodiques étrangers, les partitions musicales (cest-à-dire les documents ne relevant pas du SLO) étaient saisis dans la base BN-Opale romanisés. Cette base, créée en 1983, contient tous les ouvrages en caractères latins, y compris les langues riches en diacritiques telles que le vietnamien. Les terminaux ont été configurés pour afficher ces signes.
Louverture de salles en libre accès à la BnF a nécessité lintroduction de tous les documents, même en caractères non latins, dans le catalogue pour faciliter leur accès. En labsence de la possibilité de saisir les caractères originaux, la décision de cataloguer les ouvrages du Service des littératures orientales (SLO) en translittération ou romanisation sur le système informatique Geac/Ivry (ou Geac-Libre Accès) a été prise en janvier 1996. Les zones romanisées des notices sont doublées pour avoir plus tard en parallèle les zones en caractères originaux et leur romanisation.
Cette décision avait été retardée dans lespoir dobtenir directement un système de catalogage informatisé de ces documents avec les caractères dorigine. Un tel système ne verra le jour à la BnF que (au mieux) dans trois ans.
Pour toutes les langues alphabétiques, des normes ou des systèmes de translittération réversibles ont été choisis pour pouvoir retranslittérer automatiquement les notices en caractères originaux lorsque le nouveau système informatique sera mis en place. Pour les langues non alphabétiques (romanisation non réversible), le catalogage manuel en caractères originaux est poursuivi.
Le module de catalogage a été muni dune émulation qui permet dafficher tous les signes diacritiques. Le catalogue sur cédérom naffiche pour linstant que quelques signes diacritiques, mais chaque nouvelle version présente des améliorations.
Lannexe F donne la liste des systèmes de romanisation utilisés dans la base BN-Opale.
Pour les caractères cyrilliques, arabes et hébraïques, la norme ISO est utilisée, de même que pour le chinois. Pour le coréen, la BN a adopté un système de translittération réversible propre.
Pour le grec, le projet ISO/DIS 843.3 (1995) a été adopté, ce système vient dêtre homologué comme norme. Un programme de recherche appliqué HELEN, mené par la Commission Européenne (DG XIII) de 1993 à 1995, a développé un programme de conversion des caractères grecs en caractères latins et réciproquement dans des notices bibliographiques, et également pour promouvoir un système de translittération réversible.
Pour le persan, la BN a adopté un système propre qui ne correspond pas au projet ISO/DIS 233-3. En ce qui concerne le japonais, la BN utilise, dans BN-Opale, le système Hepburn, plus facile et plus logique que le système de la norme ISO 3602, et utilisé par les japonais.
En 1999, les deux bases actuelles, BN-Opale et Geac/LA seront reversées dans une base unique, le SI (système dinformation). Le catalogage des documents en caractères non latins sera poursuivi en romanisation.
Dans un deuxième temps, les caractères non latins seront intégrés au système et le catalogage dans la base SI sera fait en caractères originaux et doublé par la romanisation, selon un calendrier de priorités : 1° alphabets arabe, cyrillique, hébraïque, grec ; 2° chinois, japonais, coréen ; 3° autres langues. Une des zones romanisées (doublées) sera retranslittérée automatiquement pour les notices translittérées et retranscrite manuellement pour les notices transcrites non réversiblement.
Le futur SI fonctionnera avec le système Unicode (voir page *) et les notices contiendront les données en caractères originaux et romanisées. Il utilisera le format Intermarc intégré pour faciliter le codage des langues, zone par zone.
Le fonds des langues slaves à la bibliothèque de la Sorbonne
Rencontre avec Mme Françoise Richard, le 6 juin 1997.
Adresse : 47, rue des Écoles, 75230 Paris cedex 05 ; tél. 01 40 46 30 27.
Les ouvrages en langues slaves sont catalogués par translittération des caractères cyrilliques selon la norme ISO 9:1986 (identique à la norme ISO 9:1995 pour les langues slaves), depuis 1986, sur le réseau SIBIL.
Un problème na pas été résolu : les signes diacritiques sont codés mais napparaissent pas dans le catalogue. Ils sont cependant rétablis sur les produits (micro-fiches).
Lobjectif de la bibliothèque est la mise en place dun système informatisé intégré (actuellement, elle fonctionne avec deux systèmes différents pour le catalogage et pour le prêt), puis éventuellement lacquisition dun logiciel permettant le traitement des caractères originaux (par exemple Aleph).
Contact : Mme Irène Paillard (conservateur, projet Aleph)
Adresse : 6, allée de lUniversité, 92001 Nanterre cedex.
Cette bibliothèque de 3ème cycle et de recherche possède un important fonds de périodiques et douvrages en différentes langues slaves (en particulier le russe). Elle a choisi le logiciel intégré de gestion de bibliothèques Aleph qui permet de saisir ces caractères pour permettre les échanges avec les bibliothèques américaines parce quelles nutilisent pas les systèmes de translittération ISO.
Ce logiciel est en cours dinstallation. Il fonctionnera en tant que base parallèle, réservée aux documents en caractères cyrilliques.
Contact : M. Jean-Claude Kuperminc (Directeur).
Adresse : 45, rue La Bruyère, 75425 Paris cedex 09.
Spécialisée dans le judaïsme et lhistoire juive, cette bibliothèque possède environ 120000 ouvrages. Elle utilise également le système Aleph, mais avec les caractères hébraïques. 2500 notices ont déjà été rétroconverties à partir de fiches papier. Pour faciliter ce travail, il existe des cédéroms qui permettent de récupérer des notices bibliographiques douvrages en hébreu au format utilisé par Aleph.
Les modules de prêt et dOPAC ne sont pas encore utilisés en raison du faible nombre de volumes entrés dans la base.
Aleph est un logiciel intégré de gestion documentaire développé par la Bibliothèque Universitaire de Jérusalem. Très répandu, il est utilisé par toutes les BU en Israël et la plupart des bibliothèques juives aux Etats-Unis, et fait son entrée en France. En Europe, il est particulièrement utilisé au Danemark, en Hongrie et en Italie.
Le logiciel peut intégrer actuellement 5 jeux de caractères différents (latin, cyrillique, grec, arabe et hébraïque) et peut donc gérer les deux directions (de gauche à droite et de droite à gauche). Lutilisation dUnicode est envisagée dès que la norme sera validée. Le système permettra alors tous les caractères prévus, y compris le groupe CJK (voir page *).
La bibliothèque inter-universitaire des Langues Orientales
Contact : Mme Nelly Guillaume (directrice) et Mme Cristina Cramerotti (conservatrice, projet CJK)
Adresse : 4, rue de Lille, 75007 Paris.
Cette bibliothèque possède 500 000 ouvrages dont 85 % en langues étrangères (anglais, russe, arabe, turc, chinois, japonais, etc.) et 80 langues sont enseignées à lInstitut des langues orientales.
La bibliothèque fait partie du réseau OCLC. Elle constitue un pôle associé de la BnF pour les langues rares dExtrême Orient (hindi, bengali, tamoul, tibétain, indonésien, ourdou et thaï). La partie de son fonds correspondant à ces langues est translittérée dans le catalogue. Pour le reste, le catalogue sur fiches est maintenu (caractères originaux). Le logiciel de traitement de texte Unitype permet dimprimer les fiches et les catalogues.
La bibliothèque envisage lacquisition du module CJK dOCLC.
Les réseaux OCLC et RLIN proposent tous les deux des systèmes pour le traitement des documents en langues idéographiques.
Cet outil permet le catalogage de documents en langues idéographiques, en particulier le chinois, le japonais et le coréen. Il permet en plus d'accéder en ligne à WorldCat, le catalogue OCLC complet, et au catalogage partagé. Il inclut également un système qui transforme la romanisation Pinyin en romanisation Wade-Giles.
Les avantages sont un clavier normal, cinq méthodes pour générer les caractères (phonétiques et graphiques), un éditeur de texte (fonctions copier-coller). Le principal inconvénient est l'absence, dans le système, de la possibilité de gérer les langues alphabétiques non latines.
La prochaine version du système fonctionnera seulement sous Windows 95 et Windows NT.
En janvier 1994, la base CJK contenait 769 000 notices dont 41,5 % de documents chinois, 49,5 % de documents japonais et 9,0 % de documents coréens. En janvier 1997, elle en contient 1,415 millions et en avril 1997 1,455 millions dont 42,85 % de documents chinois, 48,9 % de documents japonais, 8,0 % de documents coréen et 0,25 % de documents en d'autres langues.
RLIN a proposé dès 1983 un système de saisie de caractères idéographiques sur son réseau. Cette application nécessite un terminal spécial muni d'un clavier spécialisé. Les catalogueurs doivent posséder une très bonne connaissance des caractères idéographiques et suivre une longue formation au système.
La nouvelle version des terminaux RLIN pour Windows permet tous les jeux de caractères des langues JACKPHY (japonais, arabe, chinois, coréen, persan, hébreu, yiddish + caractères cyrilliques).
L'inconvénient principal de cette application est davoir besoin de terminaux spécifiques (sauf pour la version sous Windows), mais son avantage est de rassembler en plus des langues CJK, les langues alphabétiques à caractères non latins.
La base RLIN contient à peu près autant de notices de documents en japonais et en coréen que la base OCLC, mais plus en chinois.
Le système de codage des caractères est commun aux deux réseaux, il s'agit du système EACC (voir page *). Cela permet l'échange de notices entre ces deux réseaux, des accords existant entre eux.
Vers une solution universelle ?
L'IFLA se penche depuis un certain temps déjà sur le problème des documents en caractères non latins. Elle a organisé dès 1986 une pré-conférence à Tokyo sur ce thème. Sept ans plus tard, en 1993, une deuxième conférence, organisée à Madrid en marge du 59ème congrès de l'IFLA à Barcelone a fait le point sur les progrès réalisés et ceux restant à faire.
Six axes problématiques ou de réflexion avaient été identifiés.
La prise de conscience et l'influence d'experts de pays à écriture non latine
La participation d'experts de ces pays commence à augmenter au sein des comités de normalisation et instances influentes, en particulier ceux des pays CJK. L'UNESCO et l'IFLA ont mis en place, à la fin des années 1980, un programme commun pour favoriser la bibliothéconomie dans les pays du Tiers-monde.
La normalisation des systèmes de transcription
Ces dix dernières années, un grand nombre de normes de translittération ou de transcription ont été homologuées (voir page *) grâce à la participation de spécialistes des pays concernés. La difficulté est maintenant l'application de ces systèmes, en général non phonétiques, donc difficilement lisibles pour les spécialistes des langues concernées. Une autre difficulté est l'utilisation de nombreux diacritiques dans les systèmes de romanisation puisque les jeux de caractères utilisés ne permettent généralement pas de les afficher tous.
L'obstacle le plus important est sans doute les problèmes posés par les changements de systèmes de romanisation pour les bibliothèques, en particulier pour récupérer les notices et localiser les documents. Par exemple, OCLC a dû incorporer à son système un programme de conversion entre les deux systèmes de romanisation du chinois, le pinyin récemment introduit et le système Wade-Giles précédemment utilisé.
La normalisation des jeux de caractères
La première méthode de codage acceptée était le BCD (Binary Coded Decimal, décimal codé binaire) à 6 bits, largement utilisé autour des années 1960. Il comportait 64 caractères (A-Z, 0-9 et 28 symboles spéciaux). Limité, ce système a été remplacé en 1965 par un système codé sur 7 bits, le code ASCII, qui a été certifié par l'ANSI en 1977, puis par l'ISO et dont la version internationale est la norme ISO 646.
Le code ASCII est très largement insuffisant puisque l'anglais est la seule langue qui puisse être écrite avec ce code. Des systèmes à 8 bits ont donc été développés. Pouvant coder 256 caractères, ils sont bien adaptés aux langues alphabétiques et peuvent être utilisés pour plusieurs langues à caractères voisins. Ils ne permettent pourtant pas de coder les idéogrammes. Au Japon, à Taïwan, en Chine, différents codes ont été développés, sur 16 ou 24 bits. La solution est donc de se mettre d'accord sur un jeu de caractères universel.
L'ISO 8859 code des jeux de caractères sur 8 bits (1 octet) pour écrire les langues européennes. Cette norme en dix parties prévoit les caractères latins accentués et un nombre limité de caractères cyrilliques, arabes, grecs et hébraïques.
| Partie 1 : | caractères latins | (langues d'Europe de l'Ouest) |
| Partie 2 : | caractères latins | (langues d'Europe de l'Est) |
| Partie 3 : | caractères latins | (langues d'Europe du Sud) |
| Partie 4 : | caractères latins | (langues d'Europe du Nord) |
| Partie 5 : | caractères latins + cyrilliques | |
| Partie 6 : | caractères latins + arabes | |
| Partie 7 : | caractères latins + grecs | |
| Partie 8 : | caractères latins + hébraïques | |
| Partie 9 : | caractères latins | (turc) |
| Partie 10 : | caractères latins | (islandais, langues baltes) |
Les ordinateurs personnels ne fonctionnent pas avec ces normes de codage puisqu'elles ont été adoptées trop tard.
D'autre part, pour les échanges de notices bibliographiques, des jeux de caractères spécifiques ont été définis, en particulier pour des notices multilingues ou en caractères non latins non translittérées. Les standards ISO 5426, 5426-2, 5427, 5428 sont les extensions de caractères latins, latins rares, cyrilliques et grecs respectivement. Il existe d'autres codes pour des jeux de caractères africains, hébraïques, arméniens, géorgiens, etc.
Le jeu de caractères défini par défaut dans les notices UNIMARC est le jeu ISO 646. Ce jeu de caractères peut être complété par d'autres jeux de caractères. Le jeu utilisé en France est le jeu de caractères latins étendu ISO 5426-1983. Il fournit des codes et caractères spéciaux pour la plupart des langues latines et pour les translittérations de langues non latines en alphabet latin. Il prévoit des symboles spéciaux, des lettres spéciales et des signes diacritiques dont le code précède celui de la lettre qu'il accompagne. Ces caractères sont représentés à l'annexe G.
Le premier code conçu pour le traitement des caractères idéographiques était le code japonais JIS S 6226-1978. Il a ensuite servi de modèle à dautres codes utilisés en Asie Orientale. Les caractères sont codés sur deux octets. La version 1990 est appelée JIS X 0208:1990. Elle contient environ 6500 caractères et inclut les kanas et des caractères latins, grecs et cyrilliques. Ce jeu de caractères est utilisé par de nombreux logiciels de traitement de texte et systèmes informatiques japonais.
La Chine Populaire s'est inspirée de ce standard pour concevoir son propre standard GB 2312 (GB). La Corée du Sud, de son côté, a publié son code KS C 5601 (KS) qui contient près de 5000 idéogrammes et 2350 combinaisons syllabiques de son alphabet hangul.
Le standard taïwanais CNS X-11643, appelé Big5, a été développé plus tard, en 1986. Il défini environ 13000 caractères chinois divisés en deux parties en fonction de leur fréquence d'usage. Différentes extensions ajoutées par les concepteurs informatiques font qu'il n'existe plus un véritable standard Big5 bien défini. La dernière version publiée contient environ 55000 caractères.
Les caractères de ces quatre codes (JIS, GB, KS et Big5) sont codés sur 2 octets (16 bits).
Les quatre codes mentionnés ci-dessus (JIS, GB, KS et Big5) ne recouvrent pas les même caractères, n'en contiennent pas le même nombre et bien sûr n'ont pas les même codes pour les caractères communs. Au début des années 1980, les grandes bibliothèques américaines ont décidé d'informatiser les catalogues CJK. A cette époque, il n'existait encore que les codes restreints japonais et taïwanais. Le Chinese Character Research Group à Taipei proposa alors de réaliser rapidement un jeu de caractères très large, CCCII (Chinese Character Code for Information Interchange). Il contient maintenant environ 70000 caractères des trois langues CJK, codés sur 3 octets.
Le réseau RLIN a adopté un autre standard, extrait de CCCII, EACC (East Asian Character Code) pour le catalogage des documents en caractères CJK. Ce code est devenu la norme américaine ANSI Z39.64-1989. Il a été introduit dans le réseau RLIN en 1983, et OCLC l'a repris en 1986. Il est donc possible d'échanger des notices en écritures idéographiques entre les deux principaux réseaux nord-américains, mais pas avec, par exemple, les bibliothèques japonaises qui utilisent le standard JIS.
On imagine sans peine les problèmes posés par la multiplication des standards de codage des caractères au moment où, d'Internet aux réseaux de bibliothèques, les échanges en tous genres s'accélèrent. D'où l'idée d'un jeu de caractères universel qui intègre toutes les langues écrites.
Deux projets ont débuté simultanément :
ð La norme ISO/IEC 10646-1:1993, intitulée "Jeu de caractères universel codé sur plusieurs octets" ("Universal Character Set", UCS) a été approuvée en 1992 et publiée en 1993. Le codage des caractères est prévu sur 4 octets. Ce code s'insère donc dans un cadre à quatre dimensions. On peut se le représenter en imaginant une rue de 256 maisons, chaque maison comportant 256 niveaux, chaque niveau comportant 256 couloirs et chaque couloir 256 pièces, chaque pièce contenant un caractère.
Le premier niveau de la première maison constitue le "plan de base multilingue" (Basic Multilingual Plane, BMP). Ce niveau est pour l'instant le seul rempli. Ces caractères sont donc codés sur seulement 2 octets puisque pour tous les caractères de ce niveau, deux des quatre octets restent identiques, avec la valeur hexadécimale 00 00.
ð Parallèlement s'est développé Unicode, un (autre) jeu de caractères universel, né de la réflexion d'un consortium d'industriels autour de Apple et Rank Xerox. Ce jeu est codé sur deux octets.
Ces deux projets ont fusionné en 1991. Des aménagements ont été faits et Unicode est identique au plan multilingue de base (BMP) de l'ISO 10646. Il est souvent affirmé quUnicode et l'ISO 10646 sont identiques, cette affirmation est fausse si lon sen tient à la définition stricte des deux systèmes, si lon considère par contre que le jeu de lISO 10646 est réduit au BMP, puisque les autres niveaux ne sont pas définis, elle est, pour linstant, acceptable.
Les 127 premiers caractères d'Unicode sont ceux de l'ISO 646. Les 127 suivants sont ceux de l'ISO/IEC 8859-1 (latin-1), ce qui facilitera les conversions.
Unicode contient :
les caractères latins accentués (différentes langues européennes),
l'alphabet phonétique international (IPA)
les caractères grecs, cyrilliques, géorgiens et arméniens, hébraïques,
les quatre formes des caractères arabes,
les caractères des langues du sous-continent indien
le thaï et le laotien,
les caractères idéographiques CJK,
des opérateurs mathématiques,
les caractères spéciaux pour la reconnaissance optique de caractères,
des caractères graphiques et géométriques.
Il y manque encore quelques langues rares et les langues mortes que les spécialistes aimeraient voir figurer dans ce code : le cherokee, le cree et léthiopien ont été acceptés et entreront dans la prochaine version, dautres langues modernes comme le khmer, ainsi que des langues archaïques ou obsolètes (telles que létrusque), les écritures cunéiformes (par exemple babyloniennes), les hiéroglyphes (par exemple égyptiens), ne sont pas encore prévus.
Pour gagner de la place et pouvoir coder le plus grand nombre de langues possible, il a été décidé de ne coder qu'une seule fois chaque caractère. Ce point est particulièrement délicat pour les idéogrammes CJK. Un même caractère utilisé en Chine, au Japon ou en Corée ne devra être codé qu'une seule fois. Il a donc été procédé à l'"unification Han" (Han Unification).
Le but de cette unification est de nassigner quun code à chaque caractère Han, quil soit chinois, japonais ou coréen. Dans de nombreux cas, cest simple, dès lors que la forme et la signification sont identiques dans toutes les langues dans lesquelles il est utilisé. Pour dautres caractères, ce nest pas si simple, il peut exister de légères variations dans leur apparence. Le Ideographic Rapporteur Group (IRG), réuni par lISO et comprenant des représentants de Chine, du Japon, de Corée, des États-Unis, du Vietnam, de Hongkong et de Taiwan a classé les idéogrammes et est arrivé à une table de près de 21000 caractères uniques. Cette table est utilisée par la norme Unicode.
L'annexe H représente une carte des différents sous-jeux de caractères intégrés à Unicode et l'annexe I les caractères des quatre premiers de ces sous-jeux ("basic latin", "latin-1 supplement", "latin extended-A" et "latin extended-B" de la version 2.0 dUnicode publiée en 1996.
Le tri et la récupération des notices
Lordre alphabétique classique pour les caractères latins ne suffit pas pour classer des notices, puisquil existe des lettres liées. La lettre I-J liés est par exemple classée à AY dans les systèmes néerlandais et non pas à IJ comme on pourrait le penser au premier abord.
Les principaux problèmes sont les idéogrammes chinois, la séparation des mots dans les écritures syllabiques, les digraphes et les diacritiques.
Lajustement des standards ISBD et UNIMARC
Des ajustements ont déjà été réalisés, on peut définir jusquà quatre jeux de caractères dans la zone 100 dUNIMARC et on peut doubler certains champs pour saisir des caractères originaux et leur romanisation, par exemple.
La motivation des concepteurs et diffuseurs dapplications informatiques
Sur ce point également, les progrès avancent. Les deux grands réseaux bibliographiques américains RLIN et OCLC proposent des solutions pour certaines écritures non latines (voir page *).
Dun autre côté, les applications de gestion intégrée de bibliothèque permettant lune ou lautre de ces écritures se développent, on a mentionné le système Aleph (voir page *).
Parmi les bibliothécaires confrontés au problèmes des langues à écriture non latine, la tendance est nettement à lintroduction des caractères originaux dans le catalogue, pour en faire des outils multi-langues et multi-écritures (multilingual and multiscript). Non seulement par respect des langues écrites en caractères non latins, mais aussi pour satisfaire les lecteurs qui ne sont souvent pas familiarisés avec les procédés de romanisation.
Les bibliothèques attendent donc beaucoup dUnicode qui devrait résoudre les problèmes de codage des caractères. Ce code doit cependant être homologué et surtout, les concepteurs de systèmes dexploitation et dapplications informatiques devront le prendre en considération.
Il faudra ensuite discuter des difficultés propres aux bibliothèques et des logiciels de gestion documentaire, comme le tri et la récupération des notices, les formats ISBD et Unimarc.
Le problème des langues à écritures non latines progresse donc dans le bon sens, mais tout nest pas encore résolu et il faudra certainement encore quelques années et beaucoup defforts pour arriver à une solution universelle.
Ce stage ma permis dobserver le fonctionnement dun Service commun de la documentation, et plus particulièrement la réflexion menée à Lyon 3 autour du passage de la Bibliothèque Universitaire classique au Système dInformation dans le cadre de la mission daccompagnement de lenseignement et de la recherche de luniversité.
Quant à mon travail lié au problème, pour moi insoupçonné, du traitement informatique des documents en caractères non latins, il ma permis dapprendre beaucoup de choses, concernant ces langues et concernant en particulier les contraintes du format bibliographique et le codage des caractères. Il sest partagé en trois parties :
ð La rédaction dun document qui permettra aux catalogueurs de saisir la translittération des titres et des noms dauteurs (page * et annexe D). Ce document met en relation les caractères définis par lISO 5426, le jeu de caractères utilisé dans le format Unimarc pour la saisie de notices bibliographiques et les mnémoniques de saisie propres au logiciel Geac/Advance. Il précise les normes de translittération ou de transcription à utiliser (cest-à-dire celles utilisées dans BN-Opale) et spécifie, langue par langue, les caractères à utiliser.
ð Une étude des solutions mises en place ou envisagées par des grandes bibliothèques françaises concernées par le problème (pages * à *). Je me suis rendue à Paris où jai visité le département des Langues Orientales de la BnF et jai rencontré un conservateur responsable du fonds slave à la bibliothèque de la Sorbonne. Jai également rencontré à Lyon le conservateur responsable du fonds chinois. Grâce à ces visites, jai pu contacter dautres responsables de bibliothèques et prendre connaissance du Logiciel Aleph, en cous dinstallation à la BDIC et installé à la bibliothèque de lAlliance Israélite Universelle, et aussi avoir un avis comparatif sur les systèmes CJK de OCLC et RLIN, grâce aux responsables de la bibliothèque des Langues Orientales.
ð Une recherche bibliographique sur les solutions envisagées au niveau mondial, en particulier sur le jeu de caractères universel Unicode (page *). Au cours de mes entretiens revenait souvent le nom de ce jeu de caractères universel qui pourrait résoudre tous les problèmes. Jai donc fait des recherches bibliographiques, en particulier sur Internet, à propos dUnicode (un site web y est consacré), à propos des systèmes de gestion documentaire dont on ma parlé : les systèmes CJK dOCLC et RLIN, ainsi que des recherches plus générales sur les problèmes posés par les caractères non latins aux bibliothèques. Jai également eu connaissance dune conférence satellite de lIFLA sur ce problème spécifique. Jai pu me procurer les actes de cette conférence, mais la revue bibliographique nest pas complète puisque je nai pas pu accéder à tous les documents dont javais besoin.
Ce stage a donc été pour moi très riche en nouveautés et jen sais maintenant beaucoup plus long sur le codage des caractères et sur les difficultés liées au catalogage de documents en langues non latines.
AFNOR : Association française de normalisation. Cet organisme anime le système français de normalisation, élabore les normes françaises, représente et défend les intérêts français dans les instances européennes et internationales de normalisation, assure la promotion de l'application des normes, et développe la certification de produits et services.
ASCII : (American Standard Code for Information Interchange)
BN : La Bibliothèque Nationale, vieille de cinq cents ans, a pour principale mission de conserver les ouvrages reçus, en particulier par le dépôt légal.
BN-Opale : Cette base maintenue par la BN puis la BnF constitue le catalogage partagé avec des bibliothèques universitaires ou spécialisées. Elle contient plus de deux millions de références, et plus de dix millions d'accès indexés (dépôt légal, achat, don ou échange depuis 1970, périodiques entrés par dépôt légal , abonnement, don ou échange depuis 1960, les documents informatiques depuis 1994, etc. Elle permet la production de la Bibliographie nationale française.
BnF : La Bibliothèque nationale de France est née de la fusion de la BN et de la Bibliothèque de France, le grand projet de bibliothèque moderne imaginé par François Mitterand.
CCCII : Ce code de caractères chinois pour léchange dinformation (Chinese Character Code for Information Interchange) a été réalisé par le Chinese Character Research Group à Taiwan. Il contient environ 70000 caractères idéographiques codés sur 3 octets (page *).
CJK : Ce sigle désignant un groupe de trois langues utilisant des idéogrammes : chinois, japonais, coréen (Chinese, Japanese, Korean), est devenu un qualificatif utilisé par les spécialistes pour désigner les particularité spécifiques de ces langues.
EACC : Ce code de caractères est-asiatiques (East Asian Character Code) extrait de CCCII, a été adopté par les bibliothèques américaines pour le catalogage des documents en caractères CJK. Ce code est devenu la norme américaine ANSI Z39.64-1989 (voir page *).
Geac/Advance : Système de gestion intégrée de bibliothèques développé par la société Geac.
ISO : LOrganisation internationale de normalisation (International Organisation for Standardization) est une fédération mondiale d'organismes nationaux de normalisation. LISO élabore les normes internationales, résultats de consensus entre les différentes parties.
OCLC : Ce réseau de bibliothèque, dabord dénomme Ohio College Library Center, est devenu un réseau mondial en 1981, et a changé son nom en Online Computer Library Center. Ses membres partagent le catalogue commun.
Retranslittération (n. f.) : définition page *
RLIN : Ce réseau de bibliothèques (Research Library Information Network) met en commun une base de donnée bibliographique selon le principe du catalogage partagé. Il a été le premier à proposer le catalogage des documents en caractères CJK avec les caractères originaux.
Romanisation (n. f.) : définition page *
SIBER : Système dinformation pour les bibliothèques détude et de recherche. Ce système dinformation rassemble toutes les possibilités multimédia (catalogue OPAC, cédéroms, Internet) sur un seul type de poste de consultation (voir page *)
Transcription (n. f.) : définition page *.
Translittération (n. f.) : définition page *.
Unicode : Jeu de caractères universel, les caractères sont codés sur 16 bits (2 octets), voir page *.
Cette bibliographie recense les documents papier et électroniques que jai consulté durant mon stage et qui mont aidé à rédiger ce rapport.
AFNOR. Documentation. T. 1, Présentation des publications, traitement documentaire et gestion de bibliothèques. 6ème éd. Paris : Afnor, 1996. (Recueil de normes françaises).
aliprand, Joan M. Unicode and ISO/IEC 10646 : an overview. In Automated systems for access to multilingual and multiscript library materials : proceedings of the 2nd IFLA satellite meeting, Madrid, August 18-19, 1993. Ed. by Sally Mc Callum and Monica Ertel. München : Saur, 1994. P. 87-102.
BOSSMEYER, Christine. Whats next : issues arising from the satellite meeting. In Automated systems for access to multilingual and multiscript library materials : proceedings of the 2nd IFLA satellite meeting, Madrid, August 18-19, 1993. Ed. by Sally Mc Callum and Monica Ertel. München : Saur, 1994. P. 167-173.
cain, Jack. Practical applications of Unicode. In Automated systems for access to multilingual and multiscript library materials : proceedings of the 2nd IFLA satellite meeting, Madrid, August 18-19, 1993. Ed. by Sally Mc Callum and Monica Ertel. München : Saur, 1994. P. 103-114.
Comité national dévaluation (France). Université Jean Moulin Lyon III : rapport dévaluation. Paris : Comité national dévaluation des établissements publics à caractère scientifique, culturel et professionnel, 1992. 160 p.
Comité national dévaluation (France). Université Jean Moulin Lyon III : rapport dévaluation. Paris : Comité national dévaluation des établissements publics à caractère scientifique, culturel et professionnel, 1996. 84 p.
DURAND-DASTES, Vincent. Les textes anciens en caractères chinois dans une bibliothèque contemporaine : mémoire d'étude. Villeurbanne : ENSSIB, 1996. 80-12 p.
Manuel UNIMARC : format bibliographique : version française. Trad. par Marc Chauveinc. 2ème éd. München : Saur, 1996. VIII-396 p.
Mc CALLUM, Sally H. Tokyo to Barcelona : Progress in multiscript automation. In Automated systems for access to multilingual and multiscript library materials : proceedings of the 2nd IFLA satellite meeting, Madrid, August 18-19, 1993. Ed. by Sally Mc Callum and Monica Ertel. München : Saur, 1994. P. 13-22.
Molliné, Frédérique. Loffre électronique du Service commun de la documentation de Lyon 3 : un contexte en pleine évolution. Bulletin des bibliothèques de France, 1997, t. 42, n° 3, p. 25-30.
Université Jean Moulin (Lyon). La bibliothèque de la Manufacture : journée portes ouvertes : [brochure informative]. [Lyon] : [Université Jean Moulin], 1996.
AFNOR. [Site de présentation] [en ligne]. [Réf. du 1997-06-17]. Disponible sur World-Wide Web : <URL:http://www.afnor.fr>
ALIPRAND, Joan M. Multilingual and multiscript issues cataloguing. In 62nd IFLA General conference, conference proceedings, August 25-31, 1996 [en ligne]. [Réf. du 1997-07-16]. Disponible sur World-Wide Web : <URL: http://ifla.inist.fr/IV/ifla62/62-alij.htm>
Bibliothèque Nationale de France. [Site de présentation] [en ligne]. [Réf. du 1997-06-17]. Disponible sur World-Wide Web : <URL: http://www.bnf.fr>
Bibliothèque Nationale de France. 1988-1994 : la BnF en projet [en ligne]. [Réf. du 1997-06-17]. Disponible sur World-Wide Web : <URL:http://www.bnf.fr/web-bnf/connaitr/projet.htm>
Bibliothèque Nationale de France. 1996-1998 : louverture [en ligne]. [Réf. du 1997-06-17]. Disponible sur World-Wide Web : <URL:http://www.bnf.fr/web-bnf/nouveau/ouv.htm>
Bibliothèque Nationale de France. La BnF : cinq siècles dhistoire [en ligne]. [Réf. du 1997-06-17]. Disponible sur World-Wide Web : <URL:http://www.bnf.fr/web-bnf/connaitr/siecle.htm>
Bibliothèque Nationale de France. La BnF : les catalogues [en ligne]. [Réf. du 1997-06-17]. Disponible sur World-Wide Web : <URL:http://www.bnf.fr/web-bnf/connaitr/catal.htm>
commission des COMMUNAUTÉs Européennes. Initiative concernant léchange ouvert dinformation : aperçu général [en ligne]. [Réf. du 1997-07-02]. Disponible sur World-Wide Web : <URL:http://www2.echo.lu/oii/en/fr-info.html>
commission des COMMUNAUTÉs Européennes. Investigation into Greek language transliteration [en ligne]. [Réf. du 1997-06-02]. Disponible sur World-Wide Web : <URL:http://www2.echo.lu/libraries/en/projects/helen.html>
commission des COMMUNAUTÉs Européennes. Open Information Interchange : Character Set Standards [en ligne]. [Réf. du 1997-05-27]. Disponible sur World-Wide Web : <URL:http://www2.echo.lu/oii/en/chars.htm>
commission des COMMUNAUTÉs Européennes. Open Information Interchange : Library Information Interchange Standards [en ligne]. [Réf. du 1997-05-27]. Disponible sur World-Wide Web : <URL:http://www2.echo.lu/oii/en/library.html>
commission des COMMUNAUTÉs Européennes. The Open Information Interchange Initiative [en ligne]. [Réf. du 1997-05-27]. Disponible sur World-Wide Web : <URL:http://www2.echo.lu/oii/en/oiistand.html>
EASTMANN, Eric. Introduction to Unicode [en ligne]. [Réf. du
1997-05-27]. Disponible sur World-Wide Web :
<URL:http ://tsetse.cs.earlham.edu/~ss96/unicode.html>
EILTS, John. Non-roman script materials in North American libraries : automation and international exchange. In 61st IFLA General conference, conference proceedings, August 20-25, 1995 [en ligne]. [Réf. du 1997-07-04]. Disponible sur World-Wide Web : <URL:http://www.nlc-bnc.ca/ifla/IV/ifla61/61-eilj.htm>
Ex-Libris (Tel Aviv, Israel). [Site de présentation] [en ligne]. [Réf. du 1997-06-11]. Disponible sur World-Wide Web : <URL:http://www.aleph.co.il>
HAKALA, Juha. Electronic publishing and libraries [en ligne]. 1997-03-27. Disponible sur World-Wide Web : <URL:http://renki.helsinki.fi/elpub.html>
hudrisier, Henri. La norme de représentation des caractères
sur plusieurs octets (ISO/IEC 10646), un enjeu pour le sommet
dHanoi. In Mediacom inforoutes : un défi
pour le monde arabe, la Méditerranée et la Francophonie.
Beyrouth, 9-11 avril 1997 [en ligne]. [Réf. du 1997-07-02].
Disponible sur World-Wide Web :
<URL:http://www.refer.fr/multi_ct/nti/beyrouth/allocuti/hudris.htm>
International Research Institute for Zen Buddhism. [Site de présentation] [en ligne]. [Réf. du 1997-06-19]. Disponible sur World-Wide Web : <URL:http://www.iijnet.or.jp/iriz/irizhtml/irizhome.htm>
LARMOUTH, John. Applications for the European Information
Society [en ligne]. [Réf. du 1997-07-03]. Disponible sur
World-Wide Web :
<URL:http://concord.cscdc.be/conference/presentation/2_1400_3_2/index.htm>
Online Computer Library Center Inc (Dublin, Ohio). OCLC CJK database growth tables [en ligne]. [Réf. du 1997-07-15]. Disponible sur World-Wide Web : <URL:http://www.oclc.org/oclc/cjk/stats/stats.htm>
Online Computer Library Center Inc (Dublin, Ohio). OCLC CJK Plus adds Pinyin-to-Wade-Giles conversion feature [en ligne]. Public-Acces Computer systems News. 1993, Vol. 4, Nr. 11, p. 1-2. [Réf. du 1997-07-15]. Disponible sur World-Wide Web : <URL:http://www.lib.ncsu.edu/stacks/p/pacsn/pacsn-v4n11.txt>
Online Computer Library Center Inc (Dublin, Ohio). OCLC CJK yearly growth [en ligne]. [Réf. du 1997-07-15]. Disponible sur World-Wide Web : <URL:http://www.oclc.org/oclc/cjk/stats/cjkyears.htm>
Online Computer Library Center Inc (Dublin, Ohio). OCLC-CJK Software : Service Overview [en ligne]. [Réf. du 1997-07-15]. Disponible sur World-Wide Web : <URL:http://www.oclc.org/oclc/cjk/descrip.htm>
Online Computer Library Center Inc (Dublin, Ohio). OCLC-CJK Software [en ligne]. [Réf. du 1997-07-15]. Disponible sur World-Wide Web : <URL:http://www.oclc.org/oclc/menu/cjk.htm>
Organisation Internationale de Normalisation. [Site de présentation] [en ligne]. [Réf. du 1997-07-08]. Disponible sur World-Wide Web : <URL:http://www.iso.ch>
Organisation Internationale de Normalisation. Comment utiliser le catalogue [en ligne]. [Réf. du 1997-07-11]. Disponible sur World-Wide Web : <URL:http://www.iso.ch/infof/howtou.htm>
Organisation Internationale de Normalisation. Introduction to ISO [en ligne]. [Réf. du 1997-07-11]. Disponible sur World-Wide Web : <URL:http://www.iso.ch/infoe/intro.html>
Research libraries group Inc (Mountain View, Californie). RLIN [Research Libraries Information Network] : [site de présentation] [en ligne]. [Réf. du 1997-07-11]. Disponible sur World-Wide Web : <URL:http://www.rlg.org/rlin.html>
tsai, Chih Hao. Unicode and the Chinese writing system :
a few comments [en ligne]. 1996-05-12. Disponible sur World-Wide
Web :
<URL:http://www.students.uiuc.edu/~c-tsai4/cunicode.html>
Unicode Inc. Basic principles [en ligne]. 1995-02-10. Disponible sur World-Wide Web : <URL:http://www.unicode.org/unicode/standard/principles.html>
Unicode Inc. Han unification [en ligne]. 1996-02-10. Disponible sur World-Wide Web : <URL:http://www.stonehand.com/unicode/faq/cjk/unification.html>
Unicode Inc. Unicode 2.0 Charts [en ligne]. [Réf. du 1997-07-01]. Disponible sur World-Wide Web : <URL:http://www.unicode.org/Unicode.charts/normal/Unicode2.0.html>
Unicode Inc. Unicode and internationalization glossary
[en ligne]. [Réf. du 1997-05-28]. Disponible sur World-Wide
Web :
<URL:http://www.stonehand.com/unicode/glosscnt.html>
Unicode Inc. Unicode Home Page [en ligne]. [Réf. du 1997-07-01]. Disponible sur World-Wide Web : <URL:http://www.unicode.org>. Egalement disponible sur World-Wide Web <URL:http://www.stonehand.com/unicode.html>
washburn, Bruce. RLIN terminal for Windows supports all JACKPHY-Plus scripts [en ligne]. RLIN Focus, December 1996, n° 23. [Réf. du 1997-07-17]. Disponible sur World-Wide Web : <URL:http://www.rlg.org/r-focus/i23.w4.html>
washburn, Bruce. RLIN terminal for Windows, version 3 [en ligne]. RLIN Focus, June 1996, n° 20. [Réf. du 1997-07-15]. Disponible sur Internet : <URL:ftp://ftp.rlg.org/pub/r-focus/20jun96/w3.txt>
WITTERN, Christian. Chinese character codes : an update
[en ligne]. 1995-05-01. [Réf. du 1997-07-15]. Disponible sur
World-Wide Web :
<URL:http://www.iijnet.or.jp/iriz/irizhtml/multiling/codes.htm>