Édition coopérative de bases de connaissance sur le World-wide web
Jérôme Euzenat
INRIA Rhône-Alpes
Jerome.Euzenat@inrialpes.fr
Dans ces quelques lignes on s'intéresse aux problèmes posés par l'édition de bases de connaissance sur le World-wide web (web dans la suite) et à présenter certaines solutions retenues. On considérera indifféremment la notion de base de connaissance et celle d'ontologie. Un encart présente les différents systèmes accessibles au public. Les problèmes d'indexation de sites ou d'aide à la recherche au moyen de bases de connaissance n'est pas traité ici.
Des bases de connaissance sur le Web, pourquoi?
Un mot peu utilisé jusqu'à présent a fait un retour remarqué dans le vocabulaire des « managers »: le mot connaissance. Il est question de diffusion de connaissance sur le Web et d'évaluation du « capital connaissance » de l'entreprise. Ceux qui s'occupent de représentation de connaissance sont parfois surpris par cette connaissance qui n'entre pas dans leurs plans. Pourtant, le web est une opportunité pour tous de diffuser le contenu des bases de connaissance (et valoriser l'effort qu'a suscité leur élaboration) quelle que soit la forme de la connaissance. Ainsi, la connaissance accumulée n'est-elle plus uniquement disponible pour être exécuté mais elle peut être utilisée à titre de document.
Mais les bases de connaissance formalisées, telles qu'elles sont considérées en intelligence artificielle, sont plus que des documents et, à ce titre, engendrer un ensemble de documents statiques à partir d'une base de connaissance c'est figer ce qui est encore vivant. Il faut donc apporter au web une dimension dynamique permettant d'exploiter pleinement la perspective cognitive (ou la possibilité d'utiliser ou d'exécuter la connaissance) dans un contexte documentaire. Ainsi, il devient possible d'accéder à la connaissance stockée par le biais de requêtes s'appuyant sur la structure (filtrage ou classification). Les scripts CGI ou les serveurs HTTP embarqués sont les outils idéaux pour cela. D'autres raisons poussent à utiliser le web en tant qu'interface à une base de connaissance:
- diffusion de la connaissance sans se soucier de problèmes de portage (les clients HTTP étant disponibles dans le monde entier);
- mise à jour instantanée de la connaissance à partir d'un unique serveur;
- possibilité d'atteindre des utilisateurs non spécialistes grâce à l'universalité d'HTML;
- connexion de la base de connaissance à son contexte (bibliographie, projets, textes, lexiques, images) à l'aide de liens vers d'autres sites.
Ainsi, de nombreux systèmes à bases de connaissance intègrent une interface Web. On peut citer WebCokace qui a la particularité d'utiliser une spécification du langage CML pour engendrer automatiquement un site de navigation dans les structures KADS.
Éditer une base de connaissance sur le web
De la même manière que l'on peut naviguer dans une base de connaissance on voudrait bien vite la modifier, l'éditer. Éditer la connaissance à l'aide de HTTP est donc souhaitable. Mais le protocole HTTP est un protocole sans état ce qui signifie que les requêtes ne modifient pas le contenu du serveur. Il est donc nécessaire de prendre en compte cet aspect. Certains systèmes, tels que WebGrid, restent dans la philosophie du web en transmettant à chaque page toute la connaissance en champ caché. D'autres, parmi lesquels l'ensemble des SGBD permettant l'édition, rompent radicalement avec cette tradition irréaliste pour des applications de taille importante.
Par ailleurs, l'édition est plus complexe à traiter que la consultation car tant que la base n'est pas modifiée peu d'erreurs peuvent se produire en son sein. Mais dès que la modification est possible il est nécessaire de traiter divers facteurs:
- lors de la modification des erreurs d'entrée peuvent se produire: il faut les rattraper et les expliquer;
- si des objets disparaissent (sont détruits par exemple) leur URL peut être encore présent dans le client d'un utilisateur: ce problème doit aussi être détecté.
Le premier des systèmes permettant d'éditer des structures de connaissance fut sans doute WebGrid qui permet l'acquisition au travers du Web. On peut encore citer Ontosaurus comme réalisation remarquable.
Connaissance + web = collaboratoire?
La disponibilité et la construction de bases de connaissance sur le web laisse entrevoir un immense potentiel: celui de constituer de véritables collaboratoires distribués. Cette perspective a séduit le public intéressé par les systèmes d'aide à la recherche scientifique et celui dirigé vers la construction d'ontologies.
Mais l'édition simultanée d'une base de connaissance nécessite la résolution des problèmes techniques, juridiques et sociaux qui en découlent. Parmi ces problèmes, on peut citer:
- la gestion de l'interaction et de la communication entre les individus;
- le contrôle de l'accès au données;
- la reconnaissance d'un droit moral sur la connaissance (attribution);
- le rattrapage et la gestion des erreurs;
- la gestion de la modification concurrente des données.
Sur un plan technique le dernier problème est fondamental. Peu de systèmes le traitent et diverses approches coexistent que nous pouvons comparer ci-dessous:
- APECKS permet l'édition concurrente sans contrôle.
- Le site interactif de systématique permet l'annotation concurrente plus que l'édition et utilise pour cela le service de modérateurs.
- Ontolingua permet de protéger l'accès en édition en créant des espaces de travail particuliers (sessions) qui peuvent être partagés par plusieurs utilisateurs. Il n'exerce aucun contrôle sur les modifications effectuées au sein d'une session mais notifie les modifications [Alemany 1998].
- GKB-Editor mets en oeuvre un mécanisme de contrôle optimiste qui permet à chaque utilisateur d'éditer une copie et qui tente de régler les problèmes lors de l'intégration (commit) de la connaissance; élaborant sur les travaux de Chaundri [Chaundri& 1992].
- Co4 permet à chacun d'éditer une base locale qui est une base de plein droit et exerce un contrôle, a priori, lors de l'intégration dans la base. Les utilisateur doivent soumettre la connaissance qu'ils désirent intégrer à la base consensuelle et un protocole gère (par le biais de votes) les soumissions.
Conclusion: un enjeu pour l'information, l'interaction et
l'intelligence?
Les problèmes posés par cette problématique sont nombreux et variés. À l'heure où un nouveau GDR assemblant les communautés IA, BD et CHM est lancé, il serait un terrain idéal de contribution des trois disciplines sur des problèmes particuliers:
- cohérence des données lors de l'accès concurrent gestion de transactions;
- problèmes d'ergonomie et de fonctionnement collaboratif et plus particulièrement de notification et de protocole d'interaction;
- comparaison de contenu formalisé et gestion des conflits lors d'une incohérence.
Systèmes et applications
Plusieurs URLs sont données ci-dessous.
- APECKS
- (Adaptative Presentation Environment for Collaborative Knowledge Structuring), développé à l'université de Nottingham, a pour but d'aider les utilisateurs à créer des « ontologies individuelles » en les comparant à celles des autres [Tennison& 1998]. Pour cela le système utilise un langage à base d'objets et traduit les ontologies pour les comparer à l'aide de WebGrid. Il signale aux utilisateurs les différences entre leurs ontologies.
- Co4
- développé à l'INRIA Rhône-Alpes, a pour but de construire à plusieurs une base de connaissance exprimée dans la représentation à base d'objets Troeps [Alemany 1998]. Pour cela chaque utilisateur dispose de sa propre base et la modification d'une base consensuelle commune à plusieurs utilisateurs est subordonnée à la soumission et l'acceptation d'éléments de connaissance suivant un protocole inspiré de la soumission d'articles scientifiques [Euzenat 1996b]. Co4 est utilisé en particulier dans la construction de la base Knife (consacré aux interactions géniques chez la drosophile).
- GKB-Editor
- développé à SRI, est un éditeur d'objets fondé sur le « generic frame protocol ». Il doit être intégré dans une boite à outils de construction d'ontologies [Karp& 1997]. GKB-Editor est utilisé dans la fameuse base EcoCyc sur le métabolisme du colibacille développée par Peter Karp.
- Ontolingua server
- développé à Stanford-KSL est un éditeur d'ontologies partagées sur le web [Farquhar& 1995, 1997]. Il est un peu le père de tous les systèmes présentés ici. La connaissance est représentée à l'aide des langages Ontolingua et KIF. Il a été utilisé pour créer de nombreuses ontologies (une cinquantaine en accès libre sur le site comme l'ontologie médicale InterMed).
- Ontosaurus
- développé à l'université de Californie du sud (USC/ISI), est une interface web à LOOM capable d'édition [Swartout& 1996].
- SIS (albibioni.snv.jussieu.fr)
- développé à l'université Pierre et Marie Curie, par l'équipe de Jacques Lebbe déjà célèbre dans le monde de la systématique pour avoir mis sur le minitel ses efficaces clefs d'identification des champignons. Le site, et la technique dont il est issu, permet de croiser des tables et de les annoter.
- WebCokace
- développé à l'INRIA Sophia-Antipolis permet de naviguer au sein de bases CML (issu de KADS) mais ne permet pas l'édition [Corby& 1997]. Il est utilisée pour visualiser diverses bibliothèques classiques de modèles KADS.
- WebGrid
- développé à l'université de Calgary-KSI, permet à un utilisateur de formaliser sa connaissance à partir de « repertory grids ». La première version [Gaines& 1995], compatible avec HTTP, ne stockait rien sur le serveur et communiquait le contenu complet de la base sous forme de champ caché. Afin de permettre la confrontation de la connaissance exprimée par différents utilisateurs, WebGrid-II permet le stockage momentané des structures décrites sur le serveur. L'idée n'étant toujours pas d'éditer une base commune, le problème du contrôle d'accès n'est pas traité.
On peut aussi citer quelques sites intéressants:
HPKS (High-performance knowledge bases) est un projet de la DARPA impliquant la plupart des projets américains cités ci-dessus (et beaucoup d'autres).
Aristotle (Automated categorization of Web resources) qui indexe certains projets reliés à la thématique décrite ici.
Références
[Alemany 1998] Christophe Alemany, Étude et réalisation d'une interface d'édition de bases de connaissances au travers du World Wide Web, Mémoire CNAM, Grenoble (FR), 1998
[Chaundri& 1992] Vinay Chaudhri, Vassos Hadzilacos, John Mylopoulos, Concurrency control for knowledge bases, Actes 3rd KR, Cambridge (MA US), pp762-773, 1992
[Corby& 1997] Olivier Corby, Rose Dieng, A commonKADS expertise model web server, Actes 5th ISMICK, Compiègne (FR), pp97-117, 1997
[Euzenat 1996b] Jérôme Euzenat, Corporate memory through cooperative creation of knowledge bases and hyper-documents, Actes 10th KAW, Banff (CA), 1996
[Farquhar& 1995] Adam Farquhar, Richard Fikes, Wanda Pratt, James Rice, Collaborative ontology construction for information integration, Rapport de recherche 63, Knowledge system laboratory, Stanford university, Stanford (CA US), 1995
[Farquhar& 1997] Adam Farquhar, Richard Fikes, James Rice, (1997). The Ontolingua server: a tool for collaborative ontology construction, International journal of human-computer studies 46:707-727, 1997
[Gaines& 1995] Brian Gaines, Mildred Shaw, WebMap: concept mapping on the Web, Actes 4th WWW conference, Boston (MA US), 1995
[Karp& 1997] Peter Karp, Vinay Chaudhri, Suzanne Paley, A collaborative environment for authoring large knowledge bases, 1997, submitted for publication
[Swartout& 1996] Bill Swartout, Ramesh Patil, K. Knight, T. Russ, Toward distributed use of large scale ontologies, Actes 10th KAW, Banff (CA), 1996
[Tennison& 1998] Jenifer Tennison, Nigel Shadbolt, APECKS: a tool to support living ontologies, Actes 11th KAW, Banff (CA), 1998
Paru dans le Bulletin de l'AFIA 34:6-9, 1998
http://www.inrialpes.fr/sherpa/papers/euzenat98c.html
Updated by Jerome.Euzenat@inrialpes.fr on 29/06/98