Édition coopérative de bases de connaissance sur le World-wide web

Jérôme Euzenat
INRIA Rhône-Alpes
Jerome.Euzenat@inrialpes.fr

Dans ces quelques lignes on s'intéresse aux problèmes posés par l'édition de bases de connaissance sur le World-wide web (web dans la suite) et à présenter certaines solutions retenues. On considérera indifféremment la notion de base de connaissance et celle d'ontologie. Un encart présente les différents systèmes accessibles au public. Les problèmes d'indexation de sites ou d'aide à la recherche au moyen de bases de connaissance n'est pas traité ici.

Des bases de connaissance sur le Web, pourquoi?

Un mot peu utilisé jusqu'à présent a fait un retour remarqué dans le vocabulaire des « managers »: le mot connaissance. Il est question de diffusion de connaissance sur le Web et d'évaluation du « capital connaissance » de l'entreprise. Ceux qui s'occupent de représentation de connaissance sont parfois surpris par cette connaissance qui n'entre pas dans leurs plans. Pourtant, le web est une opportunité pour tous de diffuser le contenu des bases de connaissance (et valoriser l'effort qu'a suscité leur élaboration) quelle que soit la forme de la connaissance. Ainsi, la connaissance accumulée n'est-elle plus uniquement disponible pour être exécuté mais elle peut être utilisée à titre de document.

Mais les bases de connaissance formalisées, telles qu'elles sont considérées en intelligence artificielle, sont plus que des documents et, à ce titre, engendrer un ensemble de documents statiques à partir d'une base de connaissance c'est figer ce qui est encore vivant. Il faut donc apporter au web une dimension dynamique permettant d'exploiter pleinement la perspective cognitive (ou la possibilité d'utiliser ou d'exécuter la connaissance) dans un contexte documentaire. Ainsi, il devient possible d'accéder à la connaissance stockée par le biais de requêtes s'appuyant sur la structure (filtrage ou classification). Les scripts CGI ou les serveurs HTTP embarqués sont les outils idéaux pour cela. D'autres raisons poussent à utiliser le web en tant qu'interface à une base de connaissance:

Ainsi, de nombreux systèmes à bases de connaissance intègrent une interface Web. On peut citer WebCokace qui a la particularité d'utiliser une spécification du langage CML pour engendrer automatiquement un site de navigation dans les structures KADS.

Éditer une base de connaissance sur le web

De la même manière que l'on peut naviguer dans une base de connaissance on voudrait bien vite la modifier, l'éditer. Éditer la connaissance à l'aide de HTTP est donc souhaitable. Mais le protocole HTTP est un protocole sans état ce qui signifie que les requêtes ne modifient pas le contenu du serveur. Il est donc nécessaire de prendre en compte cet aspect. Certains systèmes, tels que WebGrid, restent dans la philosophie du web en transmettant à chaque page toute la connaissance en champ caché. D'autres, parmi lesquels l'ensemble des SGBD permettant l'édition, rompent radicalement avec cette tradition irréaliste pour des applications de taille importante.
Par ailleurs, l'édition est plus complexe à traiter que la consultation car tant que la base n'est pas modifiée peu d'erreurs peuvent se produire en son sein. Mais dès que la modification est possible il est nécessaire de traiter divers facteurs: Le premier des systèmes permettant d'éditer des structures de connaissance fut sans doute WebGrid qui permet l'acquisition au travers du Web. On peut encore citer Ontosaurus comme réalisation remarquable.

Connaissance + web = collaboratoire?

La disponibilité et la construction de bases de connaissance sur le web laisse entrevoir un immense potentiel: celui de constituer de véritables collaboratoires distribués. Cette perspective a séduit le public intéressé par les systèmes d'aide à la recherche scientifique et celui dirigé vers la construction d'ontologies.

Mais l'édition simultanée d'une base de connaissance nécessite la résolution des problèmes techniques, juridiques et sociaux qui en découlent. Parmi ces problèmes, on peut citer:

Sur un plan technique le dernier problème est fondamental. Peu de systèmes le traitent et diverses approches coexistent que nous pouvons comparer ci-dessous:

Conclusion: un enjeu pour l'information, l'interaction et l'intelligence?

Les problèmes posés par cette problématique sont nombreux et variés. À l'heure où un nouveau GDR assemblant les communautés IA, BD et CHM est lancé, il serait un terrain idéal de contribution des trois disciplines sur des problèmes particuliers:

Systèmes et applications

Plusieurs URLs sont données ci-dessous.
APECKS
(Adaptative Presentation Environment for Collaborative Knowledge Structuring), développé à l'université de Nottingham, a pour but d'aider les utilisateurs à créer des « ontologies individuelles » en les comparant à celles des autres [Tennison& 1998]. Pour cela le système utilise un langage à base d'objets et traduit les ontologies pour les comparer à l'aide de WebGrid. Il signale aux utilisateurs les différences entre leurs ontologies.
Co4
développé à l'INRIA Rhône-Alpes, a pour but de construire à plusieurs une base de connaissance exprimée dans la représentation à base d'objets Troeps [Alemany 1998]. Pour cela chaque utilisateur dispose de sa propre base et la modification d'une base consensuelle commune à plusieurs utilisateurs est subordonnée à la soumission et l'acceptation d'éléments de connaissance suivant un protocole inspiré de la soumission d'articles scientifiques [Euzenat 1996b]. Co4 est utilisé en particulier dans la construction de la base Knife (consacré aux interactions géniques chez la drosophile).
GKB-Editor
développé à SRI, est un éditeur d'objets fondé sur le « generic frame protocol ». Il doit être intégré dans une boite à outils de construction d'ontologies [Karp& 1997]. GKB-Editor est utilisé dans la fameuse base EcoCyc sur le métabolisme du colibacille développée par Peter Karp.
Ontolingua server
développé à Stanford-KSL est un éditeur d'ontologies partagées sur le web [Farquhar& 1995, 1997]. Il est un peu le père de tous les systèmes présentés ici. La connaissance est représentée à l'aide des langages Ontolingua et KIF. Il a été utilisé pour créer de nombreuses ontologies (une cinquantaine en accès libre sur le site comme l'ontologie médicale InterMed).
Ontosaurus
développé à l'université de Californie du sud (USC/ISI), est une interface web à LOOM capable d'édition [Swartout& 1996].
SIS (albibioni.snv.jussieu.fr)
développé à l'université Pierre et Marie Curie, par l'équipe de Jacques Lebbe déjà célèbre dans le monde de la systématique pour avoir mis sur le minitel ses efficaces clefs d'identification des champignons. Le site, et la technique dont il est issu, permet de croiser des tables et de les annoter.
WebCokace
développé à l'INRIA Sophia-Antipolis permet de naviguer au sein de bases CML (issu de KADS) mais ne permet pas l'édition [Corby& 1997]. Il est utilisée pour visualiser diverses bibliothèques classiques de modèles KADS.
WebGrid
développé à l'université de Calgary-KSI, permet à un utilisateur de formaliser sa connaissance à partir de « repertory grids ». La première version [Gaines& 1995], compatible avec HTTP, ne stockait rien sur le serveur et communiquait le contenu complet de la base sous forme de champ caché. Afin de permettre la confrontation de la connaissance exprimée par différents utilisateurs, WebGrid-II permet le stockage momentané des structures décrites sur le serveur. L'idée n'étant toujours pas d'éditer une base commune, le problème du contrôle d'accès n'est pas traité.
On peut aussi citer quelques sites intéressants:
HPKS (High-performance knowledge bases) est un projet de la DARPA impliquant la plupart des projets américains cités ci-dessus (et beaucoup d'autres).
Aristotle (Automated categorization of Web resources) qui indexe certains projets reliés à la thématique décrite ici.

Références

[Alemany 1998] Christophe Alemany, Étude et réalisation d'une interface d'édition de bases de connaissances au travers du World Wide Web, Mémoire CNAM, Grenoble (FR), 1998

[Chaundri& 1992] Vinay Chaudhri, Vassos Hadzilacos, John Mylopoulos, Concurrency control for knowledge bases, Actes 3rd KR, Cambridge (MA US), pp762-773, 1992

[Corby& 1997] Olivier Corby, Rose Dieng, A commonKADS expertise model web server, Actes 5th ISMICK, Compiègne (FR), pp97-117, 1997

[Euzenat 1996b] Jérôme Euzenat, Corporate memory through cooperative creation of knowledge bases and hyper-documents, Actes 10th KAW, Banff (CA), 1996

[Farquhar& 1995] Adam Farquhar, Richard Fikes, Wanda Pratt, James Rice, Collaborative ontology construction for information integration, Rapport de recherche 63, Knowledge system laboratory, Stanford university, Stanford (CA US), 1995

[Farquhar& 1997] Adam Farquhar, Richard Fikes, James Rice, (1997). The Ontolingua server: a tool for collaborative ontology construction, International journal of human-computer studies 46:707-727, 1997

[Gaines& 1995] Brian Gaines, Mildred Shaw, WebMap: concept mapping on the Web, Actes 4th WWW conference, Boston (MA US), 1995

[Karp& 1997] Peter Karp, Vinay Chaudhri, Suzanne Paley, A collaborative environment for authoring large knowledge bases, 1997, submitted for publication

[Swartout& 1996] Bill Swartout, Ramesh Patil, K. Knight, T. Russ, Toward distributed use of large scale ontologies, Actes 10th KAW, Banff (CA), 1996

[Tennison& 1998] Jenifer Tennison, Nigel Shadbolt, APECKS: a tool to support living ontologies, Actes 11th KAW, Banff (CA), 1998

Paru dans le Bulletin de l'AFIA 34:6-9, 1998


http://www.inrialpes.fr/sherpa/papers/euzenat98c.html

Updated by Jerome.Euzenat@inrialpes.fr on 29/06/98