Action de recherche coopérative ESCRIRE
Présentation scientifique

Motivations

Un intranet (ou, plus généralement, l'utilisation des technologies de l'Internet) est l'opportunité pour les entreprises, d'accéder et de partager la connaissance bien souvent difficilement accessible sous forme documentaire. Les documents numériques et numérisés peuvent être rendus accessibles de manière standard et transparente auprès de tous les utilisateurs concernés. L'ambition, à terme, est de réaliser de véritables serveurs de connaissances permettant la recherche et la manipulation des ressources de l'entreprise.
Cependant, les limites de cette approche apparaissent rapidement : l'organisation des sites se révèle une tâche coûteuse et la recherche plein texte peu efficace. La recherche et l'interrogation d'un site en s'appuyant sur le contenu des documents est une nécessité et les formalismes de représentation de connaissances sont de bons candidats pour représenter ce contenu. La représentation du contenu permettra de le manipuler pour faire de la recherche par analogie, par spécialisation, par similitude, etc. Le langage XML, par ailleurs promis à un bel avenir, permet d'intégrer les éléments de représentation du contenu au sein des documents. L'un des premiers objectifs de l'ARC est de proposer un modèle d'implémentation d'un tel dispositif.
Mais il existe différents formalismes de représentation de connaissances et nul ne connaît exactement leurs qualités respectives. Le but de l'ARC consiste donc à comparer trois types de représentations de connaissances (graphes conceptuels, représentations de connaissances par objets et logiques de descriptions) du point de vue de la représentation du contenu de documents et de sa manipulation.
Cela permettra de mettre en évidence les propriétés intéressantes pour la recherche d'informations et de déterminer les contextes favorables à l'exploitation de chacune de ces représentations.
Dans le cadre de l'INRIA, cela permettra de lier et concerter les efforts de trois projets utilisant des approches distinctes pour le même problème intéressant actuellement de nombreuses sociétés qui tentent de mettre sur pied des mémoires d'entreprise ou plus modestement des intranets.

Objectif et organisation

L'objectif de l'action consiste à comparer les apports de chacun des types de représentation pour la représentation du contenu dans les serveurs de connaissances. Au delà de la meilleure connaissance des techniques impliquées par les différents projets, ce travail fera avancer l'état de l'art et devrait ainsi donner lieu à des publications.

La mise à l'épreuve de ces différents formalismes pour le traitement d'un jeu de documents (fourni sans doute par un partenaire industriel) nécessite de mener une réflexion méthodologique sur le passage des textes à leur représentation formelle (de façon suffisamment indépendante des formalismes employés) en lien avec le type d'accès que l'on veut avoir sur ces documents. Cette représentation formelle sera définie conjointement et introduite (si nécéssaire manuellement) dans un format XML (pour « eXtensible Markup Language »). Un ensemble de requêtes définies de manière coordonnée sera évaluée dans chacun des contextes.
Les différents projets impliqués devront donc spécifier l'intégration des types de représentations formelles qu'ils mettent en oeuvre dans un format XML. Ils devront aussi définir et développer une stratégie d'interprétation et d'évaluation des requêtes en fonction des spécificités du formalisme de représentation de connaissances.
À l'issue de ce travail, les différents formalismes seront comparés entre eux (mais aussi à la recherche plein-texte) selon le protocole prédéfini. Celui-ci devra apprécier des critères tant qualitatifs (expressivité des requêtes, accessibilité/lisibilité des informations, etc.) que quantitatifs (temps de réponse à une requête, taux de pertinence (ou précision)/rappel (ou couverture) des réponses, etc.). Cette évaluation proposera une grille d'analyse des avantages et inconvénients d'un langage de représentation formel vis-à-vis de la recherche d'informations sur le Web.

État de l'art

Cet état de l'art présente tout d'abord les formalismes de représentation de connaissances, puis les systèmes de gestion de documents (en particulier ceux liés au Web) avant d'aborder les travaux réalisés sur l'association représentation textuelle/représentation formelle.

Formalismes de représentation de connaissances

Les trois formalismes de représentation de connaissances évalués par l'ARC sont brièvement présentés ici avant de les replacer dans le contexte de la gestion de documents.

Graphes conceptuels

Le modèle des graphes conceptuels (GC) simples est décrit dans [Sowa84] et formalisé dans [Chein92]. Il permet de décrire un domaine sous la forme de graphes dont les noeuds représentent soit des concepts soit des relations entre concepts. Pour ce faire les types de concepts et de relations utilisables dans ce domaine sont décrits au préalable dans un support qui contraint alors la forme des graphes et les manipulations sur ces graphes. Diverses opérations ont été définies sur les graphes conceptuels permettant de les simplifier, de les joindre ou de retrouver les graphes partageant une certaine propriété.
Outre les travaux théoriques sur le modèle des GC, il existe désormais plusieurs plates-formes de gestion des GC (par exemple COGITO, CGKEE, PEIRCE) et des outils dédiés à des domaines aussi variés que l'acquisition des connaissances (CGKAT [Martin96a], WEBKB), le traitement de la langue naturelle, la recherche d'informations ou les bases de données.

Représentation de connaissances par objets

La représentation de connaissances par objets [Euzenat98] permet d'exprimer la connaissance sous forme d'objets (un identifiant associé à un ensemble de couples attributs-valeurs). Ces objets sont attachés à des classes organisées en taxonomies par une relation de spécialisation. Ce modèle est proche de celui des langages de programmation par objets. Il est exploité à l'aide de mécanismes de classification, de catégorisation ou d'inférence de taxonomies.
Sans doute grâce à leur simplicité apparente, les représentations par objets sont très souvent utilisées dans les serveurs de connaissances [Farquhar97, Euzenat96] ou l'indexation de documents (SHOE, Ontobroker).

Logiques de descriptions

Les logiques de descriptions permettent de représenter les connaissances relatives à un domaine de référence à l'aide de « descriptions » qui peuvent être des concepts, des rôles et des individus [Napoli 97]. Les concepts modélisent des classes d'individus et les rôles des relations entre classes. Une sémantique est associée aux descriptions par l'intermédiaire d'une fonction d'interprétation. La relation de subsomption permet d'organiser les concepts et les rôles en hiérarchies ; la classification et l'instanciation sont les opérations qui sont alors à la base du raisonnement sur les descriptions, ou raisonnement terminologique. La classification permet de déterminer la position d'un concept et d'un rôle dans leurs hiérarchies respectives, tandis que l'instanciation permet de retrouver les concepts dont un individu est susceptible d'être une instance.
Il existe plusieurs systèmes opérationnels qui implantent une logique de descriptions, en particulier CLASSIC, FACT, DLP et LOOM. L'un de ces systèmes servira de base à la mise en oeuvre du projet.

Gestion de documents sur intranet

La gestion de documents sur intranet demande la structuration et la représentation des textes de manière homogène afin de pouvoir les manipuler (indexation, génération, édition ou mise à jour). Le standard XML vient maintenant offrir une solution en ce qui concerne les formats de structuration de ce type de documents.
XML permettra d'associer aux documents leur contrepartie formalisée et d'autres informations nécessaires à leur exploitation comme les bases de connaissances fournissant le contexte d'interprétation.

Association de textes et de représentations formelles

Plusieurs travaux ont exploité l'association de documents textuels (voire multimédia) et représentations formelles. Selon le cas, une telle représentation formelle peut servir à :

représenter la structure du document,
fournir des méta-informations sur le contenu du document (ce qui peut être suffisant dans certains cas de recherche documentaire ou de recherche d'informations sur le Web),
décrire des connaissances sous-jacentes au document (par exemple à des fins d'acquisition des connaissances),
voire exprimer une traduction exacte du texte (dans des objectifs de traitement automatique du langage naturel, par exemple à des fins de traduction automatique).

Le but de l'action est principalement de s'attaquer au dernier point de manière cependant incomplète et d'intégrer cette traduction dans un langage formel au document en tant que méta-information (via XML).

Du texte à sa représentation

Le projet Orpailleur a l'expérience d'acquisition automatique de représentation structurée à partir de texte [Toussaint98]. Dans le cadre de l'action, les outils expérimentaux dont dispose le projet seront certainement complétés par une analyse manuelle pour créer les représentations nécessaires à l'expérimentation.
L'une des retombées de cette expérimentation consiste à analyser dans quelle mesure certaines structures linguistiques sont mieux (resp. moins bien) prises en compte par les formalismes de représentation proposés.

Recherche d'informations

Parmi les systèmes de recherche documentaire exploitant un formalisme structuré, citons ELEN [Chevallet92] où les GC sont exploités dans un système de recherche d'informations, privilégiant le taux de précision des réponses. La représentation par GC pour la recherche documentaire est également proposée dans [Kheiberk95, Genest97]. La recherche de documents à partir d'une requête exprimée en GC exploite essentiellement la relation de spécialisation calculée entre GC : elle repose en effet sur une projection du graphe requête sur la base de GC. Des adaptations ou extensions de la projection classique dans les GC ont d'ailleurs été proposées à ces fins [Genest97].
D'autres travaux récents concernent l'indexation et la recherche d'information à partir de logiques de descriptions [Meghini93, Sebastiani94].

Projets similaires

Le sujet tel qu'il est posé est un sujet d'actualité auquel beaucoup de groupes s'attaquent à travers le monde, en général avec un choix initial en matière de représentation de connaissances.
Ainsi, peuvent être évoqués les projets SHOE (université du Maryland, [Luke97]), Ontobroker (université de Karlsruhe, [Fensel97]) qui utilisent des représentations par objets plus ou moins élaborés et le projet Web-at-a-glance (université de Rome (La sapienza), [Catarci98]) qui utilise les logiques de descriptions.

En ce qui concerne l'activité d'évaluation des différents formalismes, il existe quelques travaux sur l'évaluation empirique d'un formalisme [Heinsohn94] ou sur la comparaison de plusieurs formalismes [Biebow93, Nobécourt98, Coupey98]. Nous sommes en contact avec ces équipes. Par contre, ces évaluations sont réalisées in abstracto sans application particulière en vue. Le but de l'ARC est, au contraire, de réaliser une évaluation en contexte.

Autres coopérations

L'action pourrait être le point de départ d'un partenariat avec sociétés (Usinor et AIS). Le sujet de ce partenariat est plus ambitieux puisqu'il intègre l'analyse de documents en langue naturelle et la réalisation d'une maquette complète et d'une application avec cette maquette.

Individuellement, les projets ont des collaborations sur le thème de la mémoire technique (ACACIA et Sherpa dans le cadre de Génie avec Dassault-Aviation et Aérospatiale) ou sur le thème de l'acquisition à partir de textes (Orpailleur avec l'INIST, Sherpa avec Xerox).

Bibliographie

[Biebow93] B. Biébow, G. Chaty. A comparison between conceptual graphs and KL-ONE. Proc. of the 1st ICCS, LNAI 699, p. 75-89, Springer-Verlag, Québec, CA, 1993.
[Catarci 98] T. Catarci, L. Iocchi, D. Nardi, G. Santucci, Accessing the Web: exploiting the database paradigm, Actes ECAI'98 Workshop on Building, Maintaining and using Organizational Memories, pp. 37-46, Brighton (UK), 1998
[Chein92] M. Chein, M.-L. Mugnier. Conceptual Graphs: Fundamental Notions. Revue d'Intelligence Artificielle 6(4):365-406 , 1992.
[Chevallet92] J.-P. Chevallet. Un modèle logique de Recherche d'Informations appliqué au formalisme des Graphes Conceptuels. Thèse de Doctorat en Informatique, Grenoble, Mai 1992.
[Coupey98] P. Coupey, C. Faron. Towards correspondances between conceptual graphs and description logics, Actes 6th ICCS, Montpellier (FR), 1998
[Euzenat96 ] J. Euzenat, Corporate memory through cooperative creation of knowledge bases and hyper-documents, Actes 10th KAW, Banff (CA), 1996
[Euzenat98] J. Euzenat, Représentation de connaissance par objets, dans Ducournau, Euzenat, Masini, Napoli (éds.), Langages et modèles à objets: état et perspectives de la recherche, INRIA, Rocquencourt (FR), 1998
[Farquhar97] A. Farquhar, R. Fikes, J. Rice. The Ontolingua server: a tool for collaborative ontology construction, Int. J. of Human-Computer Studies 46:707-727, 1997
[Fensel97] D. Fensel, M. Erdmann, R. Studer, Ontology Groups: Semantically Enriched Subnets of the WWW, Actes KI97 Workshop on Intelligent Information Integration, Freiburg (DE), 1997
[Genest97] D. Genest, M. Chein. An Experiment in Document Retrieval Using Conceptual Graphs. In Lukose & al eds, Fulfilling Peirce's Dream, Proc. of ICCS'97, Springer-Verlag, LNAI 1257, pp. 489-504, Seattle, USA, Août 1997.
[Luke97] S. Luke, L. Spector, D. Rager, J. Hendler. Ontology-based Web Agents. In Proc. of the 1st Int. Conf. on Autonomous Agents, 1997.
[Heinsohn94] J. Heinsohn, D. Kudenko, B. Nebel, H.-J. Profitlich, An Empirical Analysis of Terminological Representation Systems, Artificial intelligence 68(2):367-397, 1994
[Kheiberk95] A. Kheiberk, Y. Chiamarella. Integrating Hypermedia and Information Retrieval with Conceptual Graphs. Proc. of HIM'95, Konstanz, Germany, April 1995.
[Martin96a] P. Martin. Exploitation de Graphes Conceptuels et de Documents Structurés et Hypertextes pour l'Acquisition de Connaissances et la Recherche d'Informations. Thèse de Doctorat en Informatique, Université de Nice - Sophia Antipolis, 14 Octobre 1996.
[Meghini93] C. Meghini, F. Sebastiani, U. Straccia and C. Thanos, A Model of Information Retrieval based on a Terminological Logic, Proc. of the 16th Annual Int. ACM-SIGIR Conf. on Research and Development in Information Retrieval, Pittsburgh, Korfhage & al eds, ACM Press, p. 298-307, 1993.
[Napoli97] A. Napoli, Une introduction aux logiques de descriptions, Rapport de Recherche INRIA, RR 3314, 1997.
[Nobécourt98] J. Nobécourt, Représenter la notion de propriété dans les graphes conceptuels et les logiques de descriptions, Actes IC'98, Pont-à-Mousson (FR), 1998
[Sebastiani94] F. Sebastiani, A Probabilistic Terminological Logic for Modelling Information Retrieval, Proc. of the 17th Annual Int. ACM-SIGIR Conf. on Research and Development in Information Retrieval, Dublin, Croft & al, eds, Springer-Verlag, pp. 122-130, 1994.
[Sowa84] J. Sowa. Conceptual Structures: Information Processing in Mind and Machine. Addison-Wesley, Reading, MA., 1984.
[Toussaint98] Y. Toussaint, F. Namer, B. Daille, C. Jacquemin, J. Royautée, N. Hathout, Une approche linguistique et statistique pour l'analyse de l'information en corpus, Conf. Traitement Automatique de la Langue Naturelle, TALN'98, Paris 1998.

http://exmo.inrialpes.fr/cooperation/escrire/esc-sci.html

Feel free to comment to Jerome . Euzenat � inrialpes . fr, $Id: esc-sci.html,v 1.3 2021/12/17 16:05:57 euzenat Exp $

Action de recherche coopérative ESCRIRE Présentation scientifique