La codification des objets complexes : réflexions théoriques et application à un corpus de 8 000 produits alimentaires

S. Lahlou - J. Maffre - V. Beaudouin

Cahier de recherche N°C23

Résumé

Il s'agit de réflexions méthodologiques et de mise au point de méthodes sur la façon de répertorier de manière flexible des objets nombreux, de les organiser en base de données, et d'en tirer des résultats statistiques. Ces travaux ont pour objectif de faciliter la mise en place de base de données multisources pour tirer des statistiques sur le changement social. Nous avons fait des essais en vraie grandeur sur un corpus de plusieurs milliers d'objets alimentaires, extrait de la base de l'Observatoire des consommations alimentaires. Différentes approches ont été testées. Les premiers essais utilisant des méthodes classiques montrent la limite très tôt atteinte des systèmes de classification de type "nomenclatures", qu'il s'agisse d'utiliser des arbres de classifications éprouvés, ou de mettre au point des classifications ad-hoc. Cette méthode n'est pas suffisamment flexible. Nous avons alors adopté une approche de description par facette, suivant en cela l'usage des bases de données bibliographiques ou des langages analytiques. Cette approche est satisfaisante. Pour résoudre le problème, deux approches sont utilisées conjointement. La première, d'inspiration logique, consiste à construire des règles d'inférence dont les prémisses sont les descripteurs des objets dans un premier système (analytique ou non) et les conclusions des descripteurs dans le langage de description final. Cette approche, très économe dans certains cas particuliers, bute sur le problème des conflits de priorité entre règles, simple à résoudre en théorie mais techniquement dirimant dès qu'un certain niveau de complexité est dépassé. Pour palier cette limitation, une deuxième approche, d'inspiration cognitiviste, a été expérimentée, qui consiste à attribuer des qualités à l'objet en référence à un prototype.

Les résultats de cette recherche sont utiles dans le cadre de notre projet de recherche sur les bases de données prospectives, mais également à ceux qui tentent de mettre en relation des sources statistiques hétérogènes. Une collaboration est engagée avec le Center for Food Safety and Applied Nutrition (Washington), et le CIQUAL (Paris), qui utilisent le langage analytique Langual. Notre approche débouche sur la fabrication d'un logiciel de codification assiste par ordinateur : CITOCA.


Contact

142, rue du Chevaleret 75013 Paris
01 40 77 85 10
ligne 6 station Chevaleret
ligne 14 station Bibliothèque
RER C station Bibliothèque
Bus 27 arrêt Nationale