Skip to Main content Skip to Navigation
Theses

Gestion et exploitation de larges bases de connaissances en présence de données incomplètes et incertaines

Résumé : Avec l’émergence et la prolifération des applications du Web sémantique, de nombreuses et récentes larges bases de connaissances (BC) sont disponibles sur le Web. Ces BC contiennent des entités (nommées) et des faits sur ces entités. Elles contiennent également les classes sémantiques de ces entités et leurs liens mutuels.De plus, plusieurs BC peuvent être interconnectées au niveau entités, formant ainsi le noyau du Web des données liées (ou ouvertes). Une caractérisation essentielle de ces BC est qu’elles contiennent des millions à des billions de triplets RDF incertains. Les causes de cette incertitude sont diverses et multiples. Elle peut résulter de l’intégration de sources de données de différents niveaux de fiabilité ou elle peut être causée par des considérations de préservation de la confidentialité. Aussi, elle peut être due à des facteurs li´es au manque d’informations, à la limitation des équipements de mesures ou à l’évolution d’informations. L’objectif de ce travail de thèse est d’améliorer l’ergonomie et la convivialité des systèmes modernes visant à exploiter des BC entachées d’incertitude. En particulier, ce travail propose des techniques coopératives et intelligentes aidant l’utilisateur dans ses prises de décisions quand ses recherches retournent des résultats insatisfaisants en termes de quantité ou de fiabilité.Dans un premier temps, nous nous sommes intéressés au problème des requêtes RDF retournant un ensemble vide de réponses. Ce type de réponse est frustrant et ne sert pas les attentes de l’utilisateur. L’approche proposée pour le traitement de ce problème est guidée par la requête initiale et offre un double avantage :(i) elle permet de fournir une explication sur l’échec de la requête en identifiant les MFS (Minimal Failing Sub-queries) et, (ii) elle permet de calculer des requêtes alternatives appelées XSS (maXimal Succeeding Subqueries),sémantiquement proches de la requête initiale et dont les réponses sont non-vides. Par ailleurs, d’un point de vue utilisateur, cette solution présente un niveau élevé de flexibilité dans le sens o`u plusieurs degrés d‘incertitude peuvent être simultanément considérés. Dans une seconde contribution, nous avons abord´e l’étude du problème dual au problème cité ci-dessus,c’est-`a-dire le cas des requêtes retournant un nombre trop élevé de réponses dans le contexte des données RDF.La solution préconisée vise `a réduire cet ensemble de réponses pour permettre à l’utilisateur de les examiner.Des contreparties des MFS et des XSS ont été établies, ce qui a permis d’identifier, d’une part, les causes du problème et, d’autre part, des requêtes alternatives dont les résultats peuvent être directement et facilement exploitables à des fins de décision.L’ensemble de nos propositions ont été validées par une série d’expérimentations portant sur différentes larges bases de connaissances en présence d’incertitude (WatDiv et LUBM). Nous avons aussi utilisé plusieurs Triplestores pour mener nos tests.
Document type :
Theses
Complete list of metadatas

Cited literature [166 references]  Display  Hide  Download

https://tel.archives-ouvertes.fr/tel-02452333
Contributor : Abes Star :  Contact
Submitted on : Thursday, January 23, 2020 - 2:15:07 PM
Last modification on : Friday, January 24, 2020 - 1:02:17 AM
Document(s) archivé(s) le : Friday, April 24, 2020 - 3:01:19 PM

File

2019ESMA0016_dellal.pdf
Version validated by the jury (STAR)

Identifiers

  • HAL Id : tel-02452333, version 1

Collections

Citation

Ibrahim Dellal. Gestion et exploitation de larges bases de connaissances en présence de données incomplètes et incertaines. Autre [cs.OH]. ISAE-ENSMA Ecole Nationale Supérieure de Mécanique et d'Aérotechique - Poitiers, 2019. Français. ⟨NNT : 2019ESMA0016⟩. ⟨tel-02452333⟩

Share

Metrics

Record views

139

Files downloads

180