linked data

Aide à la traduction de l’arménien classique avec DataLift (2)

Pour combler une partie des manques du premier dictionnaire utilisé, j’ai traduit et ajouté le glossaire qu’Antoine Meillet donnait en 1913 à la fin de son fameux Altarmenisches Elementachbuch. J’ai opté pour une structure très simple : le mot et sa définition.

Nous avons donc maintenant 4 jeux de données :

ahv : livre, chapitre, rang, mot
lemme : mot, lemme, analyse
dict : source, uri, mot, prononciation, traduction
meillet : mot, definition

Dans la requête suivante, la clause UNION permet de prendre en compte les deux dictionnaires, les BIND permet de ramener les résultats sur une même variable :

PREFIX P-TEXTE: <http://localhost:9091/project/armenien/source/ahv-csv-rdf-1#>
PREFIX P-LEMME: <http://localhost:9091/project/armenien/source/lemme-csv-rdf-1#>
PREFIX P-DICT: <http://localhost:9091/project/armenien/source/dict-hy-fr-csv-rdf-1#>
PREFIX P-MEILL: <http://localhost:9091/project/armenien/source/meillet-csv-rdf-1#>

SELECT ?rang ?mot ?traduction {
?s1 P-TEXTE:mot ?mot;
P-TEXTE:chapitre "ch1.2";
P-TEXTE:rang ?rang.

OPTIONAL {
?s2 P-LEMME:mot ?mot;
P-LEMME:lemme ?lemme;
P-LEMME:analyse ?analyse.

{ ?s3 P-DICT:mot ?lemme;
P-DICT:traduction ?trad1.
BIND (concat("C: ",?analyse," ",?trad1) as ?traduction)
} UNION
{ ?s4 P-MEILL:mot ?lemme;
P-MEILL:definition ?trad2.
BIND (concat("M: ",?trad2) as ?traduction)
} }

}
ORDER BY ?rang
LIMIT 35

Les 35 premiers résultats sont :

1,արդ,"C: adv. 1) or conj., 2) maintenant adv."
1,արդ,M: (§ 171); tout à l'heure; maintenant; or; donc.
1,արդ,M: -ոյ forme; ornement.
2,իւրով,M: (pass. § 72); sien ; le gén. pl. իւրանց permet de traduire ‘leur’ (§ 76) ; իւր est aussi le gén. du réflexif (§ 76).
3,արեամբն,C: noun.ins.sg.def. sang nm.
3,արեամբն,M: -եան sang; αἷμα.
4,փրկեցելոյ,
5,զմեզ,M: (pronom; § 75); nous.
6,տեառն,"C: noun.gen.dat.sg. maître, seigneur, propriétaire nm."
6,տեառն,M: տեառն instr. տերամբ; nom. pl. տեարք; § 59 h; seigneur; κύριος (habituellement abrévié ՟տր [ պատիւ; § 26; rem. 4]; lorsqu'il s'agit de Dieu – de տի-այր ; cf. տի-կին).
7,եւ,C: conj. et conj.
7,եւ,M: (§ 164); aussi; et; même.
8,տուեալ,"C: verb.pfv.nom.acc.sg. 1) belle-soeur nf. 2) donner, livrer, offrir vt."
9,զհոգին,"C: noun.nom.acc.sg. 1) esprit nm., âme nf., 2) personne nf."
9,զհոգին,M: -ւոյ; -ւով (§ 46); esprit; πνεῦμα (cf. ոգի; §27 C).
10,իւր,M: (pass. § 72); sien ; le gén. pl. իւրանց permet de traduire ‘leur’ (§ 76) ; իւր est aussi le gén. du réflexif (§ 76).
11,փոխանակ,C: noun.nom.acc.sg. au lieu de prép.
11,փոխանակ,M: adv. (avec gén.) à la place de; փլայ (§ 109); je m'écroule; je tombe en ruine (cf. փուլ).
11,փոխանակ,M: emprunt (cf. փոխեմ).
12,հոգւոյս,"C: noun.gen.dat.abl.sg.poss1. 1) esprit nm., âme nf., 2) personne nf."
12,հոգւոյս,M: -ւոյ; -ւով (§ 46); esprit; πνεῦμα (cf. ոգի; §27 C).
13,մերոյ,C: pron.adj.gen.sg. notre adj.
13,մերոյ,M: (adj. poss. § 72); notre.
14,եւ,C: conj. et conj.
14,եւ,M: (§ 164); aussi; et; même.
15,զմարմինն,C: noun.nom.acc.sg. corps nm.
15,զմարմինն,M: մարﬓոյ corps; chair; σῶμα.
16,իւր,M: (pass. § 72); sien ; le gén. pl. իւրանց permet de traduire ‘leur’ (§ 76) ; իւր est aussi le gén. du réflexif (§ 76).
17,փոխանակ,C: noun.nom.acc.sg. au lieu de prép.
17,փոխանակ,M: adv. (avec gén.) à la place de; փլայ (§ 109); je m'écroule; je tombe en ruine (cf. փուլ).
17,փոխանակ,M: emprunt (cf. փոխեմ).
18,մարմնոյս,C: noun.gen.dat.abl.sg.poss1. corps nm.
18,մարմնոյս,M: մարﬓոյ corps; chair; σῶμα.
19,մերոյ,C: pron.adj.gen.sg. notre adj.
19,մերոյ,M: (adj. poss. § 72); notre.


Analyse grammaticale automatique de l’arménien classique avec DataLift

Je me suis demandé combien de temps cela me prendrait de faire une analyse grammaticale … Ca ne m’a pris que 10 minutes. Voici comment (et vous pourrez vous y essayer aussi).

  1. Installer Datalift, il suffit de télécharger Datalift ici et de le deziper
  2. Vous créez un projet, appelons-le “armenien”
  3. Vous ajoutez la première source, ce sera un texte arménien tokennisé (voir mon post précédent sur la tokennisation de l’arménien). Là j’ai choisi la préface du livre V de l’Adversus Haereses d’Irénée de Lyon (voir le post où je l’ai posté). Avec le tokenniseur, j’ai créé un CSV avec 3 colonnes (chapitre ; rang ; mot). Je l’ai appelé : preface.csv
  4. Vous ajoutez la deuxième source, là j’ai pris mon CSV de lemmisation. Il a 3 colonnes aussi (mot ; lemme ; analyse). Je l’ai appelé : lemmisation.csv
  5. Vous élevez les deux jeux de données pour en faire des sources RDF. Pour l’élévaton de preface.csv, j’ai demandé le changement de type de la colonne “rang” pour que son contenu soit des entiers. J’ai donc obtenu ainsi : preface-csv-rdf-1 et lemmisation-csv-rdf-1
  6. Il ne reste plus qu’à interconnecter. J’ai écrit la requête d’interconnexion suivante :
    PREFIX P-LEMME: <http://localhost:9091/project/armenien/source/lemmisation-csv-rdf-1#>
    PREFIX P-TEXTE: <http://localhost:9091/project/armenien/source/preface-csv-rdf-1#>

    SELECT ?rang ?mot ?lemme ?analyse WHERE {
    ?s P-TEXTE:mot ?mot;
    P-TEXTE:rang ?rang.
    ?s2 P-LEMME:mot ?mot;
    P-LEMME:lemme ?lemme;
    P-LEMME:analyse ?analyse.
    }
    ORDER BY ?rang

  7. J’ai opté pour une sortie en CSV. Je vous recopie les premières lignes

    rang,mot,lemme,analyse
    2,սիրելի,սիրել,verb.pot.nom.acc.loc.sg.
    3,ամենայն,ամենայն,pron.nom.acc.sg.
    5,ի,ի,prep.
    6,չորս,չորք,num.acc.loc.pl.
    7,գիրս,գիր,noun.acc.loc.pl./nom.acc.sg.poss1.
    8,յառաջ,յառաջ,adj.
    9,քան,քան,conj./prep.
    10,զայս,այս (սա),pron.acc.sg.
    11,քեզ,դու,pron.acc.dat.sg.
    12,առաքեալս,առաքել,verb.pfv.acc.loc.pl./nom.acc.loc.sg.poss1.
    13,ի,ի,prep.
    14,մէնջ,մեք,pron.abl.pl.
    15,եւ,եւ,conj.
    17,նոցա,նա,pron.gen.dat.abl.pl.
    18,յայտնի,յայտնի//յայտնել,adj.nom.acc.loc.sg.//verb.pres.3per.sg.pass.
    19,երեւեցելոց,երեւել,verb.pfv.gen.dat.abl.pl.
    20,եւ,եւ,conj.

Et voilà, le tour est joué ! Chaque ligne commence par le rang du mot analysé dans le texte de départ. Vous voyez ainsi que le premier mot n’est pas présent. Cela signifie tout simplement que cette forme du mot n’est pas renseigné dans mon lemmisateur. Le 16e est dans le même cas.

Voilà à quoi peut servir Datalift, dans le monde de la linguistique.

1 Comment more...

Petit panorama d’outils sur les ontologies : aides

La création d’une ontologie n’est pas chose facile. La faire évoluer non plus, tout comme la référencer, ou encore la cataloguer, etc. Alors où trouver de l’aide ? Qui peut répondre à vos questions ? Pour apporter des réponses aux courageux ontologues débutants, il y a quelques bonnes adresses (mais elles sont rares) où poser ses questions et où lire des réponses aux questions que d’autres ont posées.

Si vous connaissez d’autres sites d’entre-aide, merci d’avance de me les signaler, je mettrai à jour ce post.


Comprendre la philosophie de Datalift par quelques exemples…

L’entrepreneur qui crée un nouveau produit, le développe dans son entreprise. Il a besoin d’un accès à l’extérieur pour trouver des informations sur sa concurrence et sur les attentes de sa clientèle présente ou future afin que son innovation trouve une juste place dans le marché.

information = fonction (accès)

L’architecte qui dresse les plans d’un futur complexe sportif, réunit beaucoup de données sur de très nombreux aspects. Lorsqu’il rencontre le maire, il présente un dossier cohérent. Pour cette harmonisation, il convertit les données de base dans un langage compréhensible par ses interlocuteurs.

compréhension = conversion (information)

Lorsque deux mathématiciens se rencontrent, ils peuvent coopérer et partager leurs préoccupations s’ils utilisent un langage commun. Cela leur permet d’exposer leurs travaux à l’aide des concepts qu’ils savent manipuler et qui ont la même signification pour chacun d’eux.

exposition = partage (langage commun, compréhension)

Pour constituer une base de données adresse de qualité, la bonne recette consiste à prendre le plus de sources et à les croiser pour, notamment, supprimer les mauvaises coordonnées. En reliant des données exposées par plusieurs contributeurs, la qualité de l’ensemble s’enrichit.

enrichissement = croisement (exposition)

Dans le monde journalistique, l’information qui a de la valeur, est celle qui est vérifiée par recoupement puis qui est largement diffusée. Elle acquiert sa valeur lors de sa production parce que des croisements ont été effectués par les journalistes pour la valider, lui conférant ainsi un plus haut niveau de confiance. Elle acquiert encore de la valeur parce qu’elle a des lecteurs qui peuvent l’utiliser. Les données n’ont de valeur que parce qu’elles sont exploitables et exploitées.

valeur des données = exploitation (enrichissement) + exploitation (publication)

Ces exemples, que je pourrais multiplier, nous ont permis d’établir intuitivement que les données ont d’autant plus de valeur qu’elles sont accessibles, comprises, partagées, croisées et exploitables. Ces caractéristiques font système, elles forment un tout. Libérer seulement les données n’est pas suffisant. Convertir les données est inutile si on ne les partage pas, etc.

Tout cela peut sembler si simple et évident. Et pourtant, paradoxalement, combien d’entreprises restent assises sur leur capital informationnel, un capital immatériel qui ne demande qu’a se matérialiser économiquement !

C’est ici l’intuition qui est la base des élévateurs de données dont Datalift est le paradigme exemplaire.

Le Web est probablement entré dans la phase de sa plus profonde transition. Après avoir été accessibles sur les ordinateurs personnels et avoir permis d’accéder à des documents liés par des hyperliens voulus par les rédacteurs, il a gagné rapidement en ubiquité en pénétrant chaque partie et chaque moment de nos vies en se faisant plus collaboratif. De nouveaux appareils et de nouveaux usages sont continuellement créés par des utilisateurs promus au rang d’acteur. Et l’omniprésence de l’Internet a créé également une abondance d’informations invisibles, mais non dénuées de valeur pour qui sait en tirer profit.

Ces données circulent dans le Web. Elles y sont stockées, mais qui sait où et en combien d’exemplaires ? Elles sont aussi transformées, traitées, rediffusées. Créées par les utilisateurs, générées par des capteurs, stockées dans des fermes de données dont la croissance semble ne pas avoir de limite, les données peuplent ce web dynamique qu’on appelle web de données. Il est la métaphore d’une base de données distribuée et mondiale.

Ces données n’ont de valeur qu’à condition que l’on puisse y accéder, les comprendre, les croiser et les enrichir pour enfin les partager et les exploiter. Ce sont là les 5 étapes du processus d’élévation de données, celui-là même qui est au cœur de Datalift.


Big Data et Linked Data : le téra triple

Les données liées appartiennent au monde du web des données dont les dimensions, déjà énormes, ne cessent de croître à un rythme supérieur à celui qu’on a observé pour le web des documents. Pour répondre à cette explosion, des architectes se sont mis à l’oeuvre et il existe désormais des triplestores dont la capacité de stockage a dépassé 10 puissance 12 triples (les anglais parlent de trillion, on utilise aussi le préfixe téra).

Deux faits marquants sont à signaler:

  • AllegroGraph en août 2011, il y a juste un an, a déclaré avoir atteint le Téra triple. Ce sont exactement 1.009.690.381.946 triples qui ont été chargé en 338 heures (14 jours et 2 heures), soit une moyenne de 0.83 millions de triples par seconde.
  • La solution 5Store a aussi annoncé avoir franchi cette limite.

Lorsqu’on atteint de tels ordres de grandeur, les solutions ne sont plus classiques. On n’est plus tranquillement en train de télécharger un triple store open source sur son ordinateur personnel. Les infrastructures sont des architectures puissantes.

5Store a été conçu à partir de zéro pour des clusters pouvant aller jusqu’à 1000 machines et tenir à plus du Tt (Téra triple).

D’autres triplestores s’approchent. OWLIM prétend être capable de gérer de 10 à 100 de milliards de triplets (entre 0.01 Tt et 0.1 Tt). La société Ontotex écrit : “OWLIM-Enterprise is a replication cluster infrastructure based on OWLIM-SE. It offers industrial strength resilience and linearly scalable parallel query performance, with support for load-balancing and automatic fail-over.”

Dommage que la page du W3C consacrée aux grands triplestores ne soit pas mise à jour.


WWW2012, présentation internationale de Datalift

La semaine du 16 au 20 avril, la ville de Lyon est devenue la capitale mondiale du Web avec un évènement énorme : le WWW2012. Tout ce que web des données, alias web sémantique, alias web 3.0, se retrouve pour la grand’messe. On se retrouve entre amis, relations, collègues, geaks, web addicts !

Mercredi 18 avril, je présente le projet Datalift toute la journée sur le stand d’Atos. Je décortiquerai ses composants, son architecture, son business model et répondrai aux questions. Ce sera aussi l’occasion rêvée de discuter avec un public concerné.

La moitié du consortium Datalift est présent à Lyon. Je pense que ce doit être la même chose pour la plupart des autres grands projets actuels du web sémantique. Pour ceux qui ont le temps, Lyon est the place to be !


Opendata & Quality

Cela fait un tour de temps que je navigue et observe ce qui est mis en ligne sous le nom d’Opendata. Bien sûr, ce sont des données, bien sûr elles sont mises à disposition, bien sûr il y a souvent une fiche de méta données plus ou moins complètes, et il y a même des portails qui s’organisent pour les mettre en catalogue … bref ce sont là des ingrédients qui disent que ce sont bien des données publiques répondant aux exigences d’un cahier des charges.

Mais justement, parlons un peu de ce cahier des charges. Il y a comme une partie importante du problème qui est oubliée. Le jeu de données, le dataset, doit être intrinsèquement de qualité et cette qualité semble ne pas être clairement définie.

Aujourd’hui, le dataset est de mieux en mieux défini extérieurement. Il a un nom, des dates (création, mise(s) à jour, péremption), des acteurs de référence (créateur, diffuseur, administrateur, etc.), une typologie (format, domaines, etc.) … mais si on veut travailler avec autrement que manuellement, là, ça se complique. En effet, que sait-on de sa qualité interne ?

Or précisément, un bon dataset n’est-il pas fait pour être utiliser, pour permettre des nouveaux traitements, pour innover et servir à une entreprise, une organisation… Les gouvernements qui poussent à l’ouverture des données attendent qu’un développement économique effectivement en découle. Si les jeux de données ne sont pas exploitables, ou à des coûts trop élevés, ne risque t-on pas de perdre l’élan actuellement suscité ?

Par exemple, un fichier produit par un traitement de textes a peu de chance de servir à quelque chose dans un dispositif de traitement automatique sauf si on a déjà l’application faite juste pour ce fichier. Avec un fichier PDF, c’est pareil … En fait, les bons formats, on les connait mais ils sont encore trop peu utilisés dans la publication de jeux de données ;-( On a encore du chemin à faire avant de trouver quelques datasets dans les formats du web des données (en RDF, N3,Turtle…) De fait, actuellement, les développements réalisés sur la base de datasets opendata sont pour grande part des travaux spécifiques de conversion de données.

Un deuxième critère est l’utilisation d’un vocabulaire (ontologie) dans l’expression des données. C’est par ce moyen que les interconnexions de jeux de données deviennent possibles. (Pensez aux mashups).

Un autre critère de qualité des données est leur exactitude. Par exemple, dans l’étude toute récente réalisée par des étudiants de l’Ecole des Ponts, on peut lire que “les données sur le système
national de transports publics en Grande-Bretagne, mises en ligne en 2010, contenaient près de 6% de localisations d’arrêts de bus erronées”. Et ces inexactitudes n’ont pu être relevées que par des usagers.

Une autre qualité est la fraîcheur du dataset. Actuellement, nombre de jeux de données ne semblent être exposés qu’a des fins de test et leur données ne sont pas mises à jour. Que vaut un dataset sur les prix du carburant dans telle région quand il a plus d’un an d’âge ?

C’est grâce à des plateformes comme Datalift que les datasets actuels pourront être “élevés” pour devenir des objets du web des données. Le lifting des jeux de données permet en effet de satisfaire toutes ces exigences de qualité.

1 – Publier dans un format dédié au traitement automatique des données : la plateforme automatise les processus d’élévation dans des formats du web des données.

2 – Référer les données à un vocabulaire : les datasets contiennent des données, des valeurs. L’utilisation d’un vocabulaire (ontologie), c’est un peu comme donner une valeur avec son unité de mesure. Par exemple, c’est plus parlant de savoir que le “mur mesure 4m” plutôt que d’avoir seulement la valeur 4. La plateforme gère un catalogue de vocabulaires de référence.

3 – Distinguer les données : c’est par exemple permettre de s’assurer que deux applications parlent bien de la même chose quand elles désignent un objet. Techniquement, c’est l’utilisation d’URI.

4 – Vérifier l’exactitude des données : les datasets élevés dans des formats idoines peuvent être interconnectés et les incohérences peuvent être détectées (par exemple par inférence).

5 – Rafraîchir les données : c’est un disposant d’une plateforme automatisant le lifting qu’on peut mettre à jour facilement les datasets qui dans le cas contraire nécessiteraient des manipulations manuelles et donc longues et onéreuses.

La satisfaction de ces 5 qualités permet le passage effectif de l’Opendata au Linked Opendata.


Organiser le web des données

Qui sera le google du web des données ?

Le web des données s’organise. Tout le monde en parle, et plusieurs solutions émergent de ci de là. Mais qu’est-ce que cela veut dire que le web des données s’organise ?

  • Du côté des données
    • Les données sont-elles plus organisées (au niveau de la donnée elle-même) ?
    • Les ensembles de données (dataset) sont-ils mieux organisés ?
    • Les regroupements d’ensemble de données (data.dot) sont-ils rationnellement structurés ?
    • Des standards sont-ils reconnus et appliqués significativement ?
  • Du côté des outils
    • Les outils de manipulations de données sont-ils diffusés et utilisés largement ?
    • Les ontologies sont-elles partagées massivement ?
    • Les alignements sont-ils monnaie courante ?
    • Les rdfisations et autres triplisarions sont-elles disponibles ?
    • L’interconnexion des données a-t-elle cours ?
    • Les solutions open source de bout en bout sont-elles téléchargeables ?
    • Les sites d’hébergement sont-ils opérationnels ?
  • Du côté des utilisateurs
    • Est-ce que les enjeux du web des données sont compris ?
    • Les formations universitaires et les écoles d’ingénieur prennent-elles en compte le web des données ?
    • Les entreprises ont-elles des projets dans le web des données ?
    • Les délivreurs de données ouvertes (open data) ont-ils délivré leurs données ouvertes ?
  • Du côtés des usages
    • Est-il facile d’obtenir des données (pas des données brutes bien sûr) ?
    • Est-il facile d’utiliser des données ?
    • Est-il facile de partager des données ?
    • Commence-t-on à utiliser le web des données comme Monsieur Jourdain ?

    Les questions sont nombreuses et je pourrai en ajouter. Globalement, les choses avancent … et il y a du travail pour tous. Comme toujours, les premiers qui auront investi dans ce vaste monde en tireront le meilleur. Y aura-t-il beaucoup de places dans ce web ? Dans le web des documents, c’est Google qui a mangé le gâteau en offrant le moteur de recherche, l’outil qui organise le web des documents.

    Ma question est simple : qui sera le google du web des données ? (et je ne veux pas dire que la solution est d’apporter un moteur de recherche pour le web des données)


  • Sémantiser des données brutes

    Quand on veut se lancer dans le monde du Web des données (alias Web sémantique ou Web 3.0, mais sincèrement il vaut mieux parler de Web des données), le plus simple est de partir de ses données, en commençant par celles qui sont structurées. Prenez donc parmi vos feuilles de calcul, vos documents XML, vos bases de données, etc.

    Trouver des vocabulaires (des ontologies) existants qui se rapportent au domaine de vos données ou créer vos vocabulaires. Vous pouvez utiliser

    Il faut alors utiliser des “convertisseurs” pour transformer les données initiales en données sémantisées. Des bibliothèques commencent à se constituer. Elles sont très inégales.

    Dans tous les cas, avancer de façon agile, c’est à dire mesurée. Cela vous donnera des idées …

    Le projet de recherche et développement DataLift réalise une infrastructure open source dont les premiers étages sont consacrés 1) à la sélection d’ontologie et 2) à la conversion.


    Comment définir une ontologie ?

    Pour faire simple

    Une ontologie est une façon de partager des connaissances entre l’homme et la machine, celle-ci  en permet le traitement.

    Ces connaissances sont un ensemble structuré de concepts (sous la forme d’une hiérarchie ou d’un graphe). Les concepts manipulés peuvent être des choses, des événements, des relations, etc.

    Mais vous voulez peut-être en savoir plus …

    Le Web de données, alias Web 3.0, alias Web sémantique, n’est plus un sujet de pure recherche. Déjà en 1999, Tim Berners-Lee expliquait que “le Web Sémantique est une extension de l’Internet où les informations sont définies sémantiquement afin de faciliter le partage et la coopération”. Aujourd’hui, on voit de plus en plus de projets, et les responsables informatiques et les décideurs des entreprises ou des administrations se renseignent pour comprendre les promesses de ce nouveau continent et envisager ce que leur système d’information y gagnera. Mais les premières difficultés rencontrées sont le vocabulaire et les concepts qu’il faut manipuler. Les oeuvres de vulgarisation sont encore peu nombreuses, il y a encore beaucoup à faire …

    Dans ce billet, il est question d’ontologie. Je vais donner quelques définitions, à différents niveaux, de cet objet particulier et central dont le seul mot déjà peut rebuter.

    Si vous êtes passés par Wikipedia, vous aurez vu qu’il y a bien d’autres acceptions : philosophique, médicale ou géopolitique. Le vocabulaire est bien chargé ! Pour autant, vous allez voir que ce n’est pas si terrible que ça. Wikipedia propose une page intéressante sur l’ontologie, au sens du Web de données ; la page anglaise est plus fournie encore. La visite d’autres sites spécialisés, comme par exemple celui du CNTRL, ne donne en revanche aucune définition sur notre sujet.

    On trouve aussi de bonnes synthèses (en français), comme celles de Benoit Lavoie ou de Gautier Poupeau.

    A – En 1993, Tom Gruber donne la célèbre définition suivante “An explicit specification of a conceptualisation” (une ontologie est une spécification explicite d’une conceptualisation). Cette définition a la vertu d’être courte, mais elle laisse sur sa fin lecteur d’aujourd’hui compte-tenu des développements du Web de données.

    B – En 2003, Sean Bechhofer, Ian Horrocks and Peter F. Patel-Schneider définissent l’ontologie comme un artefact de l’ingénierie

    • constituée par un vocabulaire spécifique, elle est utilisée pour décrire une certaine réalité
    • et un ensemble d’hypothèses explicites sur le sens voulu du vocabulaire.

    Ainsi, une ontologie décrit une spécification formelle d’un certain domaine

    • elle en est une compréhension partagée
    • et un modèle formel et manipulable par une machine.

    C - La définition de l’IEEE (2003)

    Une ontologie est semblable à un dictionnaire ou un glossaire, mais avec plus de détails et une structure qui permettent aux ordinateurs de traiter leur contenu. Une ontologie se compose d’un ensemble de concepts, d’axiomes, et de relations qui décrivent un domaine d’intérêt.

    D – En 2007, le même Tom Gruber précise.

    Dans le contexte de l’informatique et des sciences de l’information, une ontologie définit un ensemble de primitives de représentation pour modéliser un domaine de connaissance.

    Les primitives de représentation sont généralement

    • des classes (ou des ensembles),
    • des attributs (ou des propriétés),
    • et des relations (ou des liens qui relient des éléments de classe)

    Les définitions des primitives de représentation incluent

    • des informations sur leurs significations
    • et des contraintes sur leurs applications, qui doit être logiquement cohérente.

    Dans le contexte des systèmes de base de données, l’ontologie peut être considérée

    • comme un niveau d’abstraction des modèles de données, analogue aux modèles hiérarchiques et relationnels,
    • mais destinée à la modélisation des connaissances sur les individus, leurs attributs et leurs relations avec d’autres individus.

    Les ontologies sont généralement décrites dans les langages qui permettent l’abstraction indépendamment des structures de données et des stratégies de mise en œuvre. En pratique, les langages de description des ontologies ont une puissance expressive plus proche de la logique du premier ordre que celle des langages utilisés pour les modèles de bases de données. Pour cette raison, on dit des ontologies qu’elles sont de niveau “sémantique”, tandis que les schémas de bases de données sont des modèles de données de niveau «logique» ou «physique».

    Du fait de leur indépendance par rapport aux modèles de données de niveau inférieur, les ontologies sont utilisées pour l’intégration de bases de données hétérogènes, permettant une interopérabilité entre des systèmes disparates, et la spécification d’interfaces de services indépendants de la connaissance. Dans le stack technologique des standards du Web sémantique, les ontologies représentent explicitement une couche.

    E - Kore Nordmann (2009)

    Les ontologies sont un concept théorique en sciences de l’information destiné à représenter formellement des connaissances dans un logiciel capable de les traiter et de raisonner avec. Souvent aussi la lisibilité pour l’homme est un aspect central.

    F - Pour faire simple, suite (2010)

    Si je reprends ce que j’écrivais au début de cette page et que je complète un peu à l’aide des autres définitions que nous avons maintenant parcourues, on peut esquisser ceci :

    Une ontologie décrit généralement des

    • individus : des objets de base,
    • classes : des ensembles, des collections ou des types d’objets,
    • attributs : des propriétés, des fonctionnalités, des caractéristiques ou des paramètres que les objets possèdent et partagent,
    • relations : des liens qui relient  les objets,
    • événements : des changements qui affectent des attributs ou des relations.

    Ces descriptions sont la formalisation d’un ensemble de connaissances exprimées dans un langage

    • compréhensible par un humain
    • et qui peut être traité par un logiciel à des fins de raisonnement.

    La formalisation d’une ontologie en structure les termes et les concepts à l’aide d’un graphe où les relations sont

    • des relations sémantiques,
    • des relations d’inclusion (subsomption).

    L’ontologie est donc la spécification explicite d’une conceptualisation … Nous avons retrouvé la définition donnée par Tom Gruber en 1993 !

    Concluons

    Les définitions sont nombreuses et couvrent parfois des aspects différents. A l’évidence, il n’existe pas une seule bonne définition. Il faut donc y voir la marque d’une richesse que confirme la difficulté de créer une ontologie. Mais c’est là un autre sujet ! Il existe aujourd’hui plusieurs langages standard pour décrire une ontologie. La gamme d’outils commerciaux ou open source se développe. Ce seront les thèmes de prochains billets. A suivre …


  • Catégories

  • Calendrier

    July 2014
    M T W T F S S
    « Mar    
     123456
    78910111213
    14151617181920
    21222324252627
    28293031  
  • Archives

  • Copyright © 1996-2010 Blogabriel. All rights reserved.
    iDream theme by Templates Next | Powered by WordPress