26 April 2007

Le livre “Développer pour le Web 2.0″ est paru

Filed under: Web 2.0 — Gabriel @ 14:10

Hier, le livre Développer pour le Web 2.0, écrit par Eric Van der Vlist, Danny Ayers, Erik Bruchez, Joe Fawcett et Alessandro Vernet, est paru. Il s’agit de la traduction du livre Professional Web 2.0 Programming. Cette traduction a été réalisée par Eric Van der Vlist, Alain Herbuel, Frédéric Laurent, Olivier Engler et Gabriel Képéklian. Je vous recommande donc très vivement sa lecture !

Il ne vous propose pas de faire la découverte du Web 2.0, mais si vous développez du Web 2.0, vous y trouverez votre intérêt. En effet, les sujets qu’il traite sont des approfondissements dans de très nombreuses directions. Vous devez donc avoir des connaissances de base, notamment en HTML, CSS, JavaScript et XML.

14 April 2007

Lexicométrie

Filed under: Langages — Gabriel @ 16:10

Définition : à partir d’un ou plusieurs textes ou d’une portion seulement, les outils de lexicométrie fournissent la liste des formes classées alphabétiquement ou par fréquence d’apparition. On peut ainsi étudier le vocabulaire à l’aide statistiques et faire une analyse statistique sur un texte, ou comparatives et statistiques sur plusieurs textes.

Exemples de logiciel de lexicologie

13 April 2007

Catégorisation

Filed under: Langages — Gabriel @ 9:55

Définition : étiquetage linguistique d’un texte
Exemples d’outils de catégorisation

  • TreeTagger pour l’anglais, l’allemand, l’italien, le hollandais, l’espagnol, le bulgare, le russe, le français, l’ancien français - n’est pas disponible pour Windows
  • Winbrill
12 April 2007

Lemmatisation

Filed under: Langages — Gabriel @ 15:41

Définition : Il s’agit d’associer à un mot sa forme canonique. Toutes les flexions d’un même mot renvoie vers cette même forme. Pour toutes les formes conjuguées d’un verbe en français, la forme canonique est le verbe à l’infinitif présent.

Exemples d’outils de lemmatisation automatiques

  • Morlex : Le verbe en français
  • Flemm : Analyseur Flexionnel du français pour des corpus étiquetés