Tokenisation de texte épigraphique en arménien classique (grabar)

Ce programme prend en entrée un texte écrit en caractères arméniens (en unicode). Il réalise la tokenisation (ou normalisation) des mots arméniens. Les caractères arméniens sont conservés, c'est-à-dire toutes les lettres minuscules et majuscules ainsi que le paryok ՞ (le point d'interrogation arménien), le badiv ՟ (signe d'abréviation pour les nomina sacra) et les ligatures suivantes : ﬓ, ﬔ, ﬕ, ﬖ, ﬗ et և. Les crochets (utilisés en épigraphie pour les parties restituées dans les mots) sont aussi conservés : [, ], <, >. Les caractères օ et ֆ apparus après la période de l'Âge d'Or sont aussi pris en compte. Le résultat est un fichier au format CSV dont chaque ligne est formée du nom du groupe de mots découpés, du rang du mot découpé, et du mot découpé. Les éléments d'une ligne sont séparés par le caractère de votre choix, par défaut un point-virgule. Le résultat est affiché, il ne vous reste plus qu'à en faire un fichier CSV. (C'est à vous de choisir le nom du groupe de mots découpés.)

Le fichier CSV peut être lu par un outil qui reconnaît l'Unicode, par exemple un tableur ou un éditeur de texte.

Texte à traiter
Nom du groupe de mots découpés Séparateur du fichier CSV Rang du premier mot
Transformer les majuscules en minuscules