Tokenisation de l'arménien classique (grabar)

Ce programme prend en entrée un texte écrit en caractères arméniens (en unicode). Il réalise la tokenisation (ou normalisation) des mots arméniens. Seuls les caractères arméniens sont conservés, c'est-à-dire toutes les lettres minuscules et majuscules ainsi que le paryok ՞ (le point d'interrogation arménien), le badiv ՟ (signe d'abréviation pour les nomina sacra) et les ligatures suivantes : ﬓ, ﬔ, ﬕ, ﬖ, ﬗ et և. Les caractères օ et ֆ apparus après la période de l'Âge d'Or sont aussi pris en compte. Le résultat est un fichier au format CSV dont chaque ligne est formée du nom du groupe de mots découpés, du rang du mot découpé, et du mot découpé. Les éléments d'une ligne sont séparés par le caractère de votre choix, par défaut un point-virgule. Le résultat est affiché, il ne vous reste plus qu'à en faire un fichier CSV. (C'est à vous de choisir le nom du groupe de mots découpés.)

Le fichier CSV peut être lu par un outil qui reconnaît l'Unicode, par exemple un tableur ou un éditeur de texte.

Texte à traiter
Nom du groupe de mots découpés Séparateur du fichier CSV
Rang du premier mot