Tokenisation de texte écrit en caractères arméniens

Tokenisation de l'arménien classique (grabar) Ce programme prend en entrée un texte écrit en caractères arméniens (en unicode). Il réalise la tokenisation (ou normalisation) des mots arméniens. Seuls les caractères arméniens sont conservés, c'est-à-dire toutes les lettres minuscules et majuscules ainsi que le paryok ՞ (le point d'interrogation arménien), le badiv ՟ (signe d'abréviation pour les nomina sacra) et les ligatures suivantes : ﬓ, ﬔ, ﬕ, ﬖ, ﬗ et և. Les caractères օ et ֆ apparus après la période de l'Âge d'Or sont aussi pris en compte. Le résultat est un fichier au format CSV dont chaque ligne est formée du nom du groupe de mots découpés, du rang du mot découpé, et du mot découpé. Les éléments d'une ligne sont séparés par le caractère de votre choix, par défaut un point-virgule. Le résultat est affiché, il ne vous reste plus qu'à en faire un fichier CSV. (C'est à vous de choisir le nom du groupe de mots découpés.) Le fichier CSV peut être lu par un outil qui reconnaît l'Unicode, par exemple un tableur ou un éditeur de texte.
Texte à traiter	Քանզի ոչ այլազգ մեք ուսանել կարէաք զԱստուծոյսն եթէ ոչ վարդապետն մեր, իբրու զի Բան էր, մարդ եղանիւր. քանզի եւ ոչ այլ ոք կարող էր պատմել զՀաւրսն, եթէ ոչ իւր իսկ Բանն։ « Քանզի ո՞ այլ ոք գիտաց զմիտս Աստուծոյ եւ կամ ո՞ այլ ոք խորհրդակից եղեւ նորա »
Nom du groupe de mots découpés		Séparateur du fichier CSV
Rang du premier mot