[Dict] БГ Офис модул за проверка на правопис
Mikhail Balabanov
mishob at abv.bg
Wed Apr 1 16:35:22 EEST 2015
Привет,
В близко бъдеще не ми се очертава изобилие от свободно време за по-мащабно участие, но бих се радвал да имам достъп до файловете, за да допълвам и коригирам думи сегиз-тогиз. Покрай редовната работа с LibreOffice и Firefox и спорадичните справки в Уикиречник и другите клонинги съм си събрал списък с грешки (погрешни основни форми и класификации) и липсващи думи/дублети и не бях сигурен какво да го правя. Името ми в Sourceforge е mishob; в GitHub още нямам регистрация, но ако се реши обединеният проект да бъде там, ще си направя.
За лични цели (експерименти по машинен превод) ползвам своя собствена класификация, базирана на таблиците от прословутата книжка. Първо реализацията (формат на речника и правилата + конвертор между словоформа и граматично представяне) беше изцяло моя и по-простичка. Сега преминавам към стандартния формализъм XFST [1], който е доста мощно средство за описание на словоформи чрез специален вид регулярни изрази. Те позволяват не само добавяне и заместване на афикси, но и по-сложни преобразувания, обработка на изключения от правилата и пр. Не з
ная има ли смисъл от такава тежка артилерия само за съставяне на правописен речник, без необходимост от морфологичен/граматичен анализ, но за всеки случай го споменавам.
Иначе се присъединявам към препоръката изходните данни на проекта да останат във формат „основни форми + правила за формообразуване“ и да не се превръщат в „плосък“ списък от разгърнати словоформи. Така обемът на данните е много по-обозрим от човек, по-лесно се допълва базата и се отстраняват грешки, а списъкът със словоформи така или иначе може да се генерира по всяко време в какъвто искаме формат. Освен това така данните все пак в бъдеще могат да се използват като основа за граматичен анализ.
Поздрави,
Михаил Балабанов
[1] Xerox Finite State Toolkit; свободната реализация, която ползвам, е http://en.wikipedia.org/wiki/Foma_%28software%29 , но има и други.
More information about the Dict
mailing list