[Dict] БГ Офис модул за проверка на правопис
Radostin Radnev
radnev at gmail.com
Wed Apr 1 16:48:11 EEST 2015
Здравей,
@Михаил Балабанов - би трябвало да имаш вече достъп до SVN-а на Sourceforge
(commit права).
Поздрави,
2015-04-01 16:35 GMT+03:00 Mikhail Balabanov <mishob at abv.bg>:
> Привет,
>
> В близко бъдеще не ми се очертава изобилие от свободно време за по-мащабно
> участие, но бих се радвал да имам достъп до файловете, за да допълвам и
> коригирам думи сегиз-тогиз. Покрай редовната работа с LibreOffice и Firefox
> и спорадичните справки в Уикиречник и другите клонинги съм си събрал списък
> с грешки (погрешни основни форми и класификации) и липсващи думи/дублети и
> не бях сигурен какво да го правя. Името ми в Sourceforge е mishob; в GitHub
> още нямам регистрация, но ако се реши обединеният проект да бъде там, ще си
> направя.
>
> За лични цели (експерименти по машинен превод) ползвам своя собствена
> класификация, базирана на таблиците от прословутата книжка. Първо
> реализацията (формат на речника и правилата + конвертор между словоформа и
> граматично представяне) беше изцяло моя и по-простичка. Сега преминавам към
> стандартния формализъм XFST [1], който е доста мощно средство за описание
> на словоформи чрез специален вид регулярни изрази. Те позволяват не само
> добавяне и заместване на афикси, но и по-сложни преобразувания, обработка
> на изключения от правилата и пр. Не з
> ная има ли смисъл от такава тежка артилерия само за съставяне на
> правописен речник, без необходимост от морфологичен/граматичен анализ, но
> за всеки случай го споменавам.
>
> Иначе се присъединявам към препоръката изходните данни на проекта да
> останат във формат „основни форми + правила за формообразуване“ и да не се
> превръщат в „плосък“ списък от разгърнати словоформи. Така обемът на
> данните е много по-обозрим от човек, по-лесно се допълва базата и се
> отстраняват грешки, а списъкът със словоформи така или иначе може да се
> генерира по всяко време в какъвто искаме формат. Освен това така данните
> все пак в бъдеще могат да се използват като основа за граматичен анализ.
>
> Поздрави,
> Михаил Балабанов
>
> [1] Xerox Finite State Toolkit; свободната реализация, която ползвам, е
> http://en.wikipedia.org/wiki/Foma_%28software%29 , но има и други.
> _______________________________________________
> Dict mailing list
> Dict at ludost.net
> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.ludost.net/pipermail/dict/attachments/20150401/b7033b44/attachment.html>
More information about the Dict
mailing list