<div dir="ltr">Здравей,<div><br></div><div><span style="font-size:12.8000001907349px">@Михаил Балабанов - би трябвало да имаш вече достъп до SVN-а на </span><span style="font-size:12.8000001907349px">Sourceforge (commit права).</span><br></div><div><span style="font-size:12.8000001907349px"><br></span></div><div><span style="font-size:12.8000001907349px"><br></span></div><div><span style="font-size:12.8000001907349px">Поздрави,</span></div><div><span style="font-size:12.8000001907349px"><br></span></div><div><span style="font-size:12.8000001907349px"><br></span></div></div><div class="gmail_extra"><br><div class="gmail_quote">2015-04-01 16:35 GMT+03:00 Mikhail Balabanov <span dir="ltr"><<a href="mailto:mishob@abv.bg" target="_blank">mishob@abv.bg</a>></span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Привет,<br>
<br>
В близко бъдеще не ми се очертава изобилие от свободно време за по-мащабно участие, но бих се радвал да имам достъп до файловете, за да допълвам и коригирам думи сегиз-тогиз. Покрай редовната работа с LibreOffice и Firefox и спорадичните справки в Уикиречник и другите клонинги съм си събрал списък с грешки (погрешни основни форми и класификации) и липсващи думи/дублети и не бях сигурен какво да го правя. Името ми в Sourceforge е mishob; в GitHub още нямам регистрация, но ако се реши обединеният проект да бъде там, ще си направя.<br>
<br>
За лични цели (експерименти по машинен превод) ползвам своя собствена класификация, базирана на таблиците от прословутата книжка. Първо реализацията (формат на речника и правилата + конвертор между словоформа и граматично представяне) беше изцяло моя и по-простичка. Сега преминавам към стандартния формализъм XFST [1], който е доста мощно средство за описание на словоформи чрез специален вид регулярни изрази. Те позволяват не само добавяне и заместване на афикси, но и по-сложни преобразувания, обработка на изключения от правилата и пр. Не з<br>
ная има ли смисъл от такава тежка артилерия само за съставяне на правописен речник, без необходимост от морфологичен/граматичен анализ, но за всеки случай го споменавам.<br>
<br>
Иначе се присъединявам към препоръката изходните данни на проекта да останат във формат „основни форми + правила за формообразуване“ и да не се превръщат в „плосък“ списък от разгърнати словоформи. Така обемът на данните е много по-обозрим от човек, по-лесно се допълва базата и се отстраняват грешки, а списъкът със словоформи така или иначе може да се генерира по всяко време в какъвто искаме формат. Освен това така данните все пак в бъдеще могат да се използват като основа за граматичен анализ.<br>
<br>
Поздрави,<br>
Михаил Балабанов<br>
<br>
[1] Xerox Finite State Toolkit; свободната реализация, която ползвам, е <a href="http://en.wikipedia.org/wiki/Foma_%28software%29" target="_blank">http://en.wikipedia.org/wiki/Foma_%28software%29</a> , но има и други.<br>
<div class="HOEnZb"><div class="h5">_______________________________________________<br>
Dict mailing list<br>
<a href="mailto:Dict@ludost.net">Dict@ludost.net</a><br>
<a href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict" target="_blank">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a><br>
</div></div></blockquote></div><br></div>