[Dict] БГ Офис модул за проверка на правопис

Mikhail Balabanov mishob at abv.bg
Fri Apr 10 17:23:09 EEST 2015


@Sah War:
Занимавам се с компютърна лингвистика и машинен превод повече от 15 г., макар и само като хоби,  а освен това имам и добър поглед „от другата страна“ като преводач, редактор и автор, така че разбирам напълно за какво става дума. [1] :) Изобщо не говоря за цялостна формализация на естествен език – прагматика, семантика, пък дори и синтаксис. Говоря само за формообразуване, при това само в посока генериране на форми, без същински морфологичен анализ, без парсинг и извличане на граматични признаци.

Използваният конкретно от БГ Офис набор от правила е базиран доста тясно на книга, издадена през 80-те години, която за времето си е била революционен начин на представяне. Класификацията обаче не е била предвидена за компютърна обработка, която изисква пълна прецизност (не просто висока, а именно пълна). Т.е. _замисълът им_ наистина е да обхващат абсолютно точно парадигмите на формообразуване _за всички думи, включени в речника за проверка_ (не за всяка мислима българска дума!), за което в текущия си вид се нуждаят от доработка, но става въпр
 ос за сравнително проста работа. Например в моята класификация съм разделил правилата за глаголите на такива от свършен и несвършен вид, защото първите не трябва да образуват деепричастия, сегашни деятелни причастия и отглаголни съществителни (*нарисувайки, *нарисуващ, *нарисуване). [2] Имам и други допълнения и в крайна сметка съм получил доста функционален набор от правила, който не допуска никакви грешки _за думите, включени в речника_. Не виждам пречка да обединя тази класификация със сегашната в БГ Офис, защото вероятно моите променÐ
 ¸ са еквивалентни на тези, извършени от останалите клонирали екипи.

Накратко, според мен за нашата съвсем тясна и конкретна приложна задача – формообразуване на конкретен, ограничен и предварително известен списък от думи – подходът с правилата е много удобен (от човешка гледна точка) и ефективен (от техническа гледна точка), а напротив, боравенето с „плосък“ списък от милиони словоформи в един файл би било изключително неудобно и тромаво.

Поздрави,
Михаил Балабанов

ПП Като лингвист, може ли да хвърлите един поглед на 
https://sites.google.com/site/bglocalize/ ? Бих се радвал на всякакви 
конструктивни коментари. :)


[1] …и изобщо не бих противопоставял „традиционната“ и компютърната/математическата лингвистика. Всеки компютърен лингвист би трябвало да е наясно, че поставена в общия случай, задачата е нерешима, и когато се разработва формализъм или се пише софтуер, винаги се търси ефективно и прецизно решение за някакъв приложен частен случай.

[2] Може би може да се отделят и преходните глаголи от непреходните 
заради страдателните причастия (за да няма неща като *постоян), но за целите на правописната проверка те могат да се изнесат при прилагателните. При мен е необходимо да се смятат за форми на глагола за по-удобно реализиране на машинния превод.


More information about the Dict mailing list