[Dict] БГ Офис модул за проверка на правопис

Anton Zinoviev anton at lml.bas.bg
Wed May 20 07:38:27 EEST 2015


On Tue, May 19, 2015 at 04:10:20PM +0300, Alexander Shopov wrote:
> "изпонасрахте се" изглежда доста българска дума, ама не е с достатъчна
> честота и вероятност за включване в правописен речник.

O, ама ние правописна програма ли обсъждахме?  Аз през цялото време си 
мислех за речник, от типа на този в читанката и уикиречника.

По принцип качеството на един правописен коректор се подобрява, ако той 
не включва рядко използваните думи.  Дори съвсем нормално звучащи думи 
(не като аналгини или йодове) трябва да бъдат изхвърлени.

Което означава, че в речника трябва да се поддържат два списъка с думи - 
един пълен и един съкратен за правописния коректор.  Това обаче 
означава, че ни трябва голям корпус от текстове, въз основа на който ще 
можем да пресметнем колко често се среща всяка една дума.  По принцип 
един такъв корпус трябва да включва разнородни текстово - художествени, 
публицистични, научни и т.н., но мисля, че не лош резултат ще се получи 
ако на първо време използваме единствено текстовете в читанката и 
българската уикипедия.  При пресмятане на честотите на думите на 
текстовете от уикипедията трябва да се даде по-голямо тегло, така че 
въпреки че като количество тези текстове са по-малко, отколкото в 
читанката, влиянието им при определяне на честотите да бъде равностойно.

Така че да не се притесняваме да вкарваме редки думи в речника - стига 
всичко да се прави правилно.  Тъй или иначе после редките думи ще трябва 
да се филтрират според честотата на срещанията си.

С поздрав: Антон Зиновиев

-- 
Ако не отговарям на писмата ви: http://6lyokavitza.org/mail


More information about the Dict mailing list