[Dict] БГ Офис модул за проверка на правопис

Стоян Димитров stoyan at gmx.com
Wed May 20 20:33:37 EEST 2015



На 20.05.2015 г. в 07:38, Anton Zinoviev написа:
> O, ама ние правописна програма ли обсъждахме?  Аз през цялото време си
> мислех за речник, от типа на този в читанката и уикиречника.
>
> По принцип качеството на един правописен коректор се подобрява, ако той
> не включва рядко използваните думи.  Дори съвсем нормално звучащи думи
> (не като аналгини или йодове) трябва да бъдат изхвърлени.
>
> Което означава, че в речника трябва да се поддържат два списъка с думи -
> един пълен и един съкратен за правописния коректор.  Това обаче
> означава, че ни трябва голям корпус от текстове, въз основа на който ще
> можем да пресметнем колко често се среща всяка една дума.  По принцип
> един такъв корпус трябва да включва разнородни текстово - художествени,
> публицистични, научни и т.н., но мисля, че не лош резултат ще се получи
> ако на първо време използваме единствено текстовете в читанката и
> българската уикипедия.  При пресмятане на честотите на думите на
> текстовете от уикипедията трябва да се даде по-голямо тегло, така че
> въпреки че като количество тези текстове са по-малко, отколкото в
> читанката, влиянието им при определяне на честотите да бъде равностойно.
>
> Така че да не се притесняваме да вкарваме редки думи в речника - стига
> всичко да се прави правилно.  Тъй или иначе после редките думи ще трябва
> да се филтрират според честотата на срещанията си.
IDI включва честотен списък, така че можем да стъпим на него. Според 
автора му използваният корпус е терабайти, демек би трябвало да е 
достоверен. Истината, обаче, е че няма начин да бъде осъвременяван без 
наличието на текстовете, но това е съвсем отделен проблем.

-- 
С



More information about the Dict mailing list