[Dict] БГ Офис модул за проверка на правопис
Стоян Димитров
stoyan at gmx.com
Wed May 20 20:33:37 EEST 2015
На 20.05.2015 г. в 07:38, Anton Zinoviev написа:
> O, ама ние правописна програма ли обсъждахме? Аз през цялото време си
> мислех за речник, от типа на този в читанката и уикиречника.
>
> По принцип качеството на един правописен коректор се подобрява, ако той
> не включва рядко използваните думи. Дори съвсем нормално звучащи думи
> (не като аналгини или йодове) трябва да бъдат изхвърлени.
>
> Което означава, че в речника трябва да се поддържат два списъка с думи -
> един пълен и един съкратен за правописния коректор. Това обаче
> означава, че ни трябва голям корпус от текстове, въз основа на който ще
> можем да пресметнем колко често се среща всяка една дума. По принцип
> един такъв корпус трябва да включва разнородни текстово - художествени,
> публицистични, научни и т.н., но мисля, че не лош резултат ще се получи
> ако на първо време използваме единствено текстовете в читанката и
> българската уикипедия. При пресмятане на честотите на думите на
> текстовете от уикипедията трябва да се даде по-голямо тегло, така че
> въпреки че като количество тези текстове са по-малко, отколкото в
> читанката, влиянието им при определяне на честотите да бъде равностойно.
>
> Така че да не се притесняваме да вкарваме редки думи в речника - стига
> всичко да се прави правилно. Тъй или иначе после редките думи ще трябва
> да се филтрират според честотата на срещанията си.
IDI включва честотен списък, така че можем да стъпим на него. Според
автора му използваният корпус е терабайти, демек би трябвало да е
достоверен. Истината, обаче, е че няма начин да бъде осъвременяван без
наличието на текстовете, но това е съвсем отделен проблем.
--
С
More information about the Dict
mailing list