[Dict] БГ Офис модул за проверка на правопис

Стоян Димитров stoyan at gmx.com
Tue Jun 6 16:28:05 EEST 2017


С.

На 20.05.2015 г. в 07:38, Anton Zinoviev написа:
> On Tue, May 19, 2015 at 04:10:20PM +0300, Alexander Shopov wrote:
>> "изпонасрахте се" изглежда доста българска дума, ама не е с достатъчна
>> честота и вероятност за включване в правописен речник.
> O, ама ние правописна програма ли обсъждахме?  Аз през цялото време си
> мислех за речник, от типа на този в читанката и уикиречника.
>
> По принцип качеството на един правописен коректор се подобрява, ако той
> не включва рядко използваните думи.  Дори съвсем нормално звучащи думи
> (не като аналгини или йодове) трябва да бъдат изхвърлени.
>
> Което означава, че в речника трябва да се поддържат два списъка с думи -
> един пълен и един съкратен за правописния коректор.  Това обаче
> означава, че ни трябва голям корпус от текстове, въз основа на който ще
А честотните речници на българския език [1]?
> можем да пресметнем колко често се среща всяка една дума.  По принцип
> един такъв корпус трябва да включва разнородни текстово - художествени,
> публицистични, научни и т.н., но мисля, че не лош резултат ще се получи
> ако на първо време използваме единствено текстовете в читанката и
> българската уикипедия.  При пресмятане на честотите на думите на
> текстовете от уикипедията трябва да се даде по-голямо тегло, така че
> въпреки че като количество тези текстове са по-малко, отколкото в
> читанката, влиянието им при определяне на честотите да бъде равностойно.
Какъв е прагът под който дадена дума се опередля като рядка?
>
> Така че да не се притесняваме да вкарваме редки думи в речника - стига
> всичко да се прави правилно.  Тъй или иначе после редките думи ще трябва
> да се филтрират според честотата на срещанията си.
>
> С поздрав: Антон Зиновиев
>
___
[1] http://dcl.bas.bg/frequency.html


More information about the Dict mailing list