[Dict] БГ Офис модул за проверка на правопис

Стоян Димитров stoyan at gmx.com
Wed Jun 7 10:47:13 EEST 2017


Питам за корпуса, защото ми се вижда най-свестния начин за поддържане на 
бгофис. По моите разбирания, а и от думите на г-н Зиновиев от там трябва 
да се започне, и това е липсващата част от картинката. Въпросът е дали 
да е този или друг създаден специално за целта на бгофис. При възможност 
да се използва готов, професионално разработван и поддържан честотен 
списък е безсмислен труд да се прави отделен.

Просто ума не ми побира колко труд и време е това. Отделен проблем е 
съхранението и споделянето и обработката на толкова информация. За 
пример, архивът на Уикипедия на български език преди година-две беше 
~700МБ. Такъв обем е немислимо да бъде съхраняван в текстов вид и да 
бъде удобен за работа.

В тази светлина основния проблем, който стои пред проекта е липсата на 
ясен критерии дали дадена дума трябва да присъства в правописния речник 
или не. Точно това решава честотният списък. Иначе всеки може да си 
вкарва каквито думи поиска, както правя и аз в случая, но до колкото 
разбирам това само намалява точността.

@ал_шопов

Честотният речник на българския език представлява двойка дума - брой 
срещания в корпуса. Нещо не мога да се сетя за алгоритъм, според който 
дадена дума да бъде класифицирана като рядка. Като почти половината от 
списъка е с думи, които се срещат по веднъж, а в 99.9% (от общия брой 
думи) честотата е под 1000. Някак си не ми се вярва правописният речник 
да трябва бъде съставен от ~20000 думи в основна форма (или там както се 
казва без представки и наставки).

С.

На 06.06.2017 г. в 20:51, Anton Zinoviev написа:
> On Tue, Jun 06, 2017 at 04:28:05PM +0300, Стоян Димитров wrote:
>> На 20.05.2015 г. в 07:38, Anton Zinoviev написа:
>>> Което означава, че в речника трябва да се поддържат два списъка с думи -
>>> един пълен и един съкратен за правописния коректор.  Това обаче
>>> означава, че ни трябва голям корпус от текстове, въз основа на който ще
>> А честотните речници на българския език [1]?
>>
>> Какъв е прагът под който дадена дума се опередля като рядка?
> Оф, дано не забравя да питам някои от създателите на този корпус, защото
> не се виждам с тях много често (1-2 пъти годишно), а не искам с email.
>
> Антон Зиновиев
> _______________________________________________
> Dict mailing list
> Dict at ludost.net
> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict

-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.ludost.net/pipermail/dict/attachments/20170607/60e39248/attachment-0001.html>


More information about the Dict mailing list