[Dict] БГ Офис модул за проверка на правопис
Стоян Димитров
stoyan at gmx.com
Wed Jun 7 10:47:13 EEST 2017
Питам за корпуса, защото ми се вижда най-свестния начин за поддържане на
бгофис. По моите разбирания, а и от думите на г-н Зиновиев от там трябва
да се започне, и това е липсващата част от картинката. Въпросът е дали
да е този или друг създаден специално за целта на бгофис. При възможност
да се използва готов, професионално разработван и поддържан честотен
списък е безсмислен труд да се прави отделен.
Просто ума не ми побира колко труд и време е това. Отделен проблем е
съхранението и споделянето и обработката на толкова информация. За
пример, архивът на Уикипедия на български език преди година-две беше
~700МБ. Такъв обем е немислимо да бъде съхраняван в текстов вид и да
бъде удобен за работа.
В тази светлина основния проблем, който стои пред проекта е липсата на
ясен критерии дали дадена дума трябва да присъства в правописния речник
или не. Точно това решава честотният списък. Иначе всеки може да си
вкарва каквито думи поиска, както правя и аз в случая, но до колкото
разбирам това само намалява точността.
@ал_шопов
Честотният речник на българския език представлява двойка дума - брой
срещания в корпуса. Нещо не мога да се сетя за алгоритъм, според който
дадена дума да бъде класифицирана като рядка. Като почти половината от
списъка е с думи, които се срещат по веднъж, а в 99.9% (от общия брой
думи) честотата е под 1000. Някак си не ми се вярва правописният речник
да трябва бъде съставен от ~20000 думи в основна форма (или там както се
казва без представки и наставки).
С.
На 06.06.2017 г. в 20:51, Anton Zinoviev написа:
> On Tue, Jun 06, 2017 at 04:28:05PM +0300, Стоян Димитров wrote:
>> На 20.05.2015 г. в 07:38, Anton Zinoviev написа:
>>> Което означава, че в речника трябва да се поддържат два списъка с думи -
>>> един пълен и един съкратен за правописния коректор. Това обаче
>>> означава, че ни трябва голям корпус от текстове, въз основа на който ще
>> А честотните речници на българския език [1]?
>>
>> Какъв е прагът под който дадена дума се опередля като рядка?
> Оф, дано не забравя да питам някои от създателите на този корпус, защото
> не се виждам с тях много често (1-2 пъти годишно), а не искам с email.
>
> Антон Зиновиев
> _______________________________________________
> Dict mailing list
> Dict at ludost.net
> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.ludost.net/pipermail/dict/attachments/20170607/60e39248/attachment-0001.html>
More information about the Dict
mailing list