[Dict] БГ Офис модул за проверка на правопис

Anton Zinoviev anton at lml.bas.bg
Thu Jun 8 17:18:17 EEST 2017


On Tue, Jun 06, 2017 at 06:28:00PM +0000, Alexander Shopov wrote:
> Другият вариант е да издириш съответната публикация, където са описали
> методологията.

Едва ли има такава публикация.  Просто се правят 2-3 варианта на речника 
(малък-среден-голям) и се оставя на потребителя да реши с кой ще работи 
(така е напр. при английския език).

Оn Wed, Jun 07, 2017 at 10:47:13AM +0300, Стоян Димитров wrote:
>
> Въпросът е дали да е този или друг създаден специално за целта на 
> бгофис. При възможност да се използва готов, професионално разработван 
> и поддържан честотен списък е безсмислен труд да се прави отделен.

Там е работата, че не е ясно този честотен речник какъв точно е.  
Различните стилове имат много различни честоти на думите и не знам тук с 
какви тегла тези стилове са били съчетани.
 
> Просто ума не ми побира колко труд и време е това. Отделен проблем е
> съхранението и споделянето и обработката на толкова информация. За
> пример, архивът на Уикипедия на български език преди година-две беше
> ~700МБ. Такъв обем е немислимо да бъде съхраняван в текстов вид и да
> бъде удобен за работа.

Май в текстов вид се съхранява.

Не знам е доколко добър е корпусът на Инситута по български език.  
Защото правенето на качествен езиков корпус е трудна работа. Например 
останал съм със смътен спомен че при научния стил повечето от текстовете 
в него са медицински и това повишава неправилно честотата на 
медицинските термини.

Работата няма да е лесна, но не е и невъзможно сами да си направим 
честотен речник въз основа на следните текстове:

1. Документи от правителствените сайтове и ЕС (административен стил)
2. Закони и нормативни актове (юридически стил)
3. Нови български автори в читанката (художесвен стил)
4. Стари български автори в читанката (художествен стил)
5. Небългарски автори в читанката (художествен стил) 
6. Уикипедия (научен стил?)
7. Архивите на някой вестник (кой?, публицистичен стил)
8. Блогове в Интернет

При генерирането на честотния речник, теглата на тези осем категории 
трябва да се вземат не само според това колко често те се използват, но 
също и според това колко важно е човек да се пази от правописни грешки.  
Например така:

1 - 30%, 2 - 10%, 3 - 10%, 4 - 5%, 5 - 5%, 6 - 20%, 7 - 5%, 8 - 15%

С поздрав: Антон ЗиновиевMore information about the Dict mailing list