<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
</head>
<body text="#000000" bgcolor="#FFFFFF">
<p>Питам за корпуса, защото ми се вижда най-свестния начин за
поддържане на бгофис. По моите разбирания, а и от думите на г-н
Зиновиев от там трябва да се започне, и това е липсващата част от
картинката. Въпросът е дали да е този или друг създаден специално
за целта на бгофис. При възможност да се използва готов,
професионално разработван и поддържан честотен списък е безсмислен
труд да се прави отделен.</p>
<p>Просто ума не ми побира колко труд и време е това. Отделен
проблем е съхранението и споделянето и обработката на толкова
информация. За пример, архивът на Уикипедия на български език
преди година-две беше ~700МБ. Такъв обем е немислимо да бъде
съхраняван в текстов вид и да бъде удобен за работа.<br>
</p>
<p>В тази светлина основния проблем, който стои пред проекта е
липсата на ясен критерии дали дадена дума трябва да присъства в
правописния речник или не. Точно това решава честотният списък.
Иначе всеки може да си вкарва каквито думи поиска, както правя и
аз в случая, но до колкото разбирам това само намалява точността.</p>
<p>@ал_шопов</p>
<p>Честотният речник на българския език представлява двойка дума -
брой срещания в корпуса. Нещо не мога да се сетя за алгоритъм,
според който дадена дума да бъде класифицирана като рядка. Като
почти половината от списъка е с думи, които се срещат по веднъж, а
в 99.9% (от общия брой думи) честотата е под 1000. Някак си не ми
се вярва правописният речник да трябва бъде съставен от ~20000
думи в основна форма (или там както се казва без представки и
наставки).<br>
</p>
<pre class="moz-signature" cols="72">С.</pre>
<div class="moz-cite-prefix">На 06.06.2017 г. в 20:51, Anton
Zinoviev написа:<br>
</div>
<blockquote type="cite" cite="mid:20170606175108.GA10703@logic">
<pre wrap="">On Tue, Jun 06, 2017 at 04:28:05PM +0300, Стоян Димитров wrote:
</pre>
<blockquote type="cite">
<pre wrap="">На 20.05.2015 г. в 07:38, Anton Zinoviev написа:
</pre>
<blockquote type="cite">
<pre wrap="">Което означава, че в речника трябва да се поддържат два списъка с думи -
един пълен и един съкратен за правописния коректор. Това обаче
означава, че ни трябва голям корпус от текстове, въз основа на който ще
</pre>
</blockquote>
<pre wrap="">А честотните речници на българския език [1]?
Какъв е прагът под който дадена дума се опередля като рядка?
</pre>
</blockquote>
<pre wrap="">Оф, дано не забравя да питам някои от създателите на този корпус, защото
не се виждам с тях много често (1-2 пъти годишно), а не искам с email.
Антон Зиновиев
_______________________________________________
Dict mailing list
<a class="moz-txt-link-abbreviated" href="mailto:Dict@ludost.net">Dict@ludost.net</a>
<a class="moz-txt-link-freetext" href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a>
</pre>
</blockquote>
<br>
</body>
</html>