<html>
  <head>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8">
  </head>
  <body text="#000000" bgcolor="#FFFFFF">
    <p>Питам за корпуса, защото ми се вижда най-свестния начин за
      поддържане на бгофис. По моите разбирания, а и от думите на г-н
      Зиновиев от там трябва да се започне, и това е липсващата част от
      картинката. Въпросът е дали да е този или друг създаден специално
      за целта на бгофис. При възможност да се използва готов,
      професионално разработван и поддържан честотен списък е безсмислен
      труд да се прави отделен.</p>
    <p>Просто ума не ми побира колко труд и време е това. Отделен
      проблем е съхранението и споделянето и обработката на толкова
      информация. За пример, архивът на Уикипедия на български език
      преди година-две беше ~700МБ. Такъв обем е немислимо да бъде
      съхраняван в текстов вид и да бъде удобен за работа.<br>
    </p>
    <p>В тази светлина основния проблем, който стои пред проекта е
      липсата на ясен критерии дали дадена дума трябва да присъства в
      правописния речник или не. Точно това решава честотният списък.
      Иначе всеки може да си вкарва каквито думи поиска, както правя и
      аз в случая, но до колкото разбирам това само намалява точността.</p>
    <p>@ал_шопов</p>
    <p>Честотният речник на българския език представлява двойка дума -
      брой срещания в корпуса. Нещо не мога да се сетя за алгоритъм,
      според който дадена дума да бъде класифицирана като рядка. Като
      почти половината от списъка е с думи, които се срещат по веднъж, а
      в 99.9% (от общия брой думи) честотата е под 1000. Някак си не ми
      се вярва правописният речник да трябва бъде съставен от ~20000
      думи в основна форма (или там както се казва без представки и
      наставки).<br>
    </p>
    <pre class="moz-signature" cols="72">С.</pre>
    <div class="moz-cite-prefix">На 06.06.2017 г. в 20:51, Anton
      Zinoviev написа:<br>
    </div>
    <blockquote type="cite" cite="mid:20170606175108.GA10703@logic">
      <pre wrap="">On Tue, Jun 06, 2017 at 04:28:05PM +0300, Стоян Димитров wrote:
</pre>
      <blockquote type="cite">
        <pre wrap="">На 20.05.2015 г. в 07:38, Anton Zinoviev написа:
</pre>
        <blockquote type="cite">
          <pre wrap="">Което означава, че в речника трябва да се поддържат два списъка с думи -
един пълен и един съкратен за правописния коректор.  Това обаче
означава, че ни трябва голям корпус от текстове, въз основа на който ще
</pre>
        </blockquote>
        <pre wrap="">А честотните речници на българския език [1]?

Какъв е прагът под който дадена дума се опередля като рядка?
</pre>
      </blockquote>
      <pre wrap="">Оф, дано не забравя да питам някои от създателите на този корпус, защото 
не се виждам с тях много често (1-2 пъти годишно), а не искам с email.

Антон Зиновиев
_______________________________________________
Dict mailing list
<a class="moz-txt-link-abbreviated" href="mailto:Dict@ludost.net">Dict@ludost.net</a>
<a class="moz-txt-link-freetext" href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a>
</pre>
    </blockquote>
    <br>
  </body>
</html>