<html>

  <head>

    <meta http-equiv="Content-Type" content="text/html; charset=utf-8">

  </head>

  <body text="#000000" bgcolor="#FFFFFF">

    <p>Питам за корпуса, защото ми се вижда най-свестния начин за

      поддържане на бгофис. По моите разбирания, а и от думите на г-н

      Зиновиев от там трябва да се започне, и това е липсващата част от

      картинката. Въпросът е дали да е този или друг създаден специално

      за целта на бгофис. При възможност да се използва готов,

      професионално разработван и поддържан честотен списък е безсмислен

      труд да се прави отделен.</p>

    <p>Просто ума не ми побира колко труд и време е това. Отделен

      проблем е съхранението и споделянето и обработката на толкова

      информация. За пример, архивът на Уикипедия на български език

      преди година-две беше ~700МБ. Такъв обем е немислимо да бъде

      съхраняван в текстов вид и да бъде удобен за работа.<br>

    </p>

    <p>В тази светлина основния проблем, който стои пред проекта е

      липсата на ясен критерии дали дадена дума трябва да присъства в

      правописния речник или не. Точно това решава честотният списък.

      Иначе всеки може да си вкарва каквито думи поиска, както правя и

      аз в случая, но до колкото разбирам това само намалява точността.</p>

    <p>@ал_шопов</p>

    <p>Честотният речник на българския език представлява двойка дума -

      брой срещания в корпуса. Нещо не мога да се сетя за алгоритъм,

      според който дадена дума да бъде класифицирана като рядка. Като

      почти половината от списъка е с думи, които се срещат по веднъж, а

      в 99.9% (от общия брой думи) честотата е под 1000. Някак си не ми

      се вярва правописният речник да трябва бъде съставен от ~20000

      думи в основна форма (или там както се казва без представки и

      наставки).<br>

    </p>

    <pre class="moz-signature" cols="72">С.</pre>

    <div class="moz-cite-prefix">На 06.06.2017 г. в 20:51, Anton

      Zinoviev написа:<br>

    </div>

    <blockquote type="cite" cite="mid:20170606175108.GA10703@logic">

      <pre wrap="">On Tue, Jun 06, 2017 at 04:28:05PM +0300, Стоян Димитров wrote:

</pre>

      <blockquote type="cite">

        <pre wrap="">На 20.05.2015 г. в 07:38, Anton Zinoviev написа:

</pre>

        <blockquote type="cite">

          <pre wrap="">Което означава, че в речника трябва да се поддържат два списъка с думи -

един пълен и един съкратен за правописния коректор.  Това обаче

означава, че ни трябва голям корпус от текстове, въз основа на който ще

</pre>

        </blockquote>

        <pre wrap="">А честотните речници на българския език [1]?

Какъв е прагът под който дадена дума се опередля като рядка?

</pre>

      </blockquote>

      <pre wrap="">Оф, дано не забравя да питам някои от създателите на този корпус, защото 

не се виждам с тях много често (1-2 пъти годишно), а не искам с email.

Антон Зиновиев

_______________________________________________

Dict mailing list

<a class="moz-txt-link-abbreviated" href="mailto:Dict@ludost.net">Dict@ludost.net</a>

<a class="moz-txt-link-freetext" href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a>

</pre>

    </blockquote>

    <br>

  </body>

</html>