<div dir="ltr"><div><div><div><div><div><div><div>@Радостин Раднев:<br><br></div>Благодаря много! :)<br><br></div>@Стоян Димитров:<br><br></div>Вече минахме на „ти“ с теб, спокойно. :)<br><br>Да, хубаво е да опиташ, но леко се съмнявам, че SourceForge ще ни позволят да имаме хранилище с над 5 GB данни, но кой знае. :D<br><br>„Базата е UTF-8, а файловете са cp1251, което

    само по себе си е намаляване почти наполовина.“<br><br></div>Това е много странно, очаквах всички данни да са с кодировка UTF-8, вероятно Борислав Манолов не е променил кодировката на слоформената база от данни на IDI (по-точно старата ѝ версия, която е използвал), вероятно именно с цел да не увеличава излишно големината на файловете.<br><br></div>CP1251 върши работа, но иначе би било по-добре всичко да е с кодировка UTF-8, но това винаги е на цената на по-голям размер на файловете. Плюс това и повечето от файловете на „БГ Офис“ са с CP1251, ако не се лъжа, тъй че това май не е проблем.<br><br></div><div>И все пак мисля, че би било нереалистично и неефективно да се ползва база от данни над 50 MB само за едната правописна проверка. Вариантът с 2 разклонения на базата от данни с думите ми се струва най-добър — тази без всичките слоформи на думите е стандартната (както е и сега), а другата да е за тези, които искат възможно най-пълна поддръжка на правописната проверка (например писатели, блогъри и т.н. хора, които пишат много (но не програмен код)).<br><br></div><div>П.П. Очаквам мненията ви за предложението за преминаване към GitHub/GitLab или гласове и обяснения в подкрепа на това да останем със SVN-то на SourceForge (има го и вариантът с ползване на git в SourceForge, както вече отбелязах). Все пак вероятно не е особено добра идея да фрагментираме пак проекта чрез едновременното поддържане и на SVN в SourceForge и на GitHub/GitLab/git-SourceForge (май синхронизацията между 2-те хранилища в този случай няма да бъде особено лесна, но пък и аз не съм специалист по синхронизацията между 2 хранилища на различни видове системи за следене на версиите).<br></div><div><br></div>Поздрави,<br></div>Sah War (sahwar)<br></div><div class="gmail_extra"><br><div class="gmail_quote">На 9 април 2015 г., 16:52, Radostin Radnev <span dir="ltr"><<a href="mailto:radnev@gmail.com" target="_blank">radnev@gmail.com</a>></span> написа:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Здравей,<div><br></div><div>Добавен си в проекта на SourceForge.</div><div><br></div><div>Поздрави,</div><div><br></div></div><div class="HOEnZb"><div class="h5"><div class="gmail_extra"><br><div class="gmail_quote">2015-04-09 15:10 GMT+03:00 Стоян Димитров <span dir="ltr"><<a href="mailto:stoyan@gmx.com" target="_blank">stoyan@gmx.com</a>></span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

  <div bgcolor="#FFFFFF" text="#000000">

    <font face="Fira Sans">    70МБ е само архивът. Самата база от данни

      е още по-голяма. Това което не съм изпратил е една огромна таблица

      (~</font><font face="Fira Sans"><span>4 милиона</span> реда) с име

      „derivative_form</font>“, която предполагам е „разгънатия“ списък

    с думи. Не съм сигурен, дали ще мога да я обърна в същата структура,

    но ако настояваш мога да опитам (хм, минах на „ти“). Има и друг

    фактор - кодирането. Базата е UTF-8, а файловете са cp1251, което

    само по себе си е намаляване почти наполовина.<div><div><br>

    <br>

    <div>На 09.04.2015 г. в 14:23, Sah War

      написа:<br>

    </div>

    <blockquote type="cite">

      <div dir="ltr">

        <div>

          <div>

            <div>

              <div>

                <div>

                  <div>@Радостин Раднев<br>

                    <br>

                  </div>

                  <div>Засега ще се радвам и на мен да ми дадеш права за

                    commit-ване към SVN хранилището на проекта „БГ Офис“

                    в SourceForge. Потребителското ми име в SourceForge

                    е sahwar (<a href="http://sourceforge.net/u/sahwar/profile/" target="_blank">http://sourceforge.net/u/sahwar/profile/</a>).<br>

                    <br>

                  </div>

                  <div>Аз предлагам да преместим всичко в GitHub, защото

                    git ми се струва по-приятна за употреба, а

                    интерфейсът на GitHub е много приятен. Инструкции за

                    извършване на тази дейност има на следните страници:<br>

                    <br>

                    <a href="http://www.17od.com/2010/11/11/migrating-a-sourceforge-subversion-repository-to-github/" target="_blank">http://www.17od.com/2010/11/11/migrating-a-sourceforge-subversion-repository-to-github/</a><br>

                    <a href="https://twitter.com/ve4ernik/status/584102649114529792" target="_blank">https://twitter.com/ve4ernik/status/584102649114529792</a><br>

                    <br>

                  </div>

                  <div>Ако искате, можем да извършваме основната дейност

                    в GitHub, а само периодично да синхронизираме

                    версията от GitHub с тази от SourceForge (в смисъл:

                    да копираме новите неща от GitHub в SourceForge,

                    като SVN-то в SF да е по принцип заключено за

                    промени, а само от администратора да се добавят

                    новите неща чрез копирането им от GitHub). Разбира

                    се, ако държите да ползваме SVN, ще се примиря и с

                    него. Но има и вариант SVN-то да се преобразува в

                    git, което да е пак в SourceForge и именно него да

                    клонираме в GitHub (и в GH да действаме), а при

                    промени да вливаме промените обратно в git

                    хранилището на SourceForge (аз съм лично за този

                    вариант). Варианти има много...<br>

                  </div>

                  <div><br>

                  </div>

                  @Михаил Балабанов<br>

                  <br>

                  <blockquote style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex" class="gmail_quote">Иначе се присъединявам към

                    препоръката изходните данни на проекта да останат

                    във формат „основни форми + правила за

                    формообразуване“ и да не се превръщат в „плосък“

                    списък от разгърнати словоформи. Така обемът на

                    данните е много по-обозрим от човек, по-лесно се

                    допълва базата и се отстраняват грешки, а списъкът

                    със словоформи така или иначе може да се генерира по

                    всяко време в какъвто искаме формат.<br>

                  </blockquote>

                  <br>

                </div>

                <div>По принцип е така, но словоформите на думите в

                  българския език не са винаги по най-често използвания

                  модел на словообразуване на словоформите, поради което

                  автоматичното генериране на словоформи просто няма как

                  да е перфектно точно и винаги ще има грешки, макар и

                  дребни...<br>

                  <br>

                </div>

                <div>Ако се съгласите да преминем към използване на

                  GitHub, там можем да направим 2 копия на данните:

                  master (основно копие, по което да се работи) и

                  full-wordforms („плосък“ списък с разгърнати

                  словоформи), като второто ще следва развитието на

                  първото и промените в него.<br>

                </div>

                <div><br>

                </div>

                @Стоят Димитров<br>

                <br>

              </div>

              Много добра работа си свършил, браво. Но имам един въпрос.

              Файлът със SQL базата от данни на речника на <a href="http://chitanka.info" target="_blank">chitanka.info</a> е около 70 МБ, а

              файла, който ти ни прати, е само 528 КБ, сигурен ли си, че

              това са всички данни от SQL файла, че ми се струва

              прекалено голямо намалението на размера на базата от

              данни, макар и преобразувана в текстов вид?<br>

              <br>

            </div>

            П.П. Ако по някаква причина ви харесва git, но не харесвате

            GitHub, защото кодът му не е пуснат, можем да помислим за

            инсталация на GitLab на нечий сървър (например на този на <a href="http://ludost.net" target="_blank">ludost.net</a>

            или да помолим Борислав Манолов от <a href="http://chitanka.info" target="_blank">chitanka.info</a>

            да ползваме неговата инсталация на GitLab?).<br>

            <br>

          </div>

          <div>В скоро време искам да пусна нови файлове за частта с

            речниците в BGOffice, затова са ми нужни права за SVN,

            докато не решим дали ще ползваме и занапред него или ще

            минем към GitHub/GitLab. :)<br>

          </div>

          <div><br>

          </div>

          Поздрави,<br>

        </div>

        Sah War (sahwar)<br>

      </div>

      <div class="gmail_extra"><br>

        <div class="gmail_quote">На 3 април 2015 г., 23:18, Стоян

          Димитров <span dir="ltr"><<a href="mailto:stoyan@gmx.com" target="_blank">stoyan@gmx.com</a>></span>

          написа:<br>

          <blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

            <div bgcolor="#FFFFFF" text="#000000"> <font face="Fira

                Sans">    Здравейте,<br>

                    Ето ги и първите добавени</font><font face="Fira

                Sans"><font face="Fira Sans"> от мен</font> думи [1].

                Наистина са само, за да усетя процеса.<br>

                ___<br>

                [1] <a href="http://sourceforge.net/p/bgoffice/code/479/" target="_blank">http://sourceforge.net/p/bgoffice/code/479/</a><br>

              </font>

              <div>

                <div><br>

                  <div>На 29.03.2015 г. в 12:15, Стоян Димитров написа:<br>

                  </div>

                </div>

              </div>

              <blockquote type="cite">

                <div>

                  <div>    Здравейте, <br>

                        интересува ме някой от вас знае ли дали в

                    момента се извършва дейност по осъвременяването на

                    модула за проверка на правописа в БГ Офис [1]

                    по-скоро списъка с думи (вероятно се нарича

                    „речник“). След предварителен преглед на базата

                    данни [2] от речника [3] мисля, че списъкът с думи,

                    включени в БГ Офис, може да бъде осъвременен и

                    поддържан във форма сравнително лесно. Като

                    допълнителен бонус процесът на обновяване може да

                    бъде автоматизиран. Не е съм съвсем сигурен, но

                    вероятно всички модули (напр. сричкопренасянето) и

                    за всички продукти (OpenOffice, Mozilla) ще имат

                    полза от това. <br>

                        Започнал съм работа по файла .aff, което да

                    послужи като шаблон за генерирането на допълнен

                    речник за проверка на правописа, та идеята ми е да

                    не се настъпим с някого. <br>

                    <br>

                    П.П. <br>

                    Разборът, който е направен на изходния материал, за

                    да бъде реализиран [3] е страхотна основа за

                    надграждане и незная как е останал незабелязан до

                    момента. Поздравления за автора! <br>

                    <br>

                    __ <br>

                    [1] - <a href="http://bgoffice.sf.net" target="_blank">http://bgoffice.sf.net</a>

                    <br>

                    [2] - <a href="http://rechnik.chitanka.info/db.sql.gz" target="_blank">http://rechnik.chitanka.info/db.sql.gz</a>

                    <br>

                    [3] - <a href="http://rechnik.chitanka.info" target="_blank">http://rechnik.chitanka.info</a> <br>

                    <br>

                    <br>

                    <fieldset></fieldset>

                    <br>

                  </div>

                </div>

                <span>

                  <pre>_______________________________________________

Dict mailing list

<a href="mailto:Dict@ludost.net" target="_blank">Dict@ludost.net</a>

<a href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict" target="_blank">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a>

</pre>

                </span></blockquote>

              <span><font color="#888888"> <br>

                  <pre cols="72">-- 

С</pre>

                </font></span></div>

            <br>

            _______________________________________________<br>

            Dict mailing list<br>

            <a href="mailto:Dict@ludost.net" target="_blank">Dict@ludost.net</a><br>

            <a href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict" target="_blank">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a><br>

            <br>

          </blockquote>

        </div>

        <br>

      </div>

      <br>

      <fieldset></fieldset>

      <br>

      <pre>_______________________________________________

Dict mailing list

<a href="mailto:Dict@ludost.net" target="_blank">Dict@ludost.net</a>

<a href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict" target="_blank">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a>

</pre>

    </blockquote>

    <br>

    <pre cols="72">-- 

С</pre>

  </div></div></div>

<br>_______________________________________________<br>

Dict mailing list<br>

<a href="mailto:Dict@ludost.net" target="_blank">Dict@ludost.net</a><br>

<a href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict" target="_blank">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a><br>

<br></blockquote></div><br></div>

</div></div><br>_______________________________________________<br>

Dict mailing list<br>

<a href="mailto:Dict@ludost.net">Dict@ludost.net</a><br>

<a href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict" target="_blank">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a><br>

<br></blockquote></div><br></div>