<div dir="ltr"><div><div><div><div><div><div><div>@Радостин Раднев:<br><br></div>Благодаря много! :)<br><br></div>@Стоян Димитров:<br><br></div>Вече минахме на „ти“ с теб, спокойно. :)<br><br>Да, хубаво е да опиташ, но леко се съмнявам, че SourceForge ще ни позволят да имаме хранилище с над 5 GB данни, но кой знае. :D<br><br>„Базата е UTF-8, а файловете са cp1251, което
    само по себе си е намаляване почти наполовина.“<br><br></div>Това е много странно, очаквах всички данни да са с кодировка UTF-8, вероятно Борислав Манолов не е променил кодировката на слоформената база от данни на IDI (по-точно старата ѝ версия, която е използвал), вероятно именно с цел да не увеличава излишно големината на файловете.<br><br></div>CP1251 върши работа, но иначе би било по-добре всичко да е с кодировка UTF-8, но това винаги е на цената на по-голям размер на файловете. Плюс това и повечето от файловете на „БГ Офис“ са с CP1251, ако не се лъжа, тъй че това май не е проблем.<br><br></div><div>И все пак мисля, че би било нереалистично и неефективно да се ползва база от данни над 50 MB само за едната правописна проверка. Вариантът с 2 разклонения на базата от данни с думите ми се струва най-добър — тази без всичките слоформи на думите е стандартната (както е и сега), а другата да е за тези, които искат възможно най-пълна поддръжка на правописната проверка (например писатели, блогъри и т.н. хора, които пишат много (но не програмен код)).<br><br></div><div>П.П. Очаквам мненията ви за предложението за преминаване към GitHub/GitLab или гласове и обяснения в подкрепа на това да останем със SVN-то на SourceForge (има го и вариантът с ползване на git в SourceForge, както вече отбелязах). Все пак вероятно не е особено добра идея да фрагментираме пак проекта чрез едновременното поддържане и на SVN в SourceForge и на GitHub/GitLab/git-SourceForge (май синхронизацията между 2-те хранилища в този случай няма да бъде особено лесна, но пък и аз не съм специалист по синхронизацията между 2 хранилища на различни видове системи за следене на версиите).<br></div><div><br></div>Поздрави,<br></div>Sah War (sahwar)<br></div><div class="gmail_extra"><br><div class="gmail_quote">На 9 април 2015 г., 16:52, Radostin Radnev <span dir="ltr"><<a href="mailto:radnev@gmail.com" target="_blank">radnev@gmail.com</a>></span> написа:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Здравей,<div><br></div><div>Добавен си в проекта на SourceForge.</div><div><br></div><div>Поздрави,</div><div><br></div></div><div class="HOEnZb"><div class="h5"><div class="gmail_extra"><br><div class="gmail_quote">2015-04-09 15:10 GMT+03:00 Стоян Димитров <span dir="ltr"><<a href="mailto:stoyan@gmx.com" target="_blank">stoyan@gmx.com</a>></span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
  
    
  
  <div bgcolor="#FFFFFF" text="#000000">
    <font face="Fira Sans">    70МБ е само архивът. Самата база от данни
      е още по-голяма. Това което не съм изпратил е една огромна таблица
      (~</font><font face="Fira Sans"><span>4 милиона</span> реда) с име
      „derivative_form</font>“, която предполагам е „разгънатия“ списък
    с думи. Не съм сигурен, дали ще мога да я обърна в същата структура,
    но ако настояваш мога да опитам (хм, минах на „ти“). Има и друг
    фактор - кодирането. Базата е UTF-8, а файловете са cp1251, което
    само по себе си е намаляване почти наполовина.<div><div><br>
    <br>
    <div>На 09.04.2015 г. в 14:23, Sah War
      написа:<br>
    </div>
    <blockquote type="cite">
      <div dir="ltr">
        <div>
          <div>
            <div>
              <div>
                <div>
                  <div>@Радостин Раднев<br>
                    <br>
                  </div>
                  <div>Засега ще се радвам и на мен да ми дадеш права за
                    commit-ване към SVN хранилището на проекта „БГ Офис“
                    в SourceForge. Потребителското ми име в SourceForge
                    е sahwar (<a href="http://sourceforge.net/u/sahwar/profile/" target="_blank">http://sourceforge.net/u/sahwar/profile/</a>).<br>
                    <br>
                  </div>
                  <div>Аз предлагам да преместим всичко в GitHub, защото
                    git ми се струва по-приятна за употреба, а
                    интерфейсът на GitHub е много приятен. Инструкции за
                    извършване на тази дейност има на следните страници:<br>
                    <br>
                    <a href="http://www.17od.com/2010/11/11/migrating-a-sourceforge-subversion-repository-to-github/" target="_blank">http://www.17od.com/2010/11/11/migrating-a-sourceforge-subversion-repository-to-github/</a><br>
                    <a href="https://twitter.com/ve4ernik/status/584102649114529792" target="_blank">https://twitter.com/ve4ernik/status/584102649114529792</a><br>
                    <br>
                  </div>
                  <div>Ако искате, можем да извършваме основната дейност
                    в GitHub, а само периодично да синхронизираме
                    версията от GitHub с тази от SourceForge (в смисъл:
                    да копираме новите неща от GitHub в SourceForge,
                    като SVN-то в SF да е по принцип заключено за
                    промени, а само от администратора да се добавят
                    новите неща чрез копирането им от GitHub). Разбира
                    се, ако държите да ползваме SVN, ще се примиря и с
                    него. Но има и вариант SVN-то да се преобразува в
                    git, което да е пак в SourceForge и именно него да
                    клонираме в GitHub (и в GH да действаме), а при
                    промени да вливаме промените обратно в git
                    хранилището на SourceForge (аз съм лично за този
                    вариант). Варианти има много...<br>
                  </div>
                  <div><br>
                  </div>
                  @Михаил Балабанов<br>
                  <br>
                  <blockquote style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex" class="gmail_quote">Иначе се присъединявам към
                    препоръката изходните данни на проекта да останат
                    във формат „основни форми + правила за
                    формообразуване“ и да не се превръщат в „плосък“
                    списък от разгърнати словоформи. Така обемът на
                    данните е много по-обозрим от човек, по-лесно се
                    допълва базата и се отстраняват грешки, а списъкът
                    със словоформи така или иначе може да се генерира по
                    всяко време в какъвто искаме формат.<br>
                  </blockquote>
                  <br>
                </div>
                <div>По принцип е така, но словоформите на думите в
                  българския език не са винаги по най-често използвания
                  модел на словообразуване на словоформите, поради което
                  автоматичното генериране на словоформи просто няма как
                  да е перфектно точно и винаги ще има грешки, макар и
                  дребни...<br>
                  <br>
                </div>
                <div>Ако се съгласите да преминем към използване на
                  GitHub, там можем да направим 2 копия на данните:
                  master (основно копие, по което да се работи) и
                  full-wordforms („плосък“ списък с разгърнати
                  словоформи), като второто ще следва развитието на
                  първото и промените в него.<br>
                </div>
                <div><br>
                </div>
                @Стоят Димитров<br>
                <br>
              </div>
              Много добра работа си свършил, браво. Но имам един въпрос.
              Файлът със SQL базата от данни на речника на <a href="http://chitanka.info" target="_blank">chitanka.info</a> е около 70 МБ, а
              файла, който ти ни прати, е само 528 КБ, сигурен ли си, че
              това са всички данни от SQL файла, че ми се струва
              прекалено голямо намалението на размера на базата от
              данни, макар и преобразувана в текстов вид?<br>
              <br>
            </div>
            П.П. Ако по някаква причина ви харесва git, но не харесвате
            GitHub, защото кодът му не е пуснат, можем да помислим за
            инсталация на GitLab на нечий сървър (например на този на <a href="http://ludost.net" target="_blank">ludost.net</a>
            или да помолим Борислав Манолов от <a href="http://chitanka.info" target="_blank">chitanka.info</a>
            да ползваме неговата инсталация на GitLab?).<br>
            <br>
          </div>
          <div>В скоро време искам да пусна нови файлове за частта с
            речниците в BGOffice, затова са ми нужни права за SVN,
            докато не решим дали ще ползваме и занапред него или ще
            минем към GitHub/GitLab. :)<br>
          </div>
          <div><br>
          </div>
          Поздрави,<br>
        </div>
        Sah War (sahwar)<br>
      </div>
      <div class="gmail_extra"><br>
        <div class="gmail_quote">На 3 април 2015 г., 23:18, Стоян
          Димитров <span dir="ltr"><<a href="mailto:stoyan@gmx.com" target="_blank">stoyan@gmx.com</a>></span>
          написа:<br>
          <blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
            <div bgcolor="#FFFFFF" text="#000000"> <font face="Fira
                Sans">    Здравейте,<br>
                    Ето ги и първите добавени</font><font face="Fira
                Sans"><font face="Fira Sans"> от мен</font> думи [1].
                Наистина са само, за да усетя процеса.<br>
                ___<br>
                [1] <a href="http://sourceforge.net/p/bgoffice/code/479/" target="_blank">http://sourceforge.net/p/bgoffice/code/479/</a><br>
              </font>
              <div>
                <div><br>
                  <div>На 29.03.2015 г. в 12:15, Стоян Димитров написа:<br>
                  </div>
                </div>
              </div>
              <blockquote type="cite">
                <div>
                  <div>    Здравейте, <br>
                        интересува ме някой от вас знае ли дали в
                    момента се извършва дейност по осъвременяването на
                    модула за проверка на правописа в БГ Офис [1]
                    по-скоро списъка с думи (вероятно се нарича
                    „речник“). След предварителен преглед на базата
                    данни [2] от речника [3] мисля, че списъкът с думи,
                    включени в БГ Офис, може да бъде осъвременен и
                    поддържан във форма сравнително лесно. Като
                    допълнителен бонус процесът на обновяване може да
                    бъде автоматизиран. Не е съм съвсем сигурен, но
                    вероятно всички модули (напр. сричкопренасянето) и
                    за всички продукти (OpenOffice, Mozilla) ще имат
                    полза от това. <br>
                        Започнал съм работа по файла .aff, което да
                    послужи като шаблон за генерирането на допълнен
                    речник за проверка на правописа, та идеята ми е да
                    не се настъпим с някого. <br>
                    <br>
                    П.П. <br>
                    Разборът, който е направен на изходния материал, за
                    да бъде реализиран [3] е страхотна основа за
                    надграждане и незная как е останал незабелязан до
                    момента. Поздравления за автора! <br>
                    <br>
                    __ <br>
                    [1] - <a href="http://bgoffice.sf.net" target="_blank">http://bgoffice.sf.net</a>
                    <br>
                    [2] - <a href="http://rechnik.chitanka.info/db.sql.gz" target="_blank">http://rechnik.chitanka.info/db.sql.gz</a>
                    <br>
                    [3] - <a href="http://rechnik.chitanka.info" target="_blank">http://rechnik.chitanka.info</a> <br>
                    <br>
                    <br>
                    <fieldset></fieldset>
                    <br>
                  </div>
                </div>
                <span>
                  <pre>_______________________________________________
Dict mailing list
<a href="mailto:Dict@ludost.net" target="_blank">Dict@ludost.net</a>
<a href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict" target="_blank">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a>
</pre>
                </span></blockquote>
              <span><font color="#888888"> <br>
                  <pre cols="72">-- 
С</pre>
                </font></span></div>
            <br>
            _______________________________________________<br>
            Dict mailing list<br>
            <a href="mailto:Dict@ludost.net" target="_blank">Dict@ludost.net</a><br>
            <a href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict" target="_blank">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a><br>
            <br>
          </blockquote>
        </div>
        <br>
      </div>
      <br>
      <fieldset></fieldset>
      <br>
      <pre>_______________________________________________
Dict mailing list
<a href="mailto:Dict@ludost.net" target="_blank">Dict@ludost.net</a>
<a href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict" target="_blank">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a>
</pre>
    </blockquote>
    <br>
    <pre cols="72">-- 
С</pre>
  </div></div></div>

<br>_______________________________________________<br>
Dict mailing list<br>
<a href="mailto:Dict@ludost.net" target="_blank">Dict@ludost.net</a><br>
<a href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict" target="_blank">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a><br>
<br></blockquote></div><br></div>
</div></div><br>_______________________________________________<br>
Dict mailing list<br>
<a href="mailto:Dict@ludost.net">Dict@ludost.net</a><br>
<a href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict" target="_blank">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a><br>
<br></blockquote></div><br></div>