<html>
<head>
<meta content="text/html; charset=UTF-8" http-equiv="Content-Type">
</head>
<body bgcolor="#FFFFFF" text="#000000">
<font face="Fira Sans"> 70МБ е само архивът. Самата база от данни
е още по-голяма. Това което не съм изпратил е една огромна таблица
(~</font><font face="Fira Sans"><span>4 милиона</span> реда) с име
„derivative_form</font>“, която предполагам е „разгънатия“ списък
с думи. Не съм сигурен, дали ще мога да я обърна в същата структура,
но ако настояваш мога да опитам (хм, минах на „ти“). Има и друг
фактор - кодирането. Базата е UTF-8, а файловете са cp1251, което
само по себе си е намаляване почти наполовина.<br>
<br>
<div class="moz-cite-prefix">На 09.04.2015 г. в 14:23, Sah War
написа:<br>
</div>
<blockquote
cite="mid:CAEps0eR6NPTL3AQYdFH0K1TFYqwZxykGOAFO5in6iwd+GpJOHw@mail.gmail.com"
type="cite">
<div dir="ltr">
<div>
<div>
<div>
<div>
<div>
<div>@Радостин Раднев<br>
<br>
</div>
<div>Засега ще се радвам и на мен да ми дадеш права за
commit-ване към SVN хранилището на проекта „БГ Офис“
в SourceForge. Потребителското ми име в SourceForge
е sahwar (<a moz-do-not-send="true"
href="http://sourceforge.net/u/sahwar/profile/"
target="_blank">http://sourceforge.net/u/sahwar/profile/</a>).<br>
<br>
</div>
<div>Аз предлагам да преместим всичко в GitHub, защото
git ми се струва по-приятна за употреба, а
интерфейсът на GitHub е много приятен. Инструкции за
извършване на тази дейност има на следните страници:<br>
<br>
<a moz-do-not-send="true"
href="http://www.17od.com/2010/11/11/migrating-a-sourceforge-subversion-repository-to-github/"
target="_blank">http://www.17od.com/2010/11/11/migrating-a-sourceforge-subversion-repository-to-github/</a><br>
<a moz-do-not-send="true"
href="https://twitter.com/ve4ernik/status/584102649114529792"
target="_blank">https://twitter.com/ve4ernik/status/584102649114529792</a><br>
<br>
</div>
<div>Ако искате, можем да извършваме основната дейност
в GitHub, а само периодично да синхронизираме
версията от GitHub с тази от SourceForge (в смисъл:
да копираме новите неща от GitHub в SourceForge,
като SVN-то в SF да е по принцип заключено за
промени, а само от администратора да се добавят
новите неща чрез копирането им от GitHub). Разбира
се, ако държите да ползваме SVN, ще се примиря и с
него. Но има и вариант SVN-то да се преобразува в
git, което да е пак в SourceForge и именно него да
клонираме в GitHub (и в GH да действаме), а при
промени да вливаме промените обратно в git
хранилището на SourceForge (аз съм лично за този
вариант). Варианти има много...<br>
</div>
<div><br>
</div>
@Михаил Балабанов<br>
<br>
<blockquote style="margin:0px 0px 0px
0.8ex;border-left:1px solid
rgb(204,204,204);padding-left:1ex"
class="gmail_quote">Иначе се присъединявам към
препоръката изходните данни на проекта да останат
във формат „основни форми + правила за
формообразуване“ и да не се превръщат в „плосък“
списък от разгърнати словоформи. Така обемът на
данните е много по-обозрим от човек, по-лесно се
допълва базата и се отстраняват грешки, а списъкът
със словоформи така или иначе може да се генерира по
всяко време в какъвто искаме формат.<br>
</blockquote>
<br>
</div>
<div>По принцип е така, но словоформите на думите в
българския език не са винаги по най-често използвания
модел на словообразуване на словоформите, поради което
автоматичното генериране на словоформи просто няма как
да е перфектно точно и винаги ще има грешки, макар и
дребни...<br>
<br>
</div>
<div>Ако се съгласите да преминем към използване на
GitHub, там можем да направим 2 копия на данните:
master (основно копие, по което да се работи) и
full-wordforms („плосък“ списък с разгърнати
словоформи), като второто ще следва развитието на
първото и промените в него.<br>
</div>
<div><br>
</div>
@Стоят Димитров<br>
<br>
</div>
Много добра работа си свършил, браво. Но имам един въпрос.
Файлът със SQL базата от данни на речника на <a
moz-do-not-send="true" href="http://chitanka.info"
target="_blank">chitanka.info</a> е около 70 МБ, а
файла, който ти ни прати, е само 528 КБ, сигурен ли си, че
това са всички данни от SQL файла, че ми се струва
прекалено голямо намалението на размера на базата от
данни, макар и преобразувана в текстов вид?<br>
<br>
</div>
П.П. Ако по някаква причина ви харесва git, но не харесвате
GitHub, защото кодът му не е пуснат, можем да помислим за
инсталация на GitLab на нечий сървър (например на този на <a
moz-do-not-send="true" href="http://ludost.net">ludost.net</a>
или да помолим Борислав Манолов от <a
moz-do-not-send="true" href="http://chitanka.info">chitanka.info</a>
да ползваме неговата инсталация на GitLab?).<br>
<br>
</div>
<div>В скоро време искам да пусна нови файлове за частта с
речниците в BGOffice, затова са ми нужни права за SVN,
докато не решим дали ще ползваме и занапред него или ще
минем към GitHub/GitLab. :)<br>
</div>
<div><br>
</div>
Поздрави,<br>
</div>
Sah War (sahwar)<br>
</div>
<div class="gmail_extra"><br>
<div class="gmail_quote">На 3 април 2015 г., 23:18, Стоян
Димитров <span dir="ltr"><<a moz-do-not-send="true"
href="mailto:stoyan@gmx.com" target="_blank">stoyan@gmx.com</a>></span>
написа:<br>
<blockquote class="gmail_quote" style="margin:0 0 0
.8ex;border-left:1px #ccc solid;padding-left:1ex">
<div bgcolor="#FFFFFF" text="#000000"> <font face="Fira
Sans"> Здравейте,<br>
Ето ги и първите добавени</font><font face="Fira
Sans"><font face="Fira Sans"> от мен</font> думи [1].
Наистина са само, за да усетя процеса.<br>
___<br>
[1] <a moz-do-not-send="true"
href="http://sourceforge.net/p/bgoffice/code/479/"
target="_blank">http://sourceforge.net/p/bgoffice/code/479/</a><br>
</font>
<div>
<div class="h5"><br>
<div>На 29.03.2015 г. в 12:15, Стоян Димитров написа:<br>
</div>
</div>
</div>
<blockquote type="cite">
<div>
<div class="h5"> Здравейте, <br>
интересува ме някой от вас знае ли дали в
момента се извършва дейност по осъвременяването на
модула за проверка на правописа в БГ Офис [1]
по-скоро списъка с думи (вероятно се нарича
„речник“). След предварителен преглед на базата
данни [2] от речника [3] мисля, че списъкът с думи,
включени в БГ Офис, може да бъде осъвременен и
поддържан във форма сравнително лесно. Като
допълнителен бонус процесът на обновяване може да
бъде автоматизиран. Не е съм съвсем сигурен, но
вероятно всички модули (напр. сричкопренасянето) и
за всички продукти (OpenOffice, Mozilla) ще имат
полза от това. <br>
Започнал съм работа по файла .aff, което да
послужи като шаблон за генерирането на допълнен
речник за проверка на правописа, та идеята ми е да
не се настъпим с някого. <br>
<br>
П.П. <br>
Разборът, който е направен на изходния материал, за
да бъде реализиран [3] е страхотна основа за
надграждане и незная как е останал незабелязан до
момента. Поздравления за автора! <br>
<br>
__ <br>
[1] - <a moz-do-not-send="true"
href="http://bgoffice.sf.net" target="_blank">http://bgoffice.sf.net</a>
<br>
[2] - <a moz-do-not-send="true"
href="http://rechnik.chitanka.info/db.sql.gz"
target="_blank">http://rechnik.chitanka.info/db.sql.gz</a>
<br>
[3] - <a moz-do-not-send="true"
href="http://rechnik.chitanka.info"
target="_blank">http://rechnik.chitanka.info</a> <br>
<br>
<br>
<fieldset></fieldset>
<br>
</div>
</div>
<span class="">
<pre>_______________________________________________
Dict mailing list
<a moz-do-not-send="true" href="mailto:Dict@ludost.net" target="_blank">Dict@ludost.net</a>
<a moz-do-not-send="true" href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict" target="_blank">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a>
</pre>
</span></blockquote>
<span class="HOEnZb"><font color="#888888"> <br>
<pre cols="72">--
С</pre>
</font></span></div>
<br>
_______________________________________________<br>
Dict mailing list<br>
<a moz-do-not-send="true" href="mailto:Dict@ludost.net">Dict@ludost.net</a><br>
<a moz-do-not-send="true"
href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict"
target="_blank">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a><br>
<br>
</blockquote>
</div>
<br>
</div>
<br>
<fieldset class="mimeAttachmentHeader"></fieldset>
<br>
<pre wrap="">_______________________________________________
Dict mailing list
<a class="moz-txt-link-abbreviated" href="mailto:Dict@ludost.net">Dict@ludost.net</a>
<a class="moz-txt-link-freetext" href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a>
</pre>
</blockquote>
<br>
<pre class="moz-signature" cols="72">--
С</pre>
</body>
</html>