[Dict] БГ Офис модул за проверка на правопис

Sah War ve4ernik at gmail.com
Thu Apr 9 14:23:16 EEST 2015


@Радостин Раднев

Засега ще се радвам и на мен да ми дадеш права за commit-ване към SVN
хранилището на проекта „БГ Офис“ в SourceForge. Потребителското ми име в
SourceForge е sahwar (http://sourceforge.net/u/sahwar/profile/).

Аз предлагам да преместим всичко в GitHub, защото git ми се струва
по-приятна за употреба, а интерфейсът на GitHub е много приятен. Инструкции
за извършване на тази дейност има на следните страници:

http://www.17od.com/2010/11/11/migrating-a-sourceforge-subversion-repository-to-github/
https://twitter.com/ve4ernik/status/584102649114529792

Ако искате, можем да извършваме основната дейност в GitHub, а само
периодично да синхронизираме версията от GitHub с тази от SourceForge (в
смисъл: да копираме новите неща от GitHub в SourceForge, като SVN-то в SF
да е по принцип заключено за промени, а само от администратора да се
добавят новите неща чрез копирането им от GitHub). Разбира се, ако държите
да ползваме SVN, ще се примиря и с него. Но има и вариант SVN-то да се
преобразува в git, което да е пак в SourceForge и именно него да клонираме
в GitHub (и в GH да действаме), а при промени да вливаме промените обратно
в git хранилището на SourceForge (аз съм лично за този вариант). Варианти
има много...

@Михаил Балабанов

Иначе се присъединявам към препоръката изходните данни на проекта да
> останат във формат „основни форми + правила за формообразуване“ и да не се
> превръщат в „плосък“ списък от разгърнати словоформи. Така обемът на
> данните е много по-обозрим от човек, по-лесно се допълва базата и се
> отстраняват грешки, а списъкът със словоформи така или иначе може да се
> генерира по всяко време в какъвто искаме формат.
>

По принцип е така, но словоформите на думите в българския език не са винаги
по най-често използвания модел на словообразуване на словоформите, поради
което автоматичното генериране на словоформи просто няма как да е перфектно
точно и винаги ще има грешки, макар и дребни...

Ако се съгласите да преминем към използване на GitHub, там можем да
направим 2 копия на данните: master (основно копие, по което да се работи)
и full-wordforms („плосък“ списък с разгърнати словоформи), като второто ще
следва развитието на първото и промените в него.

@Стоят Димитров

Много добра работа си свършил, браво. Но имам един въпрос. Файлът със SQL
базата от данни на речника на chitanka.info е около 70 МБ, а файла, който
ти ни прати, е само 528 КБ, сигурен ли си, че това са всички данни от SQL
файла, че ми се струва прекалено голямо намалението на размера на базата от
данни, макар и преобразувана в текстов вид?

П.П. Ако по някаква причина ви харесва git, но не харесвате GitHub, защото
кодът му не е пуснат, можем да помислим за инсталация на GitLab на нечий
сървър (например на този на ludost.net или да помолим Борислав Манолов от
chitanka.info да ползваме неговата инсталация на GitLab?).

В скоро време искам да пусна нови файлове за частта с речниците в BGOffice,
затова са ми нужни права за SVN, докато не решим дали ще ползваме и
занапред него или ще минем към GitHub/GitLab. :)

Поздрави,
Sah War (sahwar)

На 3 април 2015 г., 23:18, Стоян Димитров <stoyan at gmx.com> написа:

>      Здравейте,
>     Ето ги и първите добавени от мен думи [1]. Наистина са само, за да
> усетя процеса.
> ___
> [1] http://sourceforge.net/p/bgoffice/code/479/
>
> На 29.03.2015 г. в 12:15, Стоян Димитров написа:
>
>     Здравейте,
>     интересува ме някой от вас знае ли дали в момента се извършва дейност
> по осъвременяването на модула за проверка на правописа в БГ Офис [1]
> по-скоро списъка с думи (вероятно се нарича „речник“). След предварителен
> преглед на базата данни [2] от речника [3] мисля, че списъкът с думи,
> включени в БГ Офис, може да бъде осъвременен и поддържан във форма
> сравнително лесно. Като допълнителен бонус процесът на обновяване може да
> бъде автоматизиран. Не е съм съвсем сигурен, но вероятно всички модули
> (напр. сричкопренасянето) и за всички продукти (OpenOffice, Mozilla) ще
> имат полза от това.
>     Започнал съм работа по файла .aff, което да послужи като шаблон за
> генерирането на допълнен речник за проверка на правописа, та идеята ми е да
> не се настъпим с някого.
>
> П.П.
> Разборът, който е направен на изходния материал, за да бъде реализиран [3]
> е страхотна основа за надграждане и незная как е останал незабелязан до
> момента. Поздравления за автора!
>
> __
> [1] - http://bgoffice.sf.net
> [2] - http://rechnik.chitanka.info/db.sql.gz
> [3] - http://rechnik.chitanka.info
>
>
>
> _______________________________________________
> Dict mailing listDict at ludost.nethttp://lists.ludost.net/cgi-bin/mailman/listinfo/dict
>
>
> --
> С
>
>
> _______________________________________________
> Dict mailing list
> Dict at ludost.net
> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
>
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.ludost.net/pipermail/dict/attachments/20150409/94da4b25/attachment.html>


More information about the Dict mailing list