<html>

  <head>

    <meta content="text/html; charset=UTF-8" http-equiv="Content-Type">

  </head>

  <body bgcolor="#FFFFFF" text="#000000">

    <br>

    <br>

    <div class="moz-cite-prefix">На 30.03.2015 г. в 22:05, Sah War

      написа:<br>

    </div>

    <blockquote

cite="mid:CAEps0eRAgTC7j2UupnyxdRbrq7U5ebYdi3gFNaxMgp7QEAc8-w@mail.gmail.com"

      type="cite">

      <pre wrap="">1. Ако знаете как, ще се радвам да създадете .txt вариант на db.sql.gz (все

пак това е SQL база от данни...), даже е добре този вариант да се раздели

на няколко отделни .txt файла, защото иначе ще е мъка да се редактира с

текстов редактор.

Това бих могъл сравнително лесно да го направя. Просто трябва да уточним

</pre>

      <blockquote type="cite">

        <pre wrap="">детайлите.

</pre>

      </blockquote>

      <pre wrap="">

1. Ами, ако просто в отделните .dat файлове са сложени различни думи според

частта на речта, към която принадлежат, то просто тези файлове трябва да се

преобразуват в .txt (UTF-8). Аз обаче не знам нищо за форма̀та за бази от

данни SQL освен това, че става въпрос за релационна база от данни. Не знам

как такъв тип файл се преобразува в .txt, затова и потърсих вашата помощ.

Обяснете какви подробности да обсъдим по отношение на тази дейност, за да

се разберем по въпроса.</pre>

    </blockquote>

    Ако искате структура като тази в папката data ще стане, но файловете

    ще бъдат без заглавния коментар, както е в изходните файлове от

    хранилището, всичко останало е постижимо. Утре вечер ще напиша

    скрипта, че вече е никое време.<br>

    <br>

    <blockquote

cite="mid:CAEps0eRAgTC7j2UupnyxdRbrq7U5ebYdi3gFNaxMgp7QEAc8-w@mail.gmail.com"

      type="cite">

      <pre wrap="">

Това е непосилен и безмислен труд. За набирането на този речник едва ли е

</pre>

      <blockquote type="cite">

        <pre wrap="">използвана пишеща машина. Но кой знае…

</pre>

      </blockquote>

      <pre wrap="">

2. Пишеща машина?!? Кой още използва такива? Това е речник от 2012 г.,

вероятно е направен на Adobe InDesign, сканиран е като черно-бял (освен

предната и задната корица). А че тази работа ще отнеме много време, е

пределно ясно.

    До колкото имам спомени в таблицата на уникод няма знак за ударено ъ.

</pre>

      <blockquote type="cite">

        <pre wrap="">Другите знаци ги има, наистина не са в кирилската част на таблицата, но

поне ги има, така че като вариант остава композирането.

</pre>

      </blockquote>

      <pre wrap="">

3. Трябва да гледате само блока „Cyrillic

<a class="moz-txt-link-rfc2396E" href="http://www.babelstone.co.uk/Unicode/babelmap.html"><http://www.babelstone.co.uk/Unicode/babelmap.html></a>“ (кирилица) в Уникод;

омографите в латинските блокове на Уникод, които са визуално идентични с

кирилски знаци (с ударения), липсващи в кирилския блок, не бива да се

използват в кирилски текст, те не излизат при търсенето с Ctrl + F, защото

имат отделни заделени кодове в Уникод. В кирилския блок има само знака „ѝ“,

който се използва в българския език (а може би и в македонския?), има и

„е“, но с „обратно“ ударение, което май не се ползва в българския език (в

нашия ударението изглежда като умален вид на „\“ над дадения знак).

„Композирането“ по Уникод е най-удачният вариант според мен, вече обясних

причините, поради които съм на това мнение (накратко: чрез уникодско

композиране за добавяне на ударения при търсене с Ctrl + F се открива както

същия низ с ударенията, така и същия низ без ударенията, което е огромно

удобство).

    Мда, това е HTML-ският аналог на уникодското композиране на знаци. И аз

</pre>

      <blockquote type="cite">

        <pre wrap="">не смятам, че то е подходящо за целта.

</pre>

      </blockquote>

    </blockquote>

    Да, да, много правилно. Не се бях замислял за търсенето, но не ми се

    струва, че ще работи както трябва. Все пак става дума за знак, бил

    той и невидим, между видимите знаци. Но това е въпрос на реализация

    на търсещия алгоритъм.<br>

    <blockquote

cite="mid:CAEps0eRAgTC7j2UupnyxdRbrq7U5ebYdi3gFNaxMgp7QEAc8-w@mail.gmail.com"

      type="cite">

      <pre wrap="">

4. За пръв път чувам, че в HTML има отделно композиране (смесване на знаци)

от това на Уникод (знам само за HTML entities), къде го има описано това в

Интернет?!?</pre>

    </blockquote>

    Мне, грешал съм. Читанката е използвала нещо друго. Иначе да,

    HTML-ското комбиниране си е уникодското, но се използват видимите

    entities [1].<br>

    <blockquote

cite="mid:CAEps0eRAgTC7j2UupnyxdRbrq7U5ebYdi3gFNaxMgp7QEAc8-w@mail.gmail.com"

      type="cite">

      <pre wrap="">

Колкото до сричкопренасянето — то е трудно и за да е точно (а не просто

</pre>

      <blockquote type="cite">

        <pre wrap="">генерирано по алгоритъм, който често дава напълно грешни варианти за

сричкопренасяне), то трябва да се направи като ръчно написан списък със

сричките на думите.

</pre>

      </blockquote>

      <pre wrap="">

5. Има и друг проблем, който осъзнах едва сега. Трябва да се използва

правилният знак за отделяне на срички (който е „‧“ (U+2027, HYPHENATION

POINT), но в практиката се използва предимно дефисът „-“ — но това прави

проблеми, защото последното може да се счете за полуслят правопис, а е за

сричкопренасяне чрез дефис...). Но да се върна към проблема, за който щях

да кажа — трябва да има думата, дадена без разделяне на срички и после (на

същия ред) прилежащите ѝ срички, иначе може да се окаже, че

сричкопренасянето дава грешни варианти за сричкопренасяне при съвпадане на

части от думи откъм букви, което кара системата да си мисли, че

сричкоделенето е по даден начин, а той всъщност е неправилен... Сложна

работа... :\ Пък и трябва ръчно да се въведат сричките на думите...

    Разбрах ви напълно. А сега очевидния въпрос, на който отговорът

</pre>

      <blockquote type="cite">

        <pre wrap="">вероятно е истеричен смях, но някой свързвал ли се е с хората от БАН, за

евентуално подпомагане на проекта? Било то с изходните кодове на речника

или по друг начин?

</pre>

      </blockquote>

      <pre wrap="">

6. Немалка част от тези от ИБЕ при БАН живеят в епохата на 1990-те и още не

са си оправили жалкото онлайн подобие на многотомния си речник (

<a class="moz-txt-link-freetext" href="http://ibl.bas.bg/rbe/">http://ibl.bas.bg/rbe/</a>, едва Борислав Манолов от „Читанка“ го направи

по-ползваем чрез неговия frontend на речника им: <a class="moz-txt-link-freetext" href="http://rbe.chitanka.info">http://rbe.chitanka.info</a>),

не можем да очакваме реална помощ от тях, въпреки че можем да се пробваме

поне да ги помолим да ни предоставят базата от данни на речника си, но

по-скоро ми се струва, че ще се заинатят и ще си държат на „авторското

право“ над базата от данни...</pre>

    </blockquote>

    Мхъм, мъхъм, номерът с авторското право, естествено.<br>

    <blockquote

cite="mid:CAEps0eRAgTC7j2UupnyxdRbrq7U5ebYdi3gFNaxMgp7QEAc8-w@mail.gmail.com"

      type="cite">

      <pre wrap="">

7. Само тези от Секцията по компютърна лингвистика към БАН са напред с

материала (<a class="moz-txt-link-freetext" href="http://dcl.bas.bg/programs_bg.html">http://dcl.bas.bg/programs_bg.html</a>,

<a class="moz-txt-link-freetext" href="http://dcl.bas.bg/resources_bg.html">http://dcl.bas.bg/resources_bg.html</a> и особено

<a class="moz-txt-link-freetext" href="http://dcl.bas.bg/dictionaries_bg.html">http://dcl.bas.bg/dictionaries_bg.html</a>) и само на тях възлагам надежди. Те

имат публикувани свободни данни, като честотен речник, генериран от корпус,

които могат евентуално да се вградят в речниковата база на „БГ Офис“, но и

за тях не е ясно дали са проверени от човек за правописни грешки и дали ще

се съгласят да ни дадат базите си от данни на речниците си, което де факто

означава да ги пуснат под свободен лиценз...

Не смятам, че е лош вариант да се смени първоизточника и за основа да се

</pre>

      <blockquote type="cite">

        <pre wrap="">използва нещо по-осъвременено, не разбирам идеята да има няколко еднакви

начинания за едно и също нещо и нито едно от тях да не връща обратно за

постигане на целта на първоизточника – по-добър БГ Офис.

</pre>

      </blockquote>

      <pre wrap="">

8. Реално няма чак толкова много речници що се отнася до spellchecker-и за

българския език, освен официалната добавка за Firefox, наречена „Проверка

на правописа

<a class="moz-txt-link-rfc2396E" href="https://addons.mozilla.org/en-US/firefox/addon/bulgarian-dictionary/"><https://addons.mozilla.org/en-US/firefox/addon/bulgarian-dictionary/></a>“

(използва myspell, може би е основана речник от „БГ Офис“?), има само

добавките „Bulgarian+English Dictionary“, „Bulgarian+German Dictionary“ и

добавка със стария иванчевски правопис, който не е актуален. Само при

онлайн речниците на българския език има по-голямо разнообразие, защото

нишата още не е доминирана от по-сложно устроен свободен онлайн речник

(какъвто ще бъде нашият проект „Словник“), само rechnik.info,

onlinerechnik.com, eurodict.com и rechnik.chitanka.info се използват

реално, другите са с много ограничена употреба. Имам дълъг списък с такива

български онлайн речници — ако искате, ще ви го изпратя.</pre>

    </blockquote>

    Добавката използва форматиран .aff от ООо. Имах предвид главно „IDI

    Spell Checker“ и речникът на Читанка. Читанката я обсъдихме като

    ненадежден източник.<br>

    <blockquote

cite="mid:CAEps0eRAgTC7j2UupnyxdRbrq7U5ebYdi3gFNaxMgp7QEAc8-w@mail.gmail.com"

      type="cite">

      <pre wrap="">

    Склонен съм да използвам текстова база от данни стига това да има

</pre>

      <blockquote type="cite">

        <pre wrap="">някакъв резултат, въпреки наличието на структурирани данни от базата на

„Читанка“ (които по обективни причини са неизползваеми за целта).

</pre>

      </blockquote>

      <pre wrap="">

9. Просто няма друг вариант в случая, освен използването на текстова база

от данни — все пак „БГ Офис“ използва aspell и ispell (не знам дали

използва hunspell, myspell и/или enchant), които доколкото знам работят

само с текстови файлове. Поправете ме, ако греша.</pre>

    </blockquote>

    Амии, има други варианти. Една реализация е именно речникът на

    Читанка. Структурата на базата е добра. Вече нещата опират до набор

    от инструменти, с които се борави с тези данни. Дали ще се извеждат

    в текстови файлове или данните ще се обработват по друг начин е без

    значение. Истината е, че в момента мигриране към база от данни няма

    да допринесе с нищо, а напротив. Инфраструктурата (скриптовете

    генериращи различните неща) на проекта очевидно работи в този ѝ вид.<br>

    <blockquote

cite="mid:CAEps0eRAgTC7j2UupnyxdRbrq7U5ebYdi3gFNaxMgp7QEAc8-w@mail.gmail.com"

      type="cite">

      <pre wrap="">

10. Сега видях от <a class="moz-txt-link-freetext" href="https://svn.code.sf.net/p/bgoffice/code/trunk/bgoffice/">https://svn.code.sf.net/p/bgoffice/code/trunk/bgoffice/</a>,

че .dat файловете на „БГ Офис“ са всъщност обикновени текстови файлове, а

аз си мислех, че са двоични файлове... Но всички файлове са в Windows-1251,

трябва да се конвертират до UTF-8.</pre>

    </blockquote>

    Господин Раднев, смятам, ще се съгласи с това твърдение. Аз също съм

    твърдо „за“.<br>

    <blockquote

cite="mid:CAEps0eRAgTC7j2UupnyxdRbrq7U5ebYdi3gFNaxMgp7QEAc8-w@mail.gmail.com"

      type="cite">

      <pre wrap="">

11. Мисля, че на първо време е най-добре г-н Раднев или вие, г-н Димитров,

да направите копие на всичко от „БГ Офис“ (в SourceForge) в GitHub и да си

сътрудничим по проекта там, защото просто не разбирам нищо от SVN. :D После

не би било проблем да копираме новите издания от GitHub като нови версии в

SVN-то на хостигна на „БГ Офис“ в SourceForge.</pre>

    </blockquote>

    Точно това искам да избегна. Поредното копие на „БГ Офис“. Наистина

    разликата е, че то ще е общодостъпно, но все пак е копие. От друга

    страна като за работа от повече хора GitHub е по-добрият вариант,

    несъмнено. Все пак това е целта му.<br>

    Господин Раднев, какво е вашето мнение? От друга страна, какви са

    критериите за получаване на commit права върху хранилището или части

    от него? Как става преглеждането и приемането/отхвърлянето на

    промени правени от други?<br>

    <blockquote

cite="mid:CAEps0eRAgTC7j2UupnyxdRbrq7U5ebYdi3gFNaxMgp7QEAc8-w@mail.gmail.com"

      type="cite">

      <pre wrap="">

П.П. Ех, писмото ми пак стана прекалено дълго. :D Май ще забравите за какво

съм писал докато четете, затова номерирах абзаците, за да ви е е по-лесно

да ги цитирате и да ги обсъдим. :)

Поздрави,

Sah War (sahwar)

</pre>

      <br>

      <fieldset class="mimeAttachmentHeader"></fieldset>

      <br>

      <pre wrap="">_______________________________________________

Dict mailing list

<a class="moz-txt-link-abbreviated" href="mailto:Dict@ludost.net">Dict@ludost.net</a>

<a class="moz-txt-link-freetext" href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a>

</pre>

    </blockquote>

    [1] <a class="moz-txt-link-freetext" href="http://eenk.com/postavyane-na-udareniya-na-kirilitsa-s-html">http://eenk.com/postavyane-na-udareniya-na-kirilitsa-s-html</a><br>

    <pre class="moz-signature" cols="72">-- 

С</pre>

  </body>

</html>