<html>
  <head>
    <meta content="text/html; charset=UTF-8" http-equiv="Content-Type">
  </head>
  <body bgcolor="#FFFFFF" text="#000000">
    <font face="Fira Sans">    Здравейте,<br>
          Успях да докарам читав експорт на съдържанието на базата от
      данни на „Читанка“. Разпределено е по файлова структура
      наподобяваща тази на оригинала. Има разминавания в имена на
      папките, които умишлено не съм коригирал. На пръв поглед са нови
      вложени папки във „verb“. Може да има и други.<br>
          Нарочно съм обърнал в 1251, за да е по-лесно при директно
      сравняване с базата на „БГ Офис“, но ако е необходимо мога да ви
      изпратя и копие в utf.<br>
      <br>
          П.П. Отделно копие от писмото изпращам до Sah War, за да
      получи прикачения файл. Ако друг се интересува от него нека пише.</font><br>
    <br>
    <div class="moz-cite-prefix">На 30.03.2015 г. в 22:05, Sah War
      написа:<br>
    </div>
    <blockquote
cite="mid:CAEps0eRAgTC7j2UupnyxdRbrq7U5ebYdi3gFNaxMgp7QEAc8-w@mail.gmail.com"
      type="cite">
      <pre wrap="">1. Ако знаете как, ще се радвам да създадете .txt вариант на db.sql.gz (все
пак това е SQL база от данни...), даже е добре този вариант да се раздели
на няколко отделни .txt файла, защото иначе ще е мъка да се редактира с
текстов редактор.

Това бих могъл сравнително лесно да го направя. Просто трябва да уточним
</pre>
      <blockquote type="cite">
        <pre wrap="">детайлите.

</pre>
      </blockquote>
      <pre wrap="">
1. Ами, ако просто в отделните .dat файлове са сложени различни думи според
частта на речта, към която принадлежат, то просто тези файлове трябва да се
преобразуват в .txt (UTF-8). Аз обаче не знам нищо за форма̀та за бази от
данни SQL освен това, че става въпрос за релационна база от данни. Не знам
как такъв тип файл се преобразува в .txt, затова и потърсих вашата помощ.


Обяснете какви подробности да обсъдим по отношение на тази дейност, за да
се разберем по въпроса.

Това е непосилен и безмислен труд. За набирането на този речник едва ли е
</pre>
      <blockquote type="cite">
        <pre wrap="">използвана пишеща машина. Но кой знае…

</pre>
      </blockquote>
      <pre wrap="">
2. Пишеща машина?!? Кой още използва такива? Това е речник от 2012 г.,
вероятно е направен на Adobe InDesign, сканиран е като черно-бял (освен
предната и задната корица). А че тази работа ще отнеме много време, е
пределно ясно.

    До колкото имам спомени в таблицата на уникод няма знак за ударено ъ.
</pre>
      <blockquote type="cite">
        <pre wrap="">Другите знаци ги има, наистина не са в кирилската част на таблицата, но
поне ги има, така че като вариант остава композирането.

</pre>
      </blockquote>
      <pre wrap="">
3. Трябва да гледате само блока „Cyrillic
<a class="moz-txt-link-rfc2396E" href="http://www.babelstone.co.uk/Unicode/babelmap.html"><http://www.babelstone.co.uk/Unicode/babelmap.html></a>“ (кирилица) в Уникод;
омографите в латинските блокове на Уникод, които са визуално идентични с
кирилски знаци (с ударения), липсващи в кирилския блок, не бива да се
използват в кирилски текст, те не излизат при търсенето с Ctrl + F, защото
имат отделни заделени кодове в Уникод. В кирилския блок има само знака „ѝ“,
който се използва в българския език (а може би и в македонския?), има и
„е“, но с „обратно“ ударение, което май не се ползва в българския език (в
нашия ударението изглежда като умален вид на „\“ над дадения знак).

„Композирането“ по Уникод е най-удачният вариант според мен, вече обясних
причините, поради които съм на това мнение (накратко: чрез уникодско
композиране за добавяне на ударения при търсене с Ctrl + F се открива както
същия низ с ударенията, така и същия низ без ударенията, което е огромно
удобство).

    Мда, това е HTML-ският аналог на уникодското композиране на знаци. И аз
</pre>
      <blockquote type="cite">
        <pre wrap="">не смятам, че то е подходящо за целта.
</pre>
      </blockquote>
      <pre wrap="">

4. За пръв път чувам, че в HTML има отделно композиране (смесване на знаци)
от това на Уникод (знам само за HTML entities), къде го има описано това в
Интернет?!?

Колкото до сричкопренасянето — то е трудно и за да е точно (а не просто
</pre>
      <blockquote type="cite">
        <pre wrap="">генерирано по алгоритъм, който често дава напълно грешни варианти за
сричкопренасяне), то трябва да се направи като ръчно написан списък със
сричките на думите.

</pre>
      </blockquote>
      <pre wrap="">
5. Има и друг проблем, който осъзнах едва сега. Трябва да се използва
правилният знак за отделяне на срички (който е „‧“ (U+2027, HYPHENATION
POINT), но в практиката се използва предимно дефисът „-“ — но това прави
проблеми, защото последното може да се счете за полуслят правопис, а е за
сричкопренасяне чрез дефис...). Но да се върна към проблема, за който щях
да кажа — трябва да има думата, дадена без разделяне на срички и после (на
същия ред) прилежащите ѝ срички, иначе може да се окаже, че
сричкопренасянето дава грешни варианти за сричкопренасяне при съвпадане на
части от думи откъм букви, което кара системата да си мисли, че
сричкоделенето е по даден начин, а той всъщност е неправилен... Сложна
работа... :\ Пък и трябва ръчно да се въведат сричките на думите...

    Разбрах ви напълно. А сега очевидния въпрос, на който отговорът
</pre>
      <blockquote type="cite">
        <pre wrap="">вероятно е истеричен смях, но някой свързвал ли се е с хората от БАН, за
евентуално подпомагане на проекта? Било то с изходните кодове на речника
или по друг начин?

</pre>
      </blockquote>
      <pre wrap="">
6. Немалка част от тези от ИБЕ при БАН живеят в епохата на 1990-те и още не
са си оправили жалкото онлайн подобие на многотомния си речник (
<a class="moz-txt-link-freetext" href="http://ibl.bas.bg/rbe/">http://ibl.bas.bg/rbe/</a>, едва Борислав Манолов от „Читанка“ го направи
по-ползваем чрез неговия frontend на речника им: <a class="moz-txt-link-freetext" href="http://rbe.chitanka.info">http://rbe.chitanka.info</a>),
не можем да очакваме реална помощ от тях, въпреки че можем да се пробваме
поне да ги помолим да ни предоставят базата от данни на речника си, но
по-скоро ми се струва, че ще се заинатят и ще си държат на „авторското
право“ над базата от данни...

7. Само тези от Секцията по компютърна лингвистика към БАН са напред с
материала (<a class="moz-txt-link-freetext" href="http://dcl.bas.bg/programs_bg.html">http://dcl.bas.bg/programs_bg.html</a>,
<a class="moz-txt-link-freetext" href="http://dcl.bas.bg/resources_bg.html">http://dcl.bas.bg/resources_bg.html</a> и особено
<a class="moz-txt-link-freetext" href="http://dcl.bas.bg/dictionaries_bg.html">http://dcl.bas.bg/dictionaries_bg.html</a>) и само на тях възлагам надежди. Те
имат публикувани свободни данни, като честотен речник, генериран от корпус,
които могат евентуално да се вградят в речниковата база на „БГ Офис“, но и
за тях не е ясно дали са проверени от човек за правописни грешки и дали ще
се съгласят да ни дадат базите си от данни на речниците си, което де факто
означава да ги пуснат под свободен лиценз...

Не смятам, че е лош вариант да се смени първоизточника и за основа да се
</pre>
      <blockquote type="cite">
        <pre wrap="">използва нещо по-осъвременено, не разбирам идеята да има няколко еднакви
начинания за едно и също нещо и нито едно от тях да не връща обратно за
постигане на целта на първоизточника – по-добър БГ Офис.

</pre>
      </blockquote>
      <pre wrap="">
8. Реално няма чак толкова много речници що се отнася до spellchecker-и за
българския език, освен официалната добавка за Firefox, наречена „Проверка
на правописа
<a class="moz-txt-link-rfc2396E" href="https://addons.mozilla.org/en-US/firefox/addon/bulgarian-dictionary/"><https://addons.mozilla.org/en-US/firefox/addon/bulgarian-dictionary/></a>“
(използва myspell, може би е основана речник от „БГ Офис“?), има само
добавките „Bulgarian+English Dictionary“, „Bulgarian+German Dictionary“ и
добавка със стария иванчевски правопис, който не е актуален. Само при
онлайн речниците на българския език има по-голямо разнообразие, защото
нишата още не е доминирана от по-сложно устроен свободен онлайн речник
(какъвто ще бъде нашият проект „Словник“), само rechnik.info,
onlinerechnik.com, eurodict.com и rechnik.chitanka.info се използват
реално, другите са с много ограничена употреба. Имам дълъг списък с такива
български онлайн речници — ако искате, ще ви го изпратя.

    Склонен съм да използвам текстова база от данни стига това да има
</pre>
      <blockquote type="cite">
        <pre wrap="">някакъв резултат, въпреки наличието на структурирани данни от базата на
„Читанка“ (които по обективни причини са неизползваеми за целта).

</pre>
      </blockquote>
      <pre wrap="">
9. Просто няма друг вариант в случая, освен използването на текстова база
от данни — все пак „БГ Офис“ използва aspell и ispell (не знам дали
използва hunspell, myspell и/или enchant), които доколкото знам работят
само с текстови файлове. Поправете ме, ако греша.

10. Сега видях от <a class="moz-txt-link-freetext" href="https://svn.code.sf.net/p/bgoffice/code/trunk/bgoffice/">https://svn.code.sf.net/p/bgoffice/code/trunk/bgoffice/</a>,
че .dat файловете на „БГ Офис“ са всъщност обикновени текстови файлове, а
аз си мислех, че са двоични файлове... Но всички файлове са в Windows-1251,
трябва да се конвертират до UTF-8.

11. Мисля, че на първо време е най-добре г-н Раднев или вие, г-н Димитров,
да направите копие на всичко от „БГ Офис“ (в SourceForge) в GitHub и да си
сътрудничим по проекта там, защото просто не разбирам нищо от SVN. :D После
не би било проблем да копираме новите издания от GitHub като нови версии в
SVN-то на хостигна на „БГ Офис“ в SourceForge.

П.П. Ех, писмото ми пак стана прекалено дълго. :D Май ще забравите за какво
съм писал докато четете, затова номерирах абзаците, за да ви е е по-лесно
да ги цитирате и да ги обсъдим. :)

Поздрави,
Sah War (sahwar)
</pre>
      <br>
      <fieldset class="mimeAttachmentHeader"></fieldset>
      <br>
      <pre wrap="">_______________________________________________
Dict mailing list
<a class="moz-txt-link-abbreviated" href="mailto:Dict@ludost.net">Dict@ludost.net</a>
<a class="moz-txt-link-freetext" href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a>
</pre>
    </blockquote>
    <br>
    <pre class="moz-signature" cols="72">-- 
С</pre>
  </body>
</html>