<html>
<head>
<meta content="text/html; charset=UTF-8" http-equiv="Content-Type">
</head>
<body bgcolor="#FFFFFF" text="#000000">
<br>
<br>
<div class="moz-cite-prefix">На 30.03.2015 г. в 22:05, Sah War
написа:<br>
</div>
<blockquote
cite="mid:CAEps0eRAgTC7j2UupnyxdRbrq7U5ebYdi3gFNaxMgp7QEAc8-w@mail.gmail.com"
type="cite">
<pre wrap="">1. Ако знаете как, ще се радвам да създадете .txt вариант на db.sql.gz (все
пак това е SQL база от данни...), даже е добре този вариант да се раздели
на няколко отделни .txt файла, защото иначе ще е мъка да се редактира с
текстов редактор.
Това бих могъл сравнително лесно да го направя. Просто трябва да уточним
</pre>
<blockquote type="cite">
<pre wrap="">детайлите.
</pre>
</blockquote>
<pre wrap="">
1. Ами, ако просто в отделните .dat файлове са сложени различни думи според
частта на речта, към която принадлежат, то просто тези файлове трябва да се
преобразуват в .txt (UTF-8). Аз обаче не знам нищо за форма̀та за бази от
данни SQL освен това, че става въпрос за релационна база от данни. Не знам
как такъв тип файл се преобразува в .txt, затова и потърсих вашата помощ.
Обяснете какви подробности да обсъдим по отношение на тази дейност, за да
се разберем по въпроса.</pre>
</blockquote>
Ако искате структура като тази в папката data ще стане, но файловете
ще бъдат без заглавния коментар, както е в изходните файлове от
хранилището, всичко останало е постижимо. Утре вечер ще напиша
скрипта, че вече е никое време.<br>
<br>
<blockquote
cite="mid:CAEps0eRAgTC7j2UupnyxdRbrq7U5ebYdi3gFNaxMgp7QEAc8-w@mail.gmail.com"
type="cite">
<pre wrap="">
Това е непосилен и безмислен труд. За набирането на този речник едва ли е
</pre>
<blockquote type="cite">
<pre wrap="">използвана пишеща машина. Но кой знае…
</pre>
</blockquote>
<pre wrap="">
2. Пишеща машина?!? Кой още използва такива? Това е речник от 2012 г.,
вероятно е направен на Adobe InDesign, сканиран е като черно-бял (освен
предната и задната корица). А че тази работа ще отнеме много време, е
пределно ясно.
До колкото имам спомени в таблицата на уникод няма знак за ударено ъ.
</pre>
<blockquote type="cite">
<pre wrap="">Другите знаци ги има, наистина не са в кирилската част на таблицата, но
поне ги има, така че като вариант остава композирането.
</pre>
</blockquote>
<pre wrap="">
3. Трябва да гледате само блока „Cyrillic
<a class="moz-txt-link-rfc2396E" href="http://www.babelstone.co.uk/Unicode/babelmap.html"><http://www.babelstone.co.uk/Unicode/babelmap.html></a>“ (кирилица) в Уникод;
омографите в латинските блокове на Уникод, които са визуално идентични с
кирилски знаци (с ударения), липсващи в кирилския блок, не бива да се
използват в кирилски текст, те не излизат при търсенето с Ctrl + F, защото
имат отделни заделени кодове в Уникод. В кирилския блок има само знака „ѝ“,
който се използва в българския език (а може би и в македонския?), има и
„е“, но с „обратно“ ударение, което май не се ползва в българския език (в
нашия ударението изглежда като умален вид на „\“ над дадения знак).
„Композирането“ по Уникод е най-удачният вариант според мен, вече обясних
причините, поради които съм на това мнение (накратко: чрез уникодско
композиране за добавяне на ударения при търсене с Ctrl + F се открива както
същия низ с ударенията, така и същия низ без ударенията, което е огромно
удобство).
Мда, това е HTML-ският аналог на уникодското композиране на знаци. И аз
</pre>
<blockquote type="cite">
<pre wrap="">не смятам, че то е подходящо за целта.
</pre>
</blockquote>
</blockquote>
Да, да, много правилно. Не се бях замислял за търсенето, но не ми се
струва, че ще работи както трябва. Все пак става дума за знак, бил
той и невидим, между видимите знаци. Но това е въпрос на реализация
на търсещия алгоритъм.<br>
<blockquote
cite="mid:CAEps0eRAgTC7j2UupnyxdRbrq7U5ebYdi3gFNaxMgp7QEAc8-w@mail.gmail.com"
type="cite">
<pre wrap="">
4. За пръв път чувам, че в HTML има отделно композиране (смесване на знаци)
от това на Уникод (знам само за HTML entities), къде го има описано това в
Интернет?!?</pre>
</blockquote>
Мне, грешал съм. Читанката е използвала нещо друго. Иначе да,
HTML-ското комбиниране си е уникодското, но се използват видимите
entities [1].<br>
<blockquote
cite="mid:CAEps0eRAgTC7j2UupnyxdRbrq7U5ebYdi3gFNaxMgp7QEAc8-w@mail.gmail.com"
type="cite">
<pre wrap="">
Колкото до сричкопренасянето — то е трудно и за да е точно (а не просто
</pre>
<blockquote type="cite">
<pre wrap="">генерирано по алгоритъм, който често дава напълно грешни варианти за
сричкопренасяне), то трябва да се направи като ръчно написан списък със
сричките на думите.
</pre>
</blockquote>
<pre wrap="">
5. Има и друг проблем, който осъзнах едва сега. Трябва да се използва
правилният знак за отделяне на срички (който е „‧“ (U+2027, HYPHENATION
POINT), но в практиката се използва предимно дефисът „-“ — но това прави
проблеми, защото последното може да се счете за полуслят правопис, а е за
сричкопренасяне чрез дефис...). Но да се върна към проблема, за който щях
да кажа — трябва да има думата, дадена без разделяне на срички и после (на
същия ред) прилежащите ѝ срички, иначе може да се окаже, че
сричкопренасянето дава грешни варианти за сричкопренасяне при съвпадане на
части от думи откъм букви, което кара системата да си мисли, че
сричкоделенето е по даден начин, а той всъщност е неправилен... Сложна
работа... :\ Пък и трябва ръчно да се въведат сричките на думите...
Разбрах ви напълно. А сега очевидния въпрос, на който отговорът
</pre>
<blockquote type="cite">
<pre wrap="">вероятно е истеричен смях, но някой свързвал ли се е с хората от БАН, за
евентуално подпомагане на проекта? Било то с изходните кодове на речника
или по друг начин?
</pre>
</blockquote>
<pre wrap="">
6. Немалка част от тези от ИБЕ при БАН живеят в епохата на 1990-те и още не
са си оправили жалкото онлайн подобие на многотомния си речник (
<a class="moz-txt-link-freetext" href="http://ibl.bas.bg/rbe/">http://ibl.bas.bg/rbe/</a>, едва Борислав Манолов от „Читанка“ го направи
по-ползваем чрез неговия frontend на речника им: <a class="moz-txt-link-freetext" href="http://rbe.chitanka.info">http://rbe.chitanka.info</a>),
не можем да очакваме реална помощ от тях, въпреки че можем да се пробваме
поне да ги помолим да ни предоставят базата от данни на речника си, но
по-скоро ми се струва, че ще се заинатят и ще си държат на „авторското
право“ над базата от данни...</pre>
</blockquote>
Мхъм, мъхъм, номерът с авторското право, естествено.<br>
<blockquote
cite="mid:CAEps0eRAgTC7j2UupnyxdRbrq7U5ebYdi3gFNaxMgp7QEAc8-w@mail.gmail.com"
type="cite">
<pre wrap="">
7. Само тези от Секцията по компютърна лингвистика към БАН са напред с
материала (<a class="moz-txt-link-freetext" href="http://dcl.bas.bg/programs_bg.html">http://dcl.bas.bg/programs_bg.html</a>,
<a class="moz-txt-link-freetext" href="http://dcl.bas.bg/resources_bg.html">http://dcl.bas.bg/resources_bg.html</a> и особено
<a class="moz-txt-link-freetext" href="http://dcl.bas.bg/dictionaries_bg.html">http://dcl.bas.bg/dictionaries_bg.html</a>) и само на тях възлагам надежди. Те
имат публикувани свободни данни, като честотен речник, генериран от корпус,
които могат евентуално да се вградят в речниковата база на „БГ Офис“, но и
за тях не е ясно дали са проверени от човек за правописни грешки и дали ще
се съгласят да ни дадат базите си от данни на речниците си, което де факто
означава да ги пуснат под свободен лиценз...
Не смятам, че е лош вариант да се смени първоизточника и за основа да се
</pre>
<blockquote type="cite">
<pre wrap="">използва нещо по-осъвременено, не разбирам идеята да има няколко еднакви
начинания за едно и също нещо и нито едно от тях да не връща обратно за
постигане на целта на първоизточника – по-добър БГ Офис.
</pre>
</blockquote>
<pre wrap="">
8. Реално няма чак толкова много речници що се отнася до spellchecker-и за
българския език, освен официалната добавка за Firefox, наречена „Проверка
на правописа
<a class="moz-txt-link-rfc2396E" href="https://addons.mozilla.org/en-US/firefox/addon/bulgarian-dictionary/"><https://addons.mozilla.org/en-US/firefox/addon/bulgarian-dictionary/></a>“
(използва myspell, може би е основана речник от „БГ Офис“?), има само
добавките „Bulgarian+English Dictionary“, „Bulgarian+German Dictionary“ и
добавка със стария иванчевски правопис, който не е актуален. Само при
онлайн речниците на българския език има по-голямо разнообразие, защото
нишата още не е доминирана от по-сложно устроен свободен онлайн речник
(какъвто ще бъде нашият проект „Словник“), само rechnik.info,
onlinerechnik.com, eurodict.com и rechnik.chitanka.info се използват
реално, другите са с много ограничена употреба. Имам дълъг списък с такива
български онлайн речници — ако искате, ще ви го изпратя.</pre>
</blockquote>
Добавката използва форматиран .aff от ООо. Имах предвид главно „IDI
Spell Checker“ и речникът на Читанка. Читанката я обсъдихме като
ненадежден източник.<br>
<blockquote
cite="mid:CAEps0eRAgTC7j2UupnyxdRbrq7U5ebYdi3gFNaxMgp7QEAc8-w@mail.gmail.com"
type="cite">
<pre wrap="">
Склонен съм да използвам текстова база от данни стига това да има
</pre>
<blockquote type="cite">
<pre wrap="">някакъв резултат, въпреки наличието на структурирани данни от базата на
„Читанка“ (които по обективни причини са неизползваеми за целта).
</pre>
</blockquote>
<pre wrap="">
9. Просто няма друг вариант в случая, освен използването на текстова база
от данни — все пак „БГ Офис“ използва aspell и ispell (не знам дали
използва hunspell, myspell и/или enchant), които доколкото знам работят
само с текстови файлове. Поправете ме, ако греша.</pre>
</blockquote>
Амии, има други варианти. Една реализация е именно речникът на
Читанка. Структурата на базата е добра. Вече нещата опират до набор
от инструменти, с които се борави с тези данни. Дали ще се извеждат
в текстови файлове или данните ще се обработват по друг начин е без
значение. Истината е, че в момента мигриране към база от данни няма
да допринесе с нищо, а напротив. Инфраструктурата (скриптовете
генериращи различните неща) на проекта очевидно работи в този ѝ вид.<br>
<blockquote
cite="mid:CAEps0eRAgTC7j2UupnyxdRbrq7U5ebYdi3gFNaxMgp7QEAc8-w@mail.gmail.com"
type="cite">
<pre wrap="">
10. Сега видях от <a class="moz-txt-link-freetext" href="https://svn.code.sf.net/p/bgoffice/code/trunk/bgoffice/">https://svn.code.sf.net/p/bgoffice/code/trunk/bgoffice/</a>,
че .dat файловете на „БГ Офис“ са всъщност обикновени текстови файлове, а
аз си мислех, че са двоични файлове... Но всички файлове са в Windows-1251,
трябва да се конвертират до UTF-8.</pre>
</blockquote>
Господин Раднев, смятам, ще се съгласи с това твърдение. Аз също съм
твърдо „за“.<br>
<blockquote
cite="mid:CAEps0eRAgTC7j2UupnyxdRbrq7U5ebYdi3gFNaxMgp7QEAc8-w@mail.gmail.com"
type="cite">
<pre wrap="">
11. Мисля, че на първо време е най-добре г-н Раднев или вие, г-н Димитров,
да направите копие на всичко от „БГ Офис“ (в SourceForge) в GitHub и да си
сътрудничим по проекта там, защото просто не разбирам нищо от SVN. :D После
не би било проблем да копираме новите издания от GitHub като нови версии в
SVN-то на хостигна на „БГ Офис“ в SourceForge.</pre>
</blockquote>
Точно това искам да избегна. Поредното копие на „БГ Офис“. Наистина
разликата е, че то ще е общодостъпно, но все пак е копие. От друга
страна като за работа от повече хора GitHub е по-добрият вариант,
несъмнено. Все пак това е целта му.<br>
Господин Раднев, какво е вашето мнение? От друга страна, какви са
критериите за получаване на commit права върху хранилището или части
от него? Как става преглеждането и приемането/отхвърлянето на
промени правени от други?<br>
<blockquote
cite="mid:CAEps0eRAgTC7j2UupnyxdRbrq7U5ebYdi3gFNaxMgp7QEAc8-w@mail.gmail.com"
type="cite">
<pre wrap="">
П.П. Ех, писмото ми пак стана прекалено дълго. :D Май ще забравите за какво
съм писал докато четете, затова номерирах абзаците, за да ви е е по-лесно
да ги цитирате и да ги обсъдим. :)
Поздрави,
Sah War (sahwar)
</pre>
<br>
<fieldset class="mimeAttachmentHeader"></fieldset>
<br>
<pre wrap="">_______________________________________________
Dict mailing list
<a class="moz-txt-link-abbreviated" href="mailto:Dict@ludost.net">Dict@ludost.net</a>
<a class="moz-txt-link-freetext" href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a>
</pre>
</blockquote>
[1] <a class="moz-txt-link-freetext" href="http://eenk.com/postavyane-na-udareniya-na-kirilitsa-s-html">http://eenk.com/postavyane-na-udareniya-na-kirilitsa-s-html</a><br>
<pre class="moz-signature" cols="72">--
С</pre>
</body>
</html>