<div dir="ltr"><div><div><div><div><span><blockquote type="cite"><pre>1. Ако знаете как, ще се радвам да създадете .txt вариант на db.sql.gz (все


пак това е SQL база от данни...), даже е добре този вариант да се раздели


на няколко отделни .txt файла, защото иначе ще е мъка да се редактира с


текстов редактор.</pre></blockquote></span><blockquote style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex" class="gmail_quote">Това бих могъл сравнително лесно да го направя. Просто трябва да


    уточним детайлите.<br></blockquote><br></div>1. Ами, ако просто в отделните .dat файлове са сложени различни думи според частта на речта, към която принадлежат, то просто тези файлове трябва да се преобразуват в .txt (UTF-8). Аз обаче не знам нищо за форма̀та за бази от данни SQL освен това, че става въпрос за релационна база от данни. Не знам как такъв тип файл се преобразува в .txt, затова и потърсих вашата помощ.<br><br><br></div>Обяснете какви подробности да обсъдим по отношение на тази дейност, за да се разберем по въпроса.<br><br><blockquote style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex" class="gmail_quote">Това е непосилен и безмислен труд. За набирането на този речник


    едва ли е използвана пишеща машина. Но кой знае…<br></blockquote><br></div>2. Пишеща машина?!? Кой още използва такива? Това е речник от 2012 г., вероятно е направен на Adobe InDesign, сканиран е като черно-бял (освен предната и задната корица). А че тази работа ще отнеме много време, е пределно ясно.<br><br><blockquote style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex" class="gmail_quote">    До колкото имам спомени в таблицата на уникод няма знак за


    ударено ъ. Другите знаци ги има, наистина не са в кирилската част на


    таблицата, но поне ги има, така че като вариант остава композирането.<span></span><br></blockquote><div><br></div><div>3. Трябва да гледате само блока „<a href="http://www.babelstone.co.uk/Unicode/babelmap.html">Cyrillic</a>“ (кирилица) в Уникод; омографите в латинските блокове на Уникод, които са визуално идентични с кирилски знаци (с ударения), липсващи в кирилския блок, не бива да се използват в кирилски текст, те не излизат при търсенето с Ctrl + F, защото имат отделни заделени кодове в Уникод. В кирилския блок има само знака „ѝ“, който се използва в българския език (а може би и в македонския?), има и „е“, но с „обратно“ ударение, което май не се ползва в българския език (в нашия ударението изглежда като умален вид на „\“ над дадения знак).<br><br></div><div>„Композирането“ по Уникод е най-удачният вариант според мен, вече обясних причините, поради които съм на това мнение (накратко: чрез уникодско композиране за добавяне на ударения при търсене с Ctrl + F се открива както същия низ с ударенията, така и същия низ без ударенията, което е огромно удобство).<br><br><blockquote style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex" class="gmail_quote">    Мда, това е HTML-ският аналог на уникодското композиране на


    знаци. И аз не смятам, че то е подходящо за целта.</blockquote><div><br></div><div>4. За пръв път чувам, че в HTML има отделно композиране (смесване на знаци) от това на Уникод (знам само за HTML entities), къде го има описано това в Интернет?!?<br><br><span></span><blockquote style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex" class="gmail_quote">Колкото до сричкопренасянето — то е трудно и за да е точно (а не просто


генерирано по алгоритъм, който често дава напълно грешни варианти за


сричкопренасяне), то трябва да се направи като ръчно написан списък със


сричките на думите.<br></blockquote><div><br></div><div>5. Има и друг проблем, който осъзнах едва сега. Трябва да се използва правилният знак за отделяне на срички (който е „‧“ (U+2027, HYPHENATION POINT), но в практиката се използва предимно дефисът „-“ — но това прави проблеми, защото последното може да се счете за полуслят правопис, а е за сричкопренасяне чрез дефис...). Но да се върна към проблема, за който щях да кажа — трябва да има думата, дадена без разделяне на срички и после (на същия ред) прилежащите ѝ срички, иначе може да се окаже, че сричкопренасянето дава грешни варианти за сричкопренасяне при съвпадане на части от думи откъм букви, което кара системата да си мисли, че сричкоделенето е по даден начин, а той всъщност е неправилен... Сложна работа... :\ Пък и трябва ръчно да се въведат сричките на думите...<br><br><blockquote style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex" class="gmail_quote">    Разбрах ви напълно. А сега очевидния въпрос, на който отговорът


    вероятно е истеричен смях, но някой свързвал ли се е с хората от


    БАН, за евентуално подпомагане на проекта? Било то с изходните


    кодове на речника или по друг начин?<span class="im"></span><br></blockquote><div><br></div><div>6. Немалка част от тези от ИБЕ при БАН живеят в епохата на 1990-те и още не са си оправили жалкото онлайн подобие на многотомния си речник (<a href="http://ibl.bas.bg/rbe/">http://ibl.bas.bg/rbe/</a>, едва Борислав Манолов от „Читанка“ го направи по-ползваем чрез неговия frontend на речника им: <a href="http://rbe.chitanka.info">http://rbe.chitanka.info</a>), не можем да очакваме реална помощ от тях, въпреки че можем да се пробваме поне да ги помолим да ни предоставят базата от данни на речника си, но по-скоро ми се струва, че ще се заинатят и ще си държат на „авторското право“ над базата от данни...<br><br>7. Само тези от Секцията по компютърна лингвистика към БАН са напред с материала (<a href="http://dcl.bas.bg/programs_bg.html">http://dcl.bas.bg/programs_bg.html</a>, <a href="http://dcl.bas.bg/resources_bg.html">http://dcl.bas.bg/resources_bg.html</a> и особено <a href="http://dcl.bas.bg/dictionaries_bg.html">http://dcl.bas.bg/dictionaries_bg.html</a>) и само на тях възлагам надежди. Те имат публикувани свободни данни, като честотен речник, генериран от корпус, които могат евентуално да се вградят в речниковата база на „БГ Офис“, но и за тях не е ясно дали са проверени от човек за правописни грешки и дали ще се съгласят да ни дадат базите си от данни на речниците си, което де факто означава да ги пуснат под свободен лиценз...<br><br><blockquote style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex" class="gmail_quote">Не смятам, че е лош вариант да се смени


    първоизточника и за основа да се използва нещо по-осъвременено, не


    разбирам идеята да има няколко еднакви начинания за едно и също нещо


    и нито едно от тях да не връща обратно за постигане на целта на


    първоизточника – по-добър БГ Офис.<br></blockquote><br></div><div>8. Реално няма чак толкова много речници що се отнася до spellchecker-и за българския език, освен официалната добавка за Firefox, наречена „<a href="https://addons.mozilla.org/en-US/firefox/addon/bulgarian-dictionary/">Проверка на правописа</a>“ (използва myspell, може би е основана речник от „БГ Офис“?), има само добавките „Bulgarian+English Dictionary“, „Bulgarian+German Dictionary“ и добавка със стария иванчевски правопис, който не е актуален. Само при онлайн речниците на българския език има по-голямо разнообразие, защото нишата още не е доминирана от по-сложно устроен свободен онлайн речник (какъвто ще бъде нашият проект „Словник“), само <a href="http://rechnik.info">rechnik.info</a>, <a href="http://onlinerechnik.com">onlinerechnik.com</a>, <a href="http://eurodict.com">eurodict.com</a> и <a href="http://rechnik.chitanka.info">rechnik.chitanka.info</a> се използват реално, другите са с много ограничена употреба. Имам дълъг списък с такива български онлайн речници — ако искате, ще ви го изпратя.<br><br><blockquote style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex" class="gmail_quote">    Склонен съм да използвам текстова база от данни стига това да


    има някакъв резултат, въпреки наличието на структурирани данни от


    базата на „Читанка“ (които по обективни причини са неизползваеми за


    целта).<br></blockquote><br></div><div>9. Просто няма друг вариант в случая, освен използването на текстова база от данни — все пак „БГ Офис“ използва aspell и ispell (не знам дали използва hunspell, myspell и/или enchant), които доколкото знам работят само с текстови файлове. Поправете ме, ако греша.<br><br></div><div>10. Сега видях от <a href="https://svn.code.sf.net/p/bgoffice/code/trunk/bgoffice/">https://svn.code.sf.net/p/bgoffice/code/trunk/bgoffice/</a>, че .dat файловете на „БГ Офис“ са всъщност обикновени текстови файлове, а аз си мислех, че са двоични файлове... Но всички файлове са в Windows-1251, трябва да се конвертират до UTF-8.<br><br>11. Мисля, че на първо време е най-добре г-н Раднев или вие, г-н Димитров, да направите копие на всичко от „БГ Офис“ (в SourceForge) в GitHub и да си сътрудничим по проекта там, защото просто не разбирам нищо от SVN. :D После не би било проблем да копираме новите издания от GitHub като нови версии в SVN-то на хостигна на „БГ Офис“ в SourceForge.<br><br></div><div>П.П. Ех, писмото ми пак стана прекалено дълго. :D Май ще забравите за какво съм писал докато четете, затова номерирах абзаците, за да ви е е по-лесно да ги цитирате и да ги обсъдим. :)<br></div><div><br></div><div>Поздрави,<br></div><div>Sah War (sahwar)<br></div></div><span></span></div></div></div><span></span><div><div><div><div><div><span></span></div></div></div></div></div></div>