[Dict] БГ Офис модул за проверка на правопис

Стоян Димитров stoyan at gmx.com
Thu Apr 2 12:44:48 EEST 2015


     Здравейте,
     Успях да докарам читав експорт на съдържанието на базата от данни 
на „Читанка“. Разпределено е по файлова структура наподобяваща тази на 
оригинала. Има разминавания в имена на папките, които умишлено не съм 
коригирал. На пръв поглед са нови вложени папки във „verb“. Може да има 
и други.
     Нарочно съм обърнал в 1251, за да е по-лесно при директно 
сравняване с базата на „БГ Офис“, но ако е необходимо мога да ви изпратя 
и копие в utf.

     П.П. Отделно копие от писмото изпращам до Sah War, за да получи 
прикачения файл. Ако друг се интересува от него нека пише.

На 30.03.2015 г. в 22:05, Sah War написа:
> 1. Ако знаете как, ще се радвам да създадете .txt вариант на db.sql.gz (все
> пак това е SQL база от данни...), даже е добре този вариант да се раздели
> на няколко отделни .txt файла, защото иначе ще е мъка да се редактира с
> текстов редактор.
>
> Това бих могъл сравнително лесно да го направя. Просто трябва да уточним
>> детайлите.
>>
> 1. Ами, ако просто в отделните .dat файлове са сложени различни думи според
> частта на речта, към която принадлежат, то просто тези файлове трябва да се
> преобразуват в .txt (UTF-8). Аз обаче не знам нищо за форма̀та за бази от
> данни SQL освен това, че става въпрос за релационна база от данни. Не знам
> как такъв тип файл се преобразува в .txt, затова и потърсих вашата помощ.
>
>
> Обяснете какви подробности да обсъдим по отношение на тази дейност, за да
> се разберем по въпроса.
>
> Това е непосилен и безмислен труд. За набирането на този речник едва ли е
>> използвана пишеща машина. Но кой знае…
>>
> 2. Пишеща машина?!? Кой още използва такива? Това е речник от 2012 г.,
> вероятно е направен на Adobe InDesign, сканиран е като черно-бял (освен
> предната и задната корица). А че тази работа ще отнеме много време, е
> пределно ясно.
>
>      До колкото имам спомени в таблицата на уникод няма знак за ударено ъ.
>> Другите знаци ги има, наистина не са в кирилската част на таблицата, но
>> поне ги има, така че като вариант остава композирането.
>>
> 3. Трябва да гледате само блока „Cyrillic
> <http://www.babelstone.co.uk/Unicode/babelmap.html>“ (кирилица) в Уникод;
> омографите в латинските блокове на Уникод, които са визуално идентични с
> кирилски знаци (с ударения), липсващи в кирилския блок, не бива да се
> използват в кирилски текст, те не излизат при търсенето с Ctrl + F, защото
> имат отделни заделени кодове в Уникод. В кирилския блок има само знака „ѝ“,
> който се използва в българския език (а може би и в македонския?), има и
> „е“, но с „обратно“ ударение, което май не се ползва в българския език (в
> нашия ударението изглежда като умален вид на „\“ над дадения знак).
>
> „Композирането“ по Уникод е най-удачният вариант според мен, вече обясних
> причините, поради които съм на това мнение (накратко: чрез уникодско
> композиране за добавяне на ударения при търсене с Ctrl + F се открива както
> същия низ с ударенията, така и същия низ без ударенията, което е огромно
> удобство).
>
>      Мда, това е HTML-ският аналог на уникодското композиране на знаци. И аз
>> не смятам, че то е подходящо за целта.
>
> 4. За пръв път чувам, че в HTML има отделно композиране (смесване на знаци)
> от това на Уникод (знам само за HTML entities), къде го има описано това в
> Интернет?!?
>
> Колкото до сричкопренасянето — то е трудно и за да е точно (а не просто
>> генерирано по алгоритъм, който често дава напълно грешни варианти за
>> сричкопренасяне), то трябва да се направи като ръчно написан списък със
>> сричките на думите.
>>
> 5. Има и друг проблем, който осъзнах едва сега. Трябва да се използва
> правилният знак за отделяне на срички (който е „‧“ (U+2027, HYPHENATION
> POINT), но в практиката се използва предимно дефисът „-“ — но това прави
> проблеми, защото последното може да се счете за полуслят правопис, а е за
> сричкопренасяне чрез дефис...). Но да се върна към проблема, за който щях
> да кажа — трябва да има думата, дадена без разделяне на срички и после (на
> същия ред) прилежащите ѝ срички, иначе може да се окаже, че
> сричкопренасянето дава грешни варианти за сричкопренасяне при съвпадане на
> части от думи откъм букви, което кара системата да си мисли, че
> сричкоделенето е по даден начин, а той всъщност е неправилен... Сложна
> работа... :\ Пък и трябва ръчно да се въведат сричките на думите...
>
>      Разбрах ви напълно. А сега очевидния въпрос, на който отговорът
>> вероятно е истеричен смях, но някой свързвал ли се е с хората от БАН, за
>> евентуално подпомагане на проекта? Било то с изходните кодове на речника
>> или по друг начин?
>>
> 6. Немалка част от тези от ИБЕ при БАН живеят в епохата на 1990-те и още не
> са си оправили жалкото онлайн подобие на многотомния си речник (
> http://ibl.bas.bg/rbe/, едва Борислав Манолов от „Читанка“ го направи
> по-ползваем чрез неговия frontend на речника им: http://rbe.chitanka.info),
> не можем да очакваме реална помощ от тях, въпреки че можем да се пробваме
> поне да ги помолим да ни предоставят базата от данни на речника си, но
> по-скоро ми се струва, че ще се заинатят и ще си държат на „авторското
> право“ над базата от данни...
>
> 7. Само тези от Секцията по компютърна лингвистика към БАН са напред с
> материала (http://dcl.bas.bg/programs_bg.html,
> http://dcl.bas.bg/resources_bg.html и особено
> http://dcl.bas.bg/dictionaries_bg.html) и само на тях възлагам надежди. Те
> имат публикувани свободни данни, като честотен речник, генериран от корпус,
> които могат евентуално да се вградят в речниковата база на „БГ Офис“, но и
> за тях не е ясно дали са проверени от човек за правописни грешки и дали ще
> се съгласят да ни дадат базите си от данни на речниците си, което де факто
> означава да ги пуснат под свободен лиценз...
>
> Не смятам, че е лош вариант да се смени първоизточника и за основа да се
>> използва нещо по-осъвременено, не разбирам идеята да има няколко еднакви
>> начинания за едно и също нещо и нито едно от тях да не връща обратно за
>> постигане на целта на първоизточника – по-добър БГ Офис.
>>
> 8. Реално няма чак толкова много речници що се отнася до spellchecker-и за
> българския език, освен официалната добавка за Firefox, наречена „Проверка
> на правописа
> <https://addons.mozilla.org/en-US/firefox/addon/bulgarian-dictionary/>“
> (използва myspell, може би е основана речник от „БГ Офис“?), има само
> добавките „Bulgarian+English Dictionary“, „Bulgarian+German Dictionary“ и
> добавка със стария иванчевски правопис, който не е актуален. Само при
> онлайн речниците на българския език има по-голямо разнообразие, защото
> нишата още не е доминирана от по-сложно устроен свободен онлайн речник
> (какъвто ще бъде нашият проект „Словник“), само rechnik.info,
> onlinerechnik.com, eurodict.com и rechnik.chitanka.info се използват
> реално, другите са с много ограничена употреба. Имам дълъг списък с такива
> български онлайн речници — ако искате, ще ви го изпратя.
>
>      Склонен съм да използвам текстова база от данни стига това да има
>> някакъв резултат, въпреки наличието на структурирани данни от базата на
>> „Читанка“ (които по обективни причини са неизползваеми за целта).
>>
> 9. Просто няма друг вариант в случая, освен използването на текстова база
> от данни — все пак „БГ Офис“ използва aspell и ispell (не знам дали
> използва hunspell, myspell и/или enchant), които доколкото знам работят
> само с текстови файлове. Поправете ме, ако греша.
>
> 10. Сега видях от https://svn.code.sf.net/p/bgoffice/code/trunk/bgoffice/,
> че .dat файловете на „БГ Офис“ са всъщност обикновени текстови файлове, а
> аз си мислех, че са двоични файлове... Но всички файлове са в Windows-1251,
> трябва да се конвертират до UTF-8.
>
> 11. Мисля, че на първо време е най-добре г-н Раднев или вие, г-н Димитров,
> да направите копие на всичко от „БГ Офис“ (в SourceForge) в GitHub и да си
> сътрудничим по проекта там, защото просто не разбирам нищо от SVN. :D После
> не би било проблем да копираме новите издания от GitHub като нови версии в
> SVN-то на хостигна на „БГ Офис“ в SourceForge.
>
> П.П. Ех, писмото ми пак стана прекалено дълго. :D Май ще забравите за какво
> съм писал докато четете, затова номерирах абзаците, за да ви е е по-лесно
> да ги цитирате и да ги обсъдим. :)
>
> Поздрави,
> Sah War (sahwar)
>
>
> _______________________________________________
> Dict mailing list
> Dict at ludost.net
> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict

-- 
С

-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.ludost.net/pipermail/dict/attachments/20150402/9b1a2606/attachment-0001.html>
-------------- next part --------------
A non-text attachment was scrubbed...
Name: data.zip
Type: application/octet-stream
Size: 540889 bytes
Desc: not available
URL: <http://lists.ludost.net/pipermail/dict/attachments/20150402/9b1a2606/attachment-0001.obj>


More information about the Dict mailing list