[Dict] БГ Офис модул за проверка на правопис

Mon Mar 30 22:05:37 EEST 2015

1. Ако знаете как, ще се радвам да създадете .txt вариант на db.sql.gz (все
пак това е SQL база от данни...), даже е добре този вариант да се раздели
на няколко отделни .txt файла, защото иначе ще е мъка да се редактира с
текстов редактор.

Това бих могъл сравнително лесно да го направя. Просто трябва да уточним
> детайлите.
>

1. Ами, ако просто в отделните .dat файлове са сложени различни думи според
частта на речта, към която принадлежат, то просто тези файлове трябва да се
преобразуват в .txt (UTF-8). Аз обаче не знам нищо за форма̀та за бази от
данни SQL освен това, че става въпрос за релационна база от данни. Не знам
как такъв тип файл се преобразува в .txt, затова и потърсих вашата помощ.

Обяснете какви подробности да обсъдим по отношение на тази дейност, за да
се разберем по въпроса.

Това е непосилен и безмислен труд. За набирането на този речник едва ли е
> използвана пишеща машина. Но кой знае…
>

2. Пишеща машина?!? Кой още използва такива? Това е речник от 2012 г.,
вероятно е направен на Adobe InDesign, сканиран е като черно-бял (освен
предната и задната корица). А че тази работа ще отнеме много време, е
пределно ясно.

    До колкото имам спомени в таблицата на уникод няма знак за ударено ъ.
> Другите знаци ги има, наистина не са в кирилската част на таблицата, но
> поне ги има, така че като вариант остава композирането.
>

3. Трябва да гледате само блока „Cyrillic
<http://www.babelstone.co.uk/Unicode/babelmap.html>“ (кирилица) в Уникод;
омографите в латинските блокове на Уникод, които са визуално идентични с
кирилски знаци (с ударения), липсващи в кирилския блок, не бива да се
използват в кирилски текст, те не излизат при търсенето с Ctrl + F, защото
имат отделни заделени кодове в Уникод. В кирилския блок има само знака „ѝ“,
който се използва в българския език (а може би и в македонския?), има и
„е“, но с „обратно“ ударение, което май не се ползва в българския език (в
нашия ударението изглежда като умален вид на „\“ над дадения знак).

„Композирането“ по Уникод е най-удачният вариант според мен, вече обясних
причините, поради които съм на това мнение (накратко: чрез уникодско
композиране за добавяне на ударения при търсене с Ctrl + F се открива както
същия низ с ударенията, така и същия низ без ударенията, което е огромно
удобство).

    Мда, това е HTML-ският аналог на уникодското композиране на знаци. И аз
> не смятам, че то е подходящо за целта.

4. За пръв път чувам, че в HTML има отделно композиране (смесване на знаци)
от това на Уникод (знам само за HTML entities), къде го има описано това в
Интернет?!?

Колкото до сричкопренасянето — то е трудно и за да е точно (а не просто
> генерирано по алгоритъм, който често дава напълно грешни варианти за
> сричкопренасяне), то трябва да се направи като ръчно написан списък със
> сричките на думите.
>

5. Има и друг проблем, който осъзнах едва сега. Трябва да се използва
правилният знак за отделяне на срички (който е „‧“ (U+2027, HYPHENATION
POINT), но в практиката се използва предимно дефисът „-“ — но това прави
проблеми, защото последното може да се счете за полуслят правопис, а е за
сричкопренасяне чрез дефис...). Но да се върна към проблема, за който щях
да кажа — трябва да има думата, дадена без разделяне на срички и после (на
същия ред) прилежащите ѝ срички, иначе може да се окаже, че
сричкопренасянето дава грешни варианти за сричкопренасяне при съвпадане на
части от думи откъм букви, което кара системата да си мисли, че
сричкоделенето е по даден начин, а той всъщност е неправилен... Сложна
работа... :\ Пък и трябва ръчно да се въведат сричките на думите...

    Разбрах ви напълно. А сега очевидния въпрос, на който отговорът
> вероятно е истеричен смях, но някой свързвал ли се е с хората от БАН, за
> евентуално подпомагане на проекта? Било то с изходните кодове на речника
> или по друг начин?
>

6. Немалка част от тези от ИБЕ при БАН живеят в епохата на 1990-те и още не
са си оправили жалкото онлайн подобие на многотомния си речник (
http://ibl.bas.bg/rbe/, едва Борислав Манолов от „Читанка“ го направи
по-ползваем чрез неговия frontend на речника им: http://rbe.chitanka.info),
не можем да очакваме реална помощ от тях, въпреки че можем да се пробваме
поне да ги помолим да ни предоставят базата от данни на речника си, но
по-скоро ми се струва, че ще се заинатят и ще си държат на „авторското
право“ над базата от данни...

7. Само тези от Секцията по компютърна лингвистика към БАН са напред с
материала (http://dcl.bas.bg/programs_bg.html,
http://dcl.bas.bg/resources_bg.html и особено
http://dcl.bas.bg/dictionaries_bg.html) и само на тях възлагам надежди. Те
имат публикувани свободни данни, като честотен речник, генериран от корпус,
които могат евентуално да се вградят в речниковата база на „БГ Офис“, но и
за тях не е ясно дали са проверени от човек за правописни грешки и дали ще
се съгласят да ни дадат базите си от данни на речниците си, което де факто
означава да ги пуснат под свободен лиценз...

Не смятам, че е лош вариант да се смени първоизточника и за основа да се
> използва нещо по-осъвременено, не разбирам идеята да има няколко еднакви
> начинания за едно и също нещо и нито едно от тях да не връща обратно за
> постигане на целта на първоизточника – по-добър БГ Офис.
>

8. Реално няма чак толкова много речници що се отнася до spellchecker-и за
българския език, освен официалната добавка за Firefox, наречена „Проверка
на правописа
<https://addons.mozilla.org/en-US/firefox/addon/bulgarian-dictionary/>“
(използва myspell, може би е основана речник от „БГ Офис“?), има само
добавките „Bulgarian+English Dictionary“, „Bulgarian+German Dictionary“ и
добавка със стария иванчевски правопис, който не е актуален. Само при
онлайн речниците на българския език има по-голямо разнообразие, защото
нишата още не е доминирана от по-сложно устроен свободен онлайн речник
(какъвто ще бъде нашият проект „Словник“), само rechnik.info,
onlinerechnik.com, eurodict.com и rechnik.chitanka.info се използват
реално, другите са с много ограничена употреба. Имам дълъг списък с такива
български онлайн речници — ако искате, ще ви го изпратя.

    Склонен съм да използвам текстова база от данни стига това да има
> някакъв резултат, въпреки наличието на структурирани данни от базата на
> „Читанка“ (които по обективни причини са неизползваеми за целта).
>

9. Просто няма друг вариант в случая, освен използването на текстова база
от данни — все пак „БГ Офис“ използва aspell и ispell (не знам дали
използва hunspell, myspell и/или enchant), които доколкото знам работят
само с текстови файлове. Поправете ме, ако греша.

10. Сега видях от https://svn.code.sf.net/p/bgoffice/code/trunk/bgoffice/,
че .dat файловете на „БГ Офис“ са всъщност обикновени текстови файлове, а
аз си мислех, че са двоични файлове... Но всички файлове са в Windows-1251,
трябва да се конвертират до UTF-8.

11. Мисля, че на първо време е най-добре г-н Раднев или вие, г-н Димитров,
да направите копие на всичко от „БГ Офис“ (в SourceForge) в GitHub и да си
сътрудничим по проекта там, защото просто не разбирам нищо от SVN. :D После
не би било проблем да копираме новите издания от GitHub като нови версии в
SVN-то на хостигна на „БГ Офис“ в SourceForge.

П.П. Ех, писмото ми пак стана прекалено дълго. :D Май ще забравите за какво
съм писал докато четете, затова номерирах абзаците, за да ви е е по-лесно
да ги цитирате и да ги обсъдим. :)

Поздрави,
Sah War (sahwar)
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.ludost.net/pipermail/dict/attachments/20150330/b653d187/attachment-0001.html>