[Dict] БГ Офис модул за проверка на правопис

Стоян Димитров stoyan at gmx.com
Mon Mar 30 10:05:06 EEST 2015


     Здравейте, отговорът ми е под съответния абзац.

На 29.03.2015 г. в 17:44, Sah War написа:
> Здравейте, г-н Димитров!
>
> Предварително се извинявам за дългото писмо. :D
>
> За съжаление, в речника на „Читанка“ има доста грешки и неточности и не е
> проверен дали е точен по отношение на правописа с последния официален
> правописен речник на БАН от 2012 г. (в който на места същ има грешки...),
> поради което базата от данни на речника на „Читанка“ не е много надеждна за
> целите на добавянето ѝ към spellchecker-а на „БГ Офис“ (т.е. първо трябва
> изцяло да се свери с речника на БАН, което е адски трудоемко...). Освен
> това на места липсват дублети.
>
> Това е забелязано отдавна, поради което и не е пристъпено към използването
> на тази база от данни в „БГ Офис“.
>
> Но въпреки това има начини, по който можете да ни помогнете за
> spellchecker-а:
>
> 1. Ако знаете как, ще се радвам да създадете .txt вариант на db.sql.gz (все
> пак това е SQL база от данни...), даже е добре този вариант да се раздели
> на няколко отделни .txt файла, защото иначе ще е мъка да се редактира с
> текстов редактор.
     Това бих могъл сравнително лесно да го направя. Просто трябва да 
уточним детайлите.
> 2. Набираме желаещи да направят OCR и последваща ръчна проверка и корекция
> на речника на БАН от 2012 г. (чрез ползване на най-новата версия на ABBYY
> FineReader):
>
> http://www.mediafire.com/view/7tncj767aau69d3/OPRBE-2012_full_2pagesperpage.pdf
> http://www.mediafire.com/download/tpgax3g7o36k4oy/OPRBE-2012_full_2pagesperpage_lossy-djvu.djvu
     Това е непосилен и безмислен труд. За набирането на този речник 
едва ли е използвана пишеща машина. Но кой знае…
> Има обаче една тънкост при корекцията — поради известни недостатъци на
> ABBYY FineReader, програмата не може правилно да разчете знаците за
> ударение на думите и обикновено дава резултат без тях, което означава, че
> при ръчна корекция трябва да напишете думата 2 пъти: един без ударения и
> един път с правилните ударения. Но и при това има затруднение, защото има
> няколко (!!!) начина за слагане на ударения — чрез копиране на знак от
> Уникод, комбиниран със знака за ударение (май се казваше „гравис“ (тежко
> ударение), т.е. U+0300 COMBINING GRAVE ACCENT,
> http://en.wikipedia.org/wiki/Combining_character), чрез знак и сложено след
> него ударение (което незнайно защо се показва като един знак впоследствие),
> или чрез използване на т.нар. precomposed characters
> <http://en.wikipedia.org/wiki/Precomposed_character> (като „ѝ“).
     До колкото имам спомени в таблицата на уникод няма знак за ударено 
ъ. Другите знаци ги има, наистина не са в кирилската част на таблицата, 
но поне ги има, така че като вариант остава композирането.
> При корекцията на един друг речник в „Читанка“ са решили да ползват втория
> вариант (пример за слети знаци: байга̀ньо; пример за начина, използван в
> сканирания речник Мурдаров в „Читанка“: байга`ньо), от следната страница
> можеш да видиш как изглежда правописът във варианта, използван в „Читанка“:
> http://wiki.workroom.chitanka.info/Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41
> (но за да видиш реалното положение на нещата е нужно да влезеш в профила си
> в „Читанка“ и да отидеш например на
> http://wiki.workroom.chitanka.info/index.php?title=Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41&action=edit),
> техният вариант е споменатия нагоре „байга`ньо“, а не „байга̀ньо“ (възможно
> е да не ти се показва правилно, ако не ползваш подходящ шрифт...).
>
> За мен техният вариант не е особено удачен, защото например при търсене с
> Ctrl+F за низа „байганьо“ чрез браузър (давам пример с последната версия на
> Opera), излиза правилно открояване на резултата „байга̀ньо“ дори при
> търсене за „байганьо“ (т.е. без ударението), докато за откриване на
> „байга`ньо“ трябва да добавиш по някакъв друг начин знака „гравис“, което
> много усложнява нещата и е адски неудобно! Т.е. трябва да се избере и
> правилният вариант за слагане на ударенията на 2-рото копие на дадена дума
> от речника. Обяснението на „Читанка“ е „За ударение използвайте символа „`“
> (обикновено е на един и същи клавиш с „~“, вляво от „1“), като го поставите
> след ударената гласна, например „АСТРОНА`ВТ“.“... Мъка... Всичко това
> слагане на ударения, за съжаление, става само ръчно и затова ще отнеме
> адски много време... :\
     Мда, това е HTML-ският аналог на уникодското композиране на знаци. 
И аз не смятам, че то е подходящо за целта.
> Колкото до сричкопренасянето — то е трудно и за да е точно (а не просто
> генерирано по алгоритъм, който често дава напълно грешни варианти за
> сричкопренасяне), то трябва да се направи като ръчно написан списък със
> сричките на думите. Алгоритмите не могат да автоматизират напълно този
> процес, дори и при английския език (чието сричкопренасяне също е трудно и
> не е напълно точно, ако е генерирано чрез алгоритъм — даже специалистите
> препоръчват да се ползва речник за сверяване на сричкопренасянето и не се
> изисква да се помни то наизуст). Сричкопренасянето на български думи в
> LaTeX също е незадоволително, не са само Firefox,
> OpenOffice.org/LibreOffice и Thunderbird... За щастие, в днешно време почти
> не се използва сричкопренасяне (освен при печатни книги), което намалява
> тежестта на този проблем.
>
>
>
> Лошо е, че bg.aff от „БГ Офис“ ползва windows-1251... Доколкото знам,
> файлът .aff е само за афиксите, даже е само май за окончанията и
> определителните членове (не включва представки и наставки).
     Абсолютно правилно. Не се използванищо друго освен SFX. А проблемът 
с кодирането е съвсем решим. В копие на разширението за сречкопренасяне 
към Firefox съм обърнал кодирането към UTF-8.
> Файлът за сричкопренасянето май е hyph_bg_BG.dic, но и то за жалост е с
> кодировка windows-1251. Пък и явно не е съвсем пълен, защото Firefox
> подчертава като грешни много правилно написани думи, ако сте поставили
> окончание и/или окончание и определителен член (това важи особено много за
> добавени от потребителя думи (т.е. чрез използването на селекция на думата,
> дясно щракване върху нея и Add to dictionary във Firefox!). Разбира се,
> това е поправимо, пък и колосалният труд зад „БГ Офис“ значително улеснява
> подобряването на самите файлове на „БГ Офис“. Пък и понякога е възможно,
> ако ползваш грешен афикс към дума (например окончание и определителен член
> за м. р., ед. ч. при дума от ж. р., ед. ч.), програмата да не ти подчертае
> грешката (макар че това се случва изключително рядко).
     Намесих сричкопренасянето, защото видях колона в една от таблиците 
със съответната дума разделена на срички.
> Друг е въпросът, че от езикова гледна точка има колебания в употребата на
> окончанието (т.е. на рода и най-вече на мн. ч.) на новонавлезлите в езика
> ни заемки от други езици — например „дронове“ или „дрони“, което няма как
> да бъде нормирано чрез spellchecker-а на „БГ Офис“, защото още не се е
> стигнало до консенсус по въпроса коя от формите е по-правилната...
>
> П.П. Най-лесно е да добавим нови думи към bg.dic. Въпросът е, че те трябва
> да се сверят с официалния речник (и да се има предвид, че и в него има
> грешки на места...) и едва тогава да се добавят към bg.dic. Иначе няма
> смисъл от тези промени по речниковата база на spellchecker-а.
     Разбрах ви напълно. А сега очевидния въпрос, на който отговорът 
вероятно е истеричен смях, но някой свързвал ли се е с хората от БАН, за 
евентуално подпомагане на проекта? Било то с изходните кодове на речника 
или по друг начин?
> Ентусиазмът ви обаче е похвален, ако по-нататък имате достатъчно свободно
> време и имате желание да допринесете за развитието на един нов свободен
> речник, който надгражда този на „Читанка“, можете да се включите в екипа на
> нашия речник „Словник“, който се разработва от известно време, но който
> няма да бъде пуснат в скоро време: http://slovnik.bulogos.info.
     Честно казано целта ми е да вдигна на крака проверката за правопис, 
използвана в продуктите на Mozilla. В писмата по-натам виждате става 
въпрос, че е имало няколко други начинания за речници/програми за 
проверка, които са се изгубили през годините, без работата по тях, по 
една или друга причина, да се е върнала към първоизточника. Не смятам, 
че е лош вариант да се смени пръвоизточника и за основа да се използва 
нещо по-усъвременено, не разбирам идеята да има няколко еднакви 
начинания за едно и също нещо и нито едно от тях да не връща обратно за 
постигане на целта на пръвоизточника – по-добър БГ Офис.
     Склонен съм да използвам текстова база от данни стига това да има 
някакъв резултат, въпреки наличието на структурирани данни от базата на 
„Читанка“ (които по обективни причини са неизползваеми за целта).
> Разбира се, препоръчвам ви да се свържете и с radnev at gmail.com (авторът на
> „БГ Офис“), за да се координирате с него по отношение на вашите приноси към
> „БГ Офис“.
>
> Поздрави,
> Sah War (sahwar)
>
> На 29 март 2015 г., 12:15, Стоян Димитров <stoyan at gmx.com> написа:
>
>>       Здравейте,
>>      интересува ме някой от вас знае ли дали в момента се извършва дейност
>> по осъвременяването на модула за проверка на правописа в БГ Офис [1]
>> по-скоро списъка с думи (вероятно се нарича „речник“). След предварителен
>> преглед на базата данни [2] от речника [3] мисля, че списъкът с думи,
>> включени в БГ Офис, може да бъде осъвременен и поддържан във форма
>> сравнително лесно. Като допълнителен бонус процесът на обновяване може да
>> бъде автоматизиран. Не е съм съвсем сигурен, но вероятно всички модули
>> (напр. сричкопренасянето) и за всички продукти (OpenOffice, Mozilla) ще
>> имат полза от това.
>>      Започнал съм работа по файла .aff, което да послужи като шаблон за
>> генерирането на допълнен речник за проверка на правописа, та идеята ми е да
>> не се настъпим с някого.
>>
>> П.П.
>> Разборът, който е направен на изходния материал, за да бъде реализиран [3]
>> е страхотна основа за надграждане и незная как е останал незабелязан до
>> момента. Поздравления за автора!
>>
>> __
>> [1] - http://bgoffice.sf.net
>> [2] - http://rechnik.chitanka.info/db.sql.gz
>> [3] - http://rechnik.chitanka.info
>>
>> --
>> С
>>
>>
>> _______________________________________________
>> Dict mailing list
>> Dict at ludost.net
>> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
>>
>>
>>
>>
>> _______________________________________________
>> Dict mailing list
>> Dict at ludost.net
>> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict

-- 
С

-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.ludost.net/pipermail/dict/attachments/20150330/0c18b0fe/attachment-0001.html>


More information about the Dict mailing list