[Dict] БГ Офис модул за проверка на правопис

Sun Mar 29 19:29:18 EEST 2015

Здравейте,

Много благодаря за обясненията, г-н Раднев! Трудът ви по „БГ Офис“ е повече
от похвален и дълбоко уважавам делото ви, благодарение на което имаме
spellchecker за OpenOffice.org/LibreOffice, Chrome, Thunderbird и Firefox,
което е огромно улеснение! :)

Примерно, в aspell няма афикс файл, всяка дума е на нов ред и има около 800
> 000 словоформи. За Firefox и другите дето ползват aff файл също може да се
> наблъскат в един файл и да има празен .aff файл.
>

Предполагам, че това означава, че за да е възможно най-пълен и точен
речникът за Firefox и подобни, трябва да добавим всички словоформи на
думите в един файл и да се лишим от файла .aff за сметка на по-малкия
размер на речника и компресията при употребата на .aff файл. Мисля, че този
вариант е най-удачен въпреки увеличаването на големината на spellchecker-а.

Ако искате да добавяте нови думи, просто определяте типа на думата и я
> вкарвате в съответния файл - bg001.dat, bg002.dat, 03, ....
>
> След това пускате скриптовете за проверка и билдване на речниците и нещата
> трябва да проработят.
>

Хм, нещо не мога да се ориентирам, за което се извинявам. Бихте ли ни дали
хипервръзки към документацията, където е обяснено как се вършат тези неща?
Благодаря предварително и съжалявам за тъпия въпрос.
Мислих си, че проверката на правописа се извършва на базата на файла
bg.dic, а всъщност се оказва, че се извършва чрез .dat файловете. Поправете
ме, ако греша. Къде е описано в кои .dat файлове трябва да се сложат
съответните думи според частта на речта, към която принадлежат? Трудно се
ориентирам, съжалявам за което.

Firefox, а и всички останали програми за проверка на правописа (поне
> чуждите) разглеждат думата сама за себе си - няма как да знаят че дрони
> (или дронове) е множествено число на дрон. Така че като добавите дрон, ще
> познава само дрон - дрони, дрона, дронът, дроните - няма да ги познава.
> Става въпрос за потребителските речници.
>

В bg.dic отиват думите, добавени към потребителския речник, така ли? За да
имаме всички словоформи на дадена дума в потребителския речник трябва да
добавим всяка поотделно към bg.dic, така ли? Или в .dat файловете? Мислих
си, че при добавянето на основната форма, файлът с афиксите някакси се
ползва за генерирането на останалите словоформи на думата, но очевидно съм
се заблуждавал (пък и като се замисля не знам дори как биха се избирали
афиксите на дадена дума). Поправете ме, ако греша.

Имам още един въпрос. В bg.dic има едни означения след някои от думите —
„\K“ („\“ плюс дадена латинска буква), къде е обяснено какво означават те,
т.е. каква е функцията им?

Отново се извинявам, ако задавам тъпи въпроси. :)

П.П. Спорен мен е най-полезно да се съсредоточим в това да добавим думите
от речника на БАН от 2012 г. към базата от данни на „БГ Офис“ (а защо не и
тези от речника на БАН от 2002 г.). За целта обаче трябва да извършим OCR и
последваща ръчна корекция на сканираната му версия — версията, цитирана от
мен в предишното ми писмо към пощенския списък.

Поздрави,
Sah War (sahwar)

На 29 март 2015 г., 18:57, Radostin Radnev <radnev at gmail.com> написа:

> Здравейте,
>
> Да се включа и аз, поне да кажа как работят нещата в
> http://bgoffice.sourceforge.net/
>
> С .aff нямате работа - той се генерира автоматично. Неговата цел е да
> постигне някаква компресия и нищо повече. Примерно, в aspell няма афикс
> файл, всяка дума е на нов ред и има около 800 000 словоформи. За Firefox и
> другите дето ползват aff файл също може да се наблъскат в един файл и да
> има празен .aff файл.
>
> Така че не правете модификации във файл, който се генерира автоматично.
>
> Ако искате да добавяте нови думи, просто определяте типа на думата и я
> вкарвате в съответния файл - bg001.dat, bg002.dat, 03, ....
>
> След това пускате скриптовете за проверка и билдване на речниците и нещата
> трябва да проработят.
>
> Има някакви помощни скриптове за определяне типа на думата, но те дават
> предложения, после ръчно трябва да определите в кой файл да отиде новата
> дума.
>
> Firefox, а и всички останали програми за проверка на правописа (поне
> чуждите) разглеждат думата сама за себе си - няма как да знаят че дрони
> (или дронове) е множествено число на дрон. Така че като добавите дрон, ще
> познава само дрон - дрони, дрона, дронът, дроните - няма да ги познава.
> Става въпрос за потребителските речници.
>
>
> Поздрави,
> Радостин Раднев
>
>
>
> 2015-03-29 17:44 GMT+03:00 Sah War <ve4ernik at gmail.com>:
>
>> Здравейте, г-н Димитров!
>>
>> Предварително се извинявам за дългото писмо. :D
>>
>> За съжаление, в речника на „Читанка“ има доста грешки и неточности и не е
>> проверен дали е точен по отношение на правописа с последния официален
>> правописен речник на БАН от 2012 г. (в който на места същ има грешки...),
>> поради което базата от данни на речника на „Читанка“ не е много надеждна за
>> целите на добавянето ѝ към spellchecker-а на „БГ Офис“ (т.е. първо трябва
>> изцяло да се свери с речника на БАН, което е адски трудоемко...). Освен
>> това на места липсват дублети.
>>
>> Това е забелязано отдавна, поради което и не е пристъпено към
>> използването на тази база от данни в „БГ Офис“.
>>
>> Но въпреки това има начини, по който можете да ни помогнете за
>> spellchecker-а:
>>
>> 1. Ако знаете как, ще се радвам да създадете .txt вариант на db.sql.gz
>> (все пак това е SQL база от данни...), даже е добре този вариант да се
>> раздели на няколко отделни .txt файла, защото иначе ще е мъка да се
>> редактира с текстов редактор.
>>
>> 2. Набираме желаещи да направят OCR и последваща ръчна проверка и
>> корекция на речника на БАН от 2012 г. (чрез ползване на най-новата версия
>> на ABBYY FineReader):
>>
>>
>> http://www.mediafire.com/view/7tncj767aau69d3/OPRBE-2012_full_2pagesperpage.pdf
>>
>> http://www.mediafire.com/download/tpgax3g7o36k4oy/OPRBE-2012_full_2pagesperpage_lossy-djvu.djvu
>>
>> Има обаче една тънкост при корекцията — поради известни недостатъци на
>> ABBYY FineReader, програмата не може правилно да разчете знаците за
>> ударение на думите и обикновено дава резултат без тях, което означава, че
>> при ръчна корекция трябва да напишете думата 2 пъти: един без ударения и
>> един път с правилните ударения. Но и при това има затруднение, защото има
>> няколко (!!!) начина за слагане на ударения — чрез копиране на знак от
>> Уникод, комбиниран със знака за ударение (май се казваше „гравис“ (тежко
>> ударение), т.е. U+0300 COMBINING GRAVE ACCENT,
>> http://en.wikipedia.org/wiki/Combining_character), чрез знак и сложено
>> след него ударение (което незнайно защо се показва като един знак
>> впоследствие), или чрез използване на т.нар. precomposed characters
>> <http://en.wikipedia.org/wiki/Precomposed_character> (като „ѝ“).
>>
>> При корекцията на един друг речник в „Читанка“ са решили да ползват
>> втория вариант (пример за слети знаци: байга̀ньо; пример за начина,
>> използван в сканирания речник Мурдаров в „Читанка“: байга`ньо), от следната
>> страница можеш да видиш как изглежда правописът във варианта, използван в
>> „Читанка“:
>> http://wiki.workroom.chitanka.info/Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41
>> (но за да видиш реалното положение на нещата е нужно да влезеш в профила си
>> в „Читанка“ и да отидеш например на
>> http://wiki.workroom.chitanka.info/index.php?title=Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41&action=edit),
>> техният вариант е споменатия нагоре „байга`ньо“, а не „байга̀ньо“ (възможно
>> е да не ти се показва правилно, ако не ползваш подходящ шрифт...).
>>
>> За мен техният вариант не е особено удачен, защото например при търсене с
>> Ctrl+F за низа „байганьо“ чрез браузър (давам пример с последната версия на
>> Opera), излиза правилно открояване на резултата „байга̀ньо“ дори при
>> търсене за „байганьо“ (т.е. без ударението), докато за откриване на
>> „байга`ньо“ трябва да добавиш по някакъв друг начин знака „гравис“, което
>> много усложнява нещата и е адски неудобно! Т.е. трябва да се избере и
>> правилният вариант за слагане на ударенията на 2-рото копие на дадена дума
>> от речника. Обяснението на „Читанка“ е „За ударение използвайте символа „`“
>> (обикновено е на един и същи клавиш с „~“, вляво от „1“), като го поставите
>> след ударената гласна, например „АСТРОНА`ВТ“.“... Мъка... Всичко това
>> слагане на ударения, за съжаление, става само ръчно и затова ще отнеме
>> адски много време... :\
>>
>> Колкото до сричкопренасянето — то е трудно и за да е точно (а не просто
>> генерирано по алгоритъм, който често дава напълно грешни варианти за
>> сричкопренасяне), то трябва да се направи като ръчно написан списък със
>> сричките на думите. Алгоритмите не могат да автоматизират напълно този
>> процес, дори и при английския език (чието сричкопренасяне също е трудно и
>> не е напълно точно, ако е генерирано чрез алгоритъм — даже специалистите
>> препоръчват да се ползва речник за сверяване на сричкопренасянето и не се
>> изисква да се помни то наизуст). Сричкопренасянето на български думи в
>> LaTeX също е незадоволително, не са само Firefox,
>> OpenOffice.org/LibreOffice и Thunderbird... За щастие, в днешно време почти
>> не се използва сричкопренасяне (освен при печатни книги), което намалява
>> тежестта на този проблем.
>>
>>
>>
>> Лошо е, че bg.aff от „БГ Офис“ ползва windows-1251... Доколкото знам,
>> файлът .aff е само за афиксите, даже е само май за окончанията и
>> определителните членове (не включва представки и наставки).
>>
>> Файлът за сричкопренасянето май е hyph_bg_BG.dic, но и то за жалост е с
>> кодировка windows-1251. Пък и явно не е съвсем пълен, защото Firefox
>> подчертава като грешни много правилно написани думи, ако сте поставили
>> окончание и/или окончание и определителен член (това важи особено много за
>> добавени от потребителя думи (т.е. чрез използването на селекция на думата,
>> дясно щракване върху нея и Add to dictionary във Firefox!). Разбира се,
>> това е поправимо, пък и колосалният труд зад „БГ Офис“ значително улеснява
>> подобряването на самите файлове на „БГ Офис“. Пък и понякога е възможно,
>> ако ползваш грешен афикс към дума (например окончание и определителен член
>> за м. р., ед. ч. при дума от ж. р., ед. ч.), програмата да не ти подчертае
>> грешката (макар че това се случва изключително рядко).
>>
>> Друг е въпросът, че от езикова гледна точка има колебания в употребата на
>> окончанието (т.е. на рода и най-вече на мн. ч.) на новонавлезлите в езика
>> ни заемки от други езици — например „дронове“ или „дрони“, което няма как
>> да бъде нормирано чрез spellchecker-а на „БГ Офис“, защото още не се е
>> стигнало до консенсус по въпроса коя от формите е по-правилната...
>>
>> П.П. Най-лесно е да добавим нови думи към bg.dic. Въпросът е, че те
>> трябва да се сверят с официалния речник (и да се има предвид, че и в него
>> има грешки на места...) и едва тогава да се добавят към bg.dic. Иначе няма
>> смисъл от тези промени по речниковата база на spellchecker-а.
>>
>> Ентусиазмът ви обаче е похвален, ако по-нататък имате достатъчно свободно
>> време и имате желание да допринесете за развитието на един нов свободен
>> речник, който надгражда този на „Читанка“, можете да се включите в екипа на
>> нашия речник „Словник“, който се разработва от известно време, но който
>> няма да бъде пуснат в скоро време: http://slovnik.bulogos.info.
>>
>> Разбира се, препоръчвам ви да се свържете и с radnev at gmail.com (авторът
>> на „БГ Офис“), за да се координирате с него по отношение на вашите приноси
>> към „БГ Офис“.
>>
>> Поздрави,
>> Sah War (sahwar)
>>
>> На 29 март 2015 г., 12:15, Стоян Димитров <stoyan at gmx.com> написа:
>>
>>>      Здравейте,
>>>     интересува ме някой от вас знае ли дали в момента се извършва
>>> дейност по осъвременяването на модула за проверка на правописа в БГ Офис
>>> [1] по-скоро списъка с думи (вероятно се нарича „речник“). След
>>> предварителен преглед на базата данни [2] от речника [3] мисля, че списъкът
>>> с думи, включени в БГ Офис, може да бъде осъвременен и поддържан във форма
>>> сравнително лесно. Като допълнителен бонус процесът на обновяване може да
>>> бъде автоматизиран. Не е съм съвсем сигурен, но вероятно всички модули
>>> (напр. сричкопренасянето) и за всички продукти (OpenOffice, Mozilla) ще
>>> имат полза от това.
>>>     Започнал съм работа по файла .aff, което да послужи като шаблон за
>>> генерирането на допълнен речник за проверка на правописа, та идеята ми е да
>>> не се настъпим с някого.
>>>
>>> П.П.
>>> Разборът, който е направен на изходния материал, за да бъде реализиран
>>> [3] е страхотна основа за надграждане и незная как е останал незабелязан до
>>> момента. Поздравления за автора!
>>>
>>> __
>>> [1] - http://bgoffice.sf.net
>>> [2] - http://rechnik.chitanka.info/db.sql.gz
>>> [3] - http://rechnik.chitanka.info
>>>
>>> --
>>> С
>>>
>>>
>>> _______________________________________________
>>> Dict mailing list
>>> Dict at ludost.net
>>> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
>>>
>>>
>>
>> _______________________________________________
>> Dict mailing list
>> Dict at ludost.net
>> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
>>
>>
>
> _______________________________________________
> Dict mailing list
> Dict at ludost.net
> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
>
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.ludost.net/pipermail/dict/attachments/20150329/ea687712/attachment-0001.html>