[Dict] БГ Офис модул за проверка на правопис

Radostin Radnev radnev at gmail.com
Sun Mar 29 20:16:18 EEST 2015


Здравейте,

Останал съм с впечатление, че вие имате общо с http://rechnik.chitanka.info/
- понеже авторите са се постарали да вникнат за какво иде реч.

Тук е хранилището SVN - под Windows може да го дръпнете с тези програмка -
http://tortoisesvn.net/

Това е адреса - https://svn.code.sf.net/p/bgoffice/code/trunk/bgoffice

Правите SVN Checkout - от контекстното меню на файловия мениджър и
файловете ще дойдат при вас.


После разглеждате README и docs. Данните логично са в директорията data.
Даже и без да четете документация ще се справите.


Доколкото разбирам от - http://rechnik.chitanka.info/about - те са взели
нещата от - http://freeplace.info/ididictionary/bulgarian_spell_checker/

А пък той от мен. ;)

Аз си кореспондирах с автора на IDI Spell Checker - той щеше да праща
някакви корекции и нови думи да ги вкарвам, но нещата останаха само на
планове. Но това беше преди 2-3 години.

Предполагам че неговата база е по-пълна и по-добра, защото пише че е
сравнявал думи с правописния речник на БАН 2012 - пък аз съм зарязал нещата
към 2002-2004.


Всъщност БГ офис е първоизточника, после има fork на Wikidictionary, на
http://rechnik.chitanka.info/, на
http://freeplace.info/ididictionary/bulgarian_spell_checker/

Предполагам всеки се е развивал самостоятелно и е правил подобрения. От
Wikidictionary ми върнаха някои подобрения и съм ги оправил, но това е било
през 2007 като гледам ChangeLog.

И май http://freeplace.info/ididictionary/bulgarian_spell_checker/ е
най-напред с материала. Ако успеете да влезете в контакт с него - да смесим
неговите подобрения. Това автоматично ще даде резултат върху Firefox,
Chrome, Open/Libre офис.


Поздрави,




2015-03-29 19:29 GMT+03:00 Sah War <ve4ernik at gmail.com>:

> Здравейте,
>
> Много благодаря за обясненията, г-н Раднев! Трудът ви по „БГ Офис“ е
> повече от похвален и дълбоко уважавам делото ви, благодарение на което
> имаме spellchecker за OpenOffice.org/LibreOffice, Chrome, Thunderbird и
> Firefox, което е огромно улеснение! :)
>
> Примерно, в aspell няма афикс файл, всяка дума е на нов ред и има около
>> 800 000 словоформи. За Firefox и другите дето ползват aff файл също може да
>> се наблъскат в един файл и да има празен .aff файл.
>>
>
> Предполагам, че това означава, че за да е възможно най-пълен и точен
> речникът за Firefox и подобни, трябва да добавим всички словоформи на
> думите в един файл и да се лишим от файла .aff за сметка на по-малкия
> размер на речника и компресията при употребата на .aff файл. Мисля, че този
> вариант е най-удачен въпреки увеличаването на големината на spellchecker-а.
>
> Ако искате да добавяте нови думи, просто определяте типа на думата и я
>> вкарвате в съответния файл - bg001.dat, bg002.dat, 03, ....
>>
>> След това пускате скриптовете за проверка и билдване на речниците и
>> нещата трябва да проработят.
>>
>
> Хм, нещо не мога да се ориентирам, за което се извинявам. Бихте ли ни дали
> хипервръзки към документацията, където е обяснено как се вършат тези неща?
> Благодаря предварително и съжалявам за тъпия въпрос.
> Мислих си, че проверката на правописа се извършва на базата на файла
> bg.dic, а всъщност се оказва, че се извършва чрез .dat файловете. Поправете
> ме, ако греша. Къде е описано в кои .dat файлове трябва да се сложат
> съответните думи според частта на речта, към която принадлежат? Трудно се
> ориентирам, съжалявам за което.
>
> Firefox, а и всички останали програми за проверка на правописа (поне
>> чуждите) разглеждат думата сама за себе си - няма как да знаят че дрони
>> (или дронове) е множествено число на дрон. Така че като добавите дрон, ще
>> познава само дрон - дрони, дрона, дронът, дроните - няма да ги познава.
>> Става въпрос за потребителските речници.
>>
>
> В bg.dic отиват думите, добавени към потребителския речник, така ли? За да
> имаме всички словоформи на дадена дума в потребителския речник трябва да
> добавим всяка поотделно към bg.dic, така ли? Или в .dat файловете? Мислих
> си, че при добавянето на основната форма, файлът с афиксите някакси се
> ползва за генерирането на останалите словоформи на думата, но очевидно съм
> се заблуждавал (пък и като се замисля не знам дори как биха се избирали
> афиксите на дадена дума). Поправете ме, ако греша.
>
> Имам още един въпрос. В bg.dic има едни означения след някои от думите —
> „\K“ („\“ плюс дадена латинска буква), къде е обяснено какво означават те,
> т.е. каква е функцията им?
>
> Отново се извинявам, ако задавам тъпи въпроси. :)
>
> П.П. Спорен мен е най-полезно да се съсредоточим в това да добавим думите
> от речника на БАН от 2012 г. към базата от данни на „БГ Офис“ (а защо не и
> тези от речника на БАН от 2002 г.). За целта обаче трябва да извършим OCR и
> последваща ръчна корекция на сканираната му версия — версията, цитирана от
> мен в предишното ми писмо към пощенския списък.
>
> Поздрави,
> Sah War (sahwar)
>
> На 29 март 2015 г., 18:57, Radostin Radnev <radnev at gmail.com> написа:
>
>> Здравейте,
>>
>> Да се включа и аз, поне да кажа как работят нещата в
>> http://bgoffice.sourceforge.net/
>>
>> С .aff нямате работа - той се генерира автоматично. Неговата цел е да
>> постигне някаква компресия и нищо повече. Примерно, в aspell няма афикс
>> файл, всяка дума е на нов ред и има около 800 000 словоформи. За Firefox и
>> другите дето ползват aff файл също може да се наблъскат в един файл и да
>> има празен .aff файл.
>>
>> Така че не правете модификации във файл, който се генерира автоматично.
>>
>> Ако искате да добавяте нови думи, просто определяте типа на думата и я
>> вкарвате в съответния файл - bg001.dat, bg002.dat, 03, ....
>>
>> След това пускате скриптовете за проверка и билдване на речниците и
>> нещата трябва да проработят.
>>
>> Има някакви помощни скриптове за определяне типа на думата, но те дават
>> предложения, после ръчно трябва да определите в кой файл да отиде новата
>> дума.
>>
>> Firefox, а и всички останали програми за проверка на правописа (поне
>> чуждите) разглеждат думата сама за себе си - няма как да знаят че дрони
>> (или дронове) е множествено число на дрон. Така че като добавите дрон, ще
>> познава само дрон - дрони, дрона, дронът, дроните - няма да ги познава.
>> Става въпрос за потребителските речници.
>>
>>
>> Поздрави,
>> Радостин Раднев
>>
>>
>>
>> 2015-03-29 17:44 GMT+03:00 Sah War <ve4ernik at gmail.com>:
>>
>>> Здравейте, г-н Димитров!
>>>
>>> Предварително се извинявам за дългото писмо. :D
>>>
>>> За съжаление, в речника на „Читанка“ има доста грешки и неточности и не
>>> е проверен дали е точен по отношение на правописа с последния официален
>>> правописен речник на БАН от 2012 г. (в който на места същ има грешки...),
>>> поради което базата от данни на речника на „Читанка“ не е много надеждна за
>>> целите на добавянето ѝ към spellchecker-а на „БГ Офис“ (т.е. първо трябва
>>> изцяло да се свери с речника на БАН, което е адски трудоемко...). Освен
>>> това на места липсват дублети.
>>>
>>> Това е забелязано отдавна, поради което и не е пристъпено към
>>> използването на тази база от данни в „БГ Офис“.
>>>
>>> Но въпреки това има начини, по който можете да ни помогнете за
>>> spellchecker-а:
>>>
>>> 1. Ако знаете как, ще се радвам да създадете .txt вариант на db.sql.gz
>>> (все пак това е SQL база от данни...), даже е добре този вариант да се
>>> раздели на няколко отделни .txt файла, защото иначе ще е мъка да се
>>> редактира с текстов редактор.
>>>
>>> 2. Набираме желаещи да направят OCR и последваща ръчна проверка и
>>> корекция на речника на БАН от 2012 г. (чрез ползване на най-новата версия
>>> на ABBYY FineReader):
>>>
>>>
>>> http://www.mediafire.com/view/7tncj767aau69d3/OPRBE-2012_full_2pagesperpage.pdf
>>>
>>> http://www.mediafire.com/download/tpgax3g7o36k4oy/OPRBE-2012_full_2pagesperpage_lossy-djvu.djvu
>>>
>>> Има обаче една тънкост при корекцията — поради известни недостатъци на
>>> ABBYY FineReader, програмата не може правилно да разчете знаците за
>>> ударение на думите и обикновено дава резултат без тях, което означава, че
>>> при ръчна корекция трябва да напишете думата 2 пъти: един без ударения и
>>> един път с правилните ударения. Но и при това има затруднение, защото има
>>> няколко (!!!) начина за слагане на ударения — чрез копиране на знак от
>>> Уникод, комбиниран със знака за ударение (май се казваше „гравис“ (тежко
>>> ударение), т.е. U+0300 COMBINING GRAVE ACCENT,
>>> http://en.wikipedia.org/wiki/Combining_character), чрез знак и сложено
>>> след него ударение (което незнайно защо се показва като един знак
>>> впоследствие), или чрез използване на т.нар. precomposed characters
>>> <http://en.wikipedia.org/wiki/Precomposed_character> (като „ѝ“).
>>>
>>> При корекцията на един друг речник в „Читанка“ са решили да ползват
>>> втория вариант (пример за слети знаци: байга̀ньо; пример за начина,
>>> използван в сканирания речник Мурдаров в „Читанка“: байга`ньо), от следната
>>> страница можеш да видиш как изглежда правописът във варианта, използван в
>>> „Читанка“:
>>> http://wiki.workroom.chitanka.info/Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41
>>> (но за да видиш реалното положение на нещата е нужно да влезеш в профила си
>>> в „Читанка“ и да отидеш например на
>>> http://wiki.workroom.chitanka.info/index.php?title=Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41&action=edit),
>>> техният вариант е споменатия нагоре „байга`ньо“, а не „байга̀ньо“ (възможно
>>> е да не ти се показва правилно, ако не ползваш подходящ шрифт...).
>>>
>>> За мен техният вариант не е особено удачен, защото например при търсене
>>> с Ctrl+F за низа „байганьо“ чрез браузър (давам пример с последната версия
>>> на Opera), излиза правилно открояване на резултата „байга̀ньо“ дори при
>>> търсене за „байганьо“ (т.е. без ударението), докато за откриване на
>>> „байга`ньо“ трябва да добавиш по някакъв друг начин знака „гравис“, което
>>> много усложнява нещата и е адски неудобно! Т.е. трябва да се избере и
>>> правилният вариант за слагане на ударенията на 2-рото копие на дадена дума
>>> от речника. Обяснението на „Читанка“ е „За ударение използвайте символа „`“
>>> (обикновено е на един и същи клавиш с „~“, вляво от „1“), като го поставите
>>> след ударената гласна, например „АСТРОНА`ВТ“.“... Мъка... Всичко това
>>> слагане на ударения, за съжаление, става само ръчно и затова ще отнеме
>>> адски много време... :\
>>>
>>> Колкото до сричкопренасянето — то е трудно и за да е точно (а не просто
>>> генерирано по алгоритъм, който често дава напълно грешни варианти за
>>> сричкопренасяне), то трябва да се направи като ръчно написан списък със
>>> сричките на думите. Алгоритмите не могат да автоматизират напълно този
>>> процес, дори и при английския език (чието сричкопренасяне също е трудно и
>>> не е напълно точно, ако е генерирано чрез алгоритъм — даже специалистите
>>> препоръчват да се ползва речник за сверяване на сричкопренасянето и не се
>>> изисква да се помни то наизуст). Сричкопренасянето на български думи в
>>> LaTeX също е незадоволително, не са само Firefox,
>>> OpenOffice.org/LibreOffice и Thunderbird... За щастие, в днешно време почти
>>> не се използва сричкопренасяне (освен при печатни книги), което намалява
>>> тежестта на този проблем.
>>>
>>>
>>>
>>> Лошо е, че bg.aff от „БГ Офис“ ползва windows-1251... Доколкото знам,
>>> файлът .aff е само за афиксите, даже е само май за окончанията и
>>> определителните членове (не включва представки и наставки).
>>>
>>> Файлът за сричкопренасянето май е hyph_bg_BG.dic, но и то за жалост е с
>>> кодировка windows-1251. Пък и явно не е съвсем пълен, защото Firefox
>>> подчертава като грешни много правилно написани думи, ако сте поставили
>>> окончание и/или окончание и определителен член (това важи особено много за
>>> добавени от потребителя думи (т.е. чрез използването на селекция на думата,
>>> дясно щракване върху нея и Add to dictionary във Firefox!). Разбира се,
>>> това е поправимо, пък и колосалният труд зад „БГ Офис“ значително улеснява
>>> подобряването на самите файлове на „БГ Офис“. Пък и понякога е възможно,
>>> ако ползваш грешен афикс към дума (например окончание и определителен член
>>> за м. р., ед. ч. при дума от ж. р., ед. ч.), програмата да не ти подчертае
>>> грешката (макар че това се случва изключително рядко).
>>>
>>> Друг е въпросът, че от езикова гледна точка има колебания в употребата
>>> на окончанието (т.е. на рода и най-вече на мн. ч.) на новонавлезлите в
>>> езика ни заемки от други езици — например „дронове“ или „дрони“, което няма
>>> как да бъде нормирано чрез spellchecker-а на „БГ Офис“, защото още не се е
>>> стигнало до консенсус по въпроса коя от формите е по-правилната...
>>>
>>> П.П. Най-лесно е да добавим нови думи към bg.dic. Въпросът е, че те
>>> трябва да се сверят с официалния речник (и да се има предвид, че и в него
>>> има грешки на места...) и едва тогава да се добавят към bg.dic. Иначе няма
>>> смисъл от тези промени по речниковата база на spellchecker-а.
>>>
>>> Ентусиазмът ви обаче е похвален, ако по-нататък имате достатъчно
>>> свободно време и имате желание да допринесете за развитието на един нов
>>> свободен речник, който надгражда този на „Читанка“, можете да се включите в
>>> екипа на нашия речник „Словник“, който се разработва от известно време, но
>>> който няма да бъде пуснат в скоро време: http://slovnik.bulogos.info.
>>>
>>> Разбира се, препоръчвам ви да се свържете и с radnev at gmail.com (авторът
>>> на „БГ Офис“), за да се координирате с него по отношение на вашите приноси
>>> към „БГ Офис“.
>>>
>>> Поздрави,
>>> Sah War (sahwar)
>>>
>>> На 29 март 2015 г., 12:15, Стоян Димитров <stoyan at gmx.com> написа:
>>>
>>>>      Здравейте,
>>>>     интересува ме някой от вас знае ли дали в момента се извършва
>>>> дейност по осъвременяването на модула за проверка на правописа в БГ Офис
>>>> [1] по-скоро списъка с думи (вероятно се нарича „речник“). След
>>>> предварителен преглед на базата данни [2] от речника [3] мисля, че списъкът
>>>> с думи, включени в БГ Офис, може да бъде осъвременен и поддържан във форма
>>>> сравнително лесно. Като допълнителен бонус процесът на обновяване може да
>>>> бъде автоматизиран. Не е съм съвсем сигурен, но вероятно всички модули
>>>> (напр. сричкопренасянето) и за всички продукти (OpenOffice, Mozilla) ще
>>>> имат полза от това.
>>>>     Започнал съм работа по файла .aff, което да послужи като шаблон за
>>>> генерирането на допълнен речник за проверка на правописа, та идеята ми е да
>>>> не се настъпим с някого.
>>>>
>>>> П.П.
>>>> Разборът, който е направен на изходния материал, за да бъде реализиран
>>>> [3] е страхотна основа за надграждане и незная как е останал незабелязан до
>>>> момента. Поздравления за автора!
>>>>
>>>> __
>>>> [1] - http://bgoffice.sf.net
>>>> [2] - http://rechnik.chitanka.info/db.sql.gz
>>>> [3] - http://rechnik.chitanka.info
>>>>
>>>> --
>>>> С
>>>>
>>>>
>>>> _______________________________________________
>>>> Dict mailing list
>>>> Dict at ludost.net
>>>> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
>>>>
>>>>
>>>
>>> _______________________________________________
>>> Dict mailing list
>>> Dict at ludost.net
>>> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
>>>
>>>
>>
>> _______________________________________________
>> Dict mailing list
>> Dict at ludost.net
>> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
>>
>>
>
> _______________________________________________
> Dict mailing list
> Dict at ludost.net
> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
>
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.ludost.net/pipermail/dict/attachments/20150329/ca44e04b/attachment-0001.html>


More information about the Dict mailing list