[Dict] БГ Офис модул за проверка на правопис

Sun Mar 29 21:01:05 EEST 2015

Да, имам нещо общо с http://rechnik.chitanka.info, а именно — с Борислав
Манолов (човекът за „Читанка“), Александър Камбуров и още няколко души
работим по един по-усъвършенстван речник, споменатия
http://slovnik.chitanka.info. ;) Даже ви бях пратил писмо с покана да
участвате в нашия проект, защото вие сте сред пионерите на всичките тези
благинки като „БГ Офис“ (и съм се учил от работата ви :) ), преди 1-2
години ви бях пратил имейл по въпроса (но го пратих на radnev at yahoo.com,
който вече не съществува), но не ми отговорихте, защото имейлът ви в Yahoo!
беше изтрит по някаква причина. :) Едва преди няколко дни намерих адреса на
имейла ви в GMail чрез LinkedIn и щях да ви пиша отново по същия въпрос, но
ме изпреварихте с писмото до този пощенски списък. :) Ако се интересувате
от това предложение, ми пишете допълнително. ;)

Благодаря много за информацията за SVN, ще изтегля и прегледам файлове като
се поосвободя малко повече.
Мисля, че би било по-удобно, ако направим копие на „БГ Офис“ и в GitHub
(освен ако не искате да ползвате само SourceForge).

Доколкото разбирам от - http://rechnik.chitanka.info/about - те са взели
> нещата от - http://freeplace.info/ididictionary/bulgarian_spell_checker/
> А пък той от мен. ;)
>

Да, и аз така си спомням, че стоят нещата. :)

Аз си кореспондирах с автора на IDI Spell Checker - той щеше да праща
> някакви корекции и нови думи да ги вкарвам, но нещата останаха само на
> планове. Но това беше преди 2-3 години.
>
Предполагам че неговата база е по-пълна и по-добра, защото пише че е
> сравнявал думи с правописния речник на БАН 2012 - пък аз съм зарязал нещата
> към 2002-2004.
>

Да, знам, че IDI има може би най-подробната база от данни, но все пак е
добре тя *отново* да се свери със сканирания вариант на речника от 2012 г.,
който цитирах (като преди е нужно OCR + ръчна проверка по обяснения от мен
начин, споменат в предишните ми писма до този пощенски списък).

Ако знаете данни за контакт с IDI, ще се радвам да ми ги пратите, и аз
исках да се свържа с него, но по линия на предложения за самата му програма
(например поправяне на дребни правописни грешки в текста на ГПИ-то ѝ). :)
Жалко, че не IDI не е пуснал програмата си с отворен код, но все пак съм
много благодарен, че поне я е пуснал като freeware, уникално полезна
програма е (както и вашия проект „БГ Офис“ и компонентите му, естествено :)
).

Всъщност БГ офис е първоизточника, после има fork на Wikidictionary, на
> http://rechnik.chitanka.info/, на
> http://freeplace.info/ididictionary/bulgarian_spell_checker/
> Предполагам всеки се е развивал самостоятелно и е правил подобрения. От
> Wikidictionary ми върнаха някои подобрения и съм ги оправил, но това е било
> през 2007 като гледам ChangeLog.
>

Да, очевидно е точно така, отделните fork-ове са добавили и променили
своето първоначално копие на вашите файлове от „БГ Офис“. И IDI ви цитира
като един от използваните източници за програмата си.

И аз съм на мнение, че трябва да се свържем с IDI и да си сътрудничим с
него. Досега не съм направил това, защото не намерих имейла му на
страницата на IDI Spellchecker. Както казах, щом сте общували с него, ще се
радвам да ми пратите имейл адреса му, за да се опитам да се свържа с него.
Да се надяваме, че ползва активно пощата си и не я е изтрил или зарязал.

Поздрави,
Sah War (sahwar)

На 29 март 2015 г., 20:16, Radostin Radnev <radnev at gmail.com> написа:

> Здравейте,
>
> Останал съм с впечатление, че вие имате общо с
> http://rechnik.chitanka.info/ - понеже авторите са се постарали да
> вникнат за какво иде реч.
>
> Тук е хранилището SVN - под Windows може да го дръпнете с тези програмка -
> http://tortoisesvn.net/
>
> Това е адреса - https://svn.code.sf.net/p/bgoffice/code/trunk/bgoffice
>
> Правите SVN Checkout - от контекстното меню на файловия мениджър и
> файловете ще дойдат при вас.
>
>
> После разглеждате README и docs. Данните логично са в директорията data.
> Даже и без да четете документация ще се справите.
>
>
> Доколкото разбирам от - http://rechnik.chitanka.info/about - те са взели
> нещата от - http://freeplace.info/ididictionary/bulgarian_spell_checker/
>
> А пък той от мен. ;)
>
> Аз си кореспондирах с автора на IDI Spell Checker - той щеше да праща
> някакви корекции и нови думи да ги вкарвам, но нещата останаха само на
> планове. Но това беше преди 2-3 години.
>
> Предполагам че неговата база е по-пълна и по-добра, защото пише че е
> сравнявал думи с правописния речник на БАН 2012 - пък аз съм зарязал нещата
> към 2002-2004.
>
>
> Всъщност БГ офис е първоизточника, после има fork на Wikidictionary, на
> http://rechnik.chitanka.info/, на
> http://freeplace.info/ididictionary/bulgarian_spell_checker/
>
> Предполагам всеки се е развивал самостоятелно и е правил подобрения. От
> Wikidictionary ми върнаха някои подобрения и съм ги оправил, но това е било
> през 2007 като гледам ChangeLog.
>
> И май http://freeplace.info/ididictionary/bulgarian_spell_checker/ е
> най-напред с материала. Ако успеете да влезете в контакт с него - да смесим
> неговите подобрения. Това автоматично ще даде резултат върху Firefox,
> Chrome, Open/Libre офис.
>
>
> Поздрави,
>
>
>
>
> 2015-03-29 19:29 GMT+03:00 Sah War <ve4ernik at gmail.com>:
>
>> Здравейте,
>>
>> Много благодаря за обясненията, г-н Раднев! Трудът ви по „БГ Офис“ е
>> повече от похвален и дълбоко уважавам делото ви, благодарение на което
>> имаме spellchecker за OpenOffice.org/LibreOffice, Chrome, Thunderbird и
>> Firefox, което е огромно улеснение! :)
>>
>> Примерно, в aspell няма афикс файл, всяка дума е на нов ред и има около
>>> 800 000 словоформи. За Firefox и другите дето ползват aff файл също може да
>>> се наблъскат в един файл и да има празен .aff файл.
>>>
>>
>> Предполагам, че това означава, че за да е възможно най-пълен и точен
>> речникът за Firefox и подобни, трябва да добавим всички словоформи на
>> думите в един файл и да се лишим от файла .aff за сметка на по-малкия
>> размер на речника и компресията при употребата на .aff файл. Мисля, че този
>> вариант е най-удачен въпреки увеличаването на големината на spellchecker-а.
>>
>> Ако искате да добавяте нови думи, просто определяте типа на думата и я
>>> вкарвате в съответния файл - bg001.dat, bg002.dat, 03, ....
>>>
>>> След това пускате скриптовете за проверка и билдване на речниците и
>>> нещата трябва да проработят.
>>>
>>
>> Хм, нещо не мога да се ориентирам, за което се извинявам. Бихте ли ни
>> дали хипервръзки към документацията, където е обяснено как се вършат тези
>> неща? Благодаря предварително и съжалявам за тъпия въпрос.
>> Мислих си, че проверката на правописа се извършва на базата на файла
>> bg.dic, а всъщност се оказва, че се извършва чрез .dat файловете. Поправете
>> ме, ако греша. Къде е описано в кои .dat файлове трябва да се сложат
>> съответните думи според частта на речта, към която принадлежат? Трудно се
>> ориентирам, съжалявам за което.
>>
>> Firefox, а и всички останали програми за проверка на правописа (поне
>>> чуждите) разглеждат думата сама за себе си - няма как да знаят че дрони
>>> (или дронове) е множествено число на дрон. Така че като добавите дрон, ще
>>> познава само дрон - дрони, дрона, дронът, дроните - няма да ги познава.
>>> Става въпрос за потребителските речници.
>>>
>>
>> В bg.dic отиват думите, добавени към потребителския речник, така ли? За
>> да имаме всички словоформи на дадена дума в потребителския речник трябва да
>> добавим всяка поотделно към bg.dic, така ли? Или в .dat файловете? Мислих
>> си, че при добавянето на основната форма, файлът с афиксите някакси се
>> ползва за генерирането на останалите словоформи на думата, но очевидно съм
>> се заблуждавал (пък и като се замисля не знам дори как биха се избирали
>> афиксите на дадена дума). Поправете ме, ако греша.
>>
>> Имам още един въпрос. В bg.dic има едни означения след някои от думите —
>> „\K“ („\“ плюс дадена латинска буква), къде е обяснено какво означават те,
>> т.е. каква е функцията им?
>>
>> Отново се извинявам, ако задавам тъпи въпроси. :)
>>
>> П.П. Спорен мен е най-полезно да се съсредоточим в това да добавим думите
>> от речника на БАН от 2012 г. към базата от данни на „БГ Офис“ (а защо не и
>> тези от речника на БАН от 2002 г.). За целта обаче трябва да извършим OCR и
>> последваща ръчна корекция на сканираната му версия — версията, цитирана от
>> мен в предишното ми писмо към пощенския списък.
>>
>> Поздрави,
>> Sah War (sahwar)
>>
>> На 29 март 2015 г., 18:57, Radostin Radnev <radnev at gmail.com> написа:
>>
>>> Здравейте,
>>>
>>> Да се включа и аз, поне да кажа как работят нещата в
>>> http://bgoffice.sourceforge.net/
>>>
>>> С .aff нямате работа - той се генерира автоматично. Неговата цел е да
>>> постигне някаква компресия и нищо повече. Примерно, в aspell няма афикс
>>> файл, всяка дума е на нов ред и има около 800 000 словоформи. За Firefox и
>>> другите дето ползват aff файл също може да се наблъскат в един файл и да
>>> има празен .aff файл.
>>>
>>> Така че не правете модификации във файл, който се генерира автоматично.
>>>
>>> Ако искате да добавяте нови думи, просто определяте типа на думата и я
>>> вкарвате в съответния файл - bg001.dat, bg002.dat, 03, ....
>>>
>>> След това пускате скриптовете за проверка и билдване на речниците и
>>> нещата трябва да проработят.
>>>
>>> Има някакви помощни скриптове за определяне типа на думата, но те дават
>>> предложения, после ръчно трябва да определите в кой файл да отиде новата
>>> дума.
>>>
>>> Firefox, а и всички останали програми за проверка на правописа (поне
>>> чуждите) разглеждат думата сама за себе си - няма как да знаят че дрони
>>> (или дронове) е множествено число на дрон. Така че като добавите дрон, ще
>>> познава само дрон - дрони, дрона, дронът, дроните - няма да ги познава.
>>> Става въпрос за потребителските речници.
>>>
>>>
>>> Поздрави,
>>> Радостин Раднев
>>>
>>>
>>>
>>> 2015-03-29 17:44 GMT+03:00 Sah War <ve4ernik at gmail.com>:
>>>
>>>> Здравейте, г-н Димитров!
>>>>
>>>> Предварително се извинявам за дългото писмо. :D
>>>>
>>>> За съжаление, в речника на „Читанка“ има доста грешки и неточности и не
>>>> е проверен дали е точен по отношение на правописа с последния официален
>>>> правописен речник на БАН от 2012 г. (в който на места същ има грешки...),
>>>> поради което базата от данни на речника на „Читанка“ не е много надеждна за
>>>> целите на добавянето ѝ към spellchecker-а на „БГ Офис“ (т.е. първо трябва
>>>> изцяло да се свери с речника на БАН, което е адски трудоемко...). Освен
>>>> това на места липсват дублети.
>>>>
>>>> Това е забелязано отдавна, поради което и не е пристъпено към
>>>> използването на тази база от данни в „БГ Офис“.
>>>>
>>>> Но въпреки това има начини, по който можете да ни помогнете за
>>>> spellchecker-а:
>>>>
>>>> 1. Ако знаете как, ще се радвам да създадете .txt вариант на db.sql.gz
>>>> (все пак това е SQL база от данни...), даже е добре този вариант да се
>>>> раздели на няколко отделни .txt файла, защото иначе ще е мъка да се
>>>> редактира с текстов редактор.
>>>>
>>>> 2. Набираме желаещи да направят OCR и последваща ръчна проверка и
>>>> корекция на речника на БАН от 2012 г. (чрез ползване на най-новата версия
>>>> на ABBYY FineReader):
>>>>
>>>>
>>>> http://www.mediafire.com/view/7tncj767aau69d3/OPRBE-2012_full_2pagesperpage.pdf
>>>>
>>>> http://www.mediafire.com/download/tpgax3g7o36k4oy/OPRBE-2012_full_2pagesperpage_lossy-djvu.djvu
>>>>
>>>> Има обаче една тънкост при корекцията — поради известни недостатъци на
>>>> ABBYY FineReader, програмата не може правилно да разчете знаците за
>>>> ударение на думите и обикновено дава резултат без тях, което означава, че
>>>> при ръчна корекция трябва да напишете думата 2 пъти: един без ударения и
>>>> един път с правилните ударения. Но и при това има затруднение, защото има
>>>> няколко (!!!) начина за слагане на ударения — чрез копиране на знак от
>>>> Уникод, комбиниран със знака за ударение (май се казваше „гравис“ (тежко
>>>> ударение), т.е. U+0300 COMBINING GRAVE ACCENT,
>>>> http://en.wikipedia.org/wiki/Combining_character), чрез знак и сложено
>>>> след него ударение (което незнайно защо се показва като един знак
>>>> впоследствие), или чрез използване на т.нар. precomposed characters
>>>> <http://en.wikipedia.org/wiki/Precomposed_character> (като „ѝ“).
>>>>
>>>> При корекцията на един друг речник в „Читанка“ са решили да ползват
>>>> втория вариант (пример за слети знаци: байга̀ньо; пример за начина,
>>>> използван в сканирания речник Мурдаров в „Читанка“: байга`ньо), от следната
>>>> страница можеш да видиш как изглежда правописът във варианта, използван в
>>>> „Читанка“:
>>>> http://wiki.workroom.chitanka.info/Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41
>>>> (но за да видиш реалното положение на нещата е нужно да влезеш в профила си
>>>> в „Читанка“ и да отидеш например на
>>>> http://wiki.workroom.chitanka.info/index.php?title=Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41&action=edit),
>>>> техният вариант е споменатия нагоре „байга`ньо“, а не „байга̀ньо“ (възможно
>>>> е да не ти се показва правилно, ако не ползваш подходящ шрифт...).
>>>>
>>>> За мен техният вариант не е особено удачен, защото например при търсене
>>>> с Ctrl+F за низа „байганьо“ чрез браузър (давам пример с последната версия
>>>> на Opera), излиза правилно открояване на резултата „байга̀ньо“ дори при
>>>> търсене за „байганьо“ (т.е. без ударението), докато за откриване на
>>>> „байга`ньо“ трябва да добавиш по някакъв друг начин знака „гравис“, което
>>>> много усложнява нещата и е адски неудобно! Т.е. трябва да се избере и
>>>> правилният вариант за слагане на ударенията на 2-рото копие на дадена дума
>>>> от речника. Обяснението на „Читанка“ е „За ударение използвайте символа „`“
>>>> (обикновено е на един и същи клавиш с „~“, вляво от „1“), като го поставите
>>>> след ударената гласна, например „АСТРОНА`ВТ“.“... Мъка... Всичко това
>>>> слагане на ударения, за съжаление, става само ръчно и затова ще отнеме
>>>> адски много време... :\
>>>>
>>>> Колкото до сричкопренасянето — то е трудно и за да е точно (а не просто
>>>> генерирано по алгоритъм, който често дава напълно грешни варианти за
>>>> сричкопренасяне), то трябва да се направи като ръчно написан списък със
>>>> сричките на думите. Алгоритмите не могат да автоматизират напълно този
>>>> процес, дори и при английския език (чието сричкопренасяне също е трудно и
>>>> не е напълно точно, ако е генерирано чрез алгоритъм — даже специалистите
>>>> препоръчват да се ползва речник за сверяване на сричкопренасянето и не се
>>>> изисква да се помни то наизуст). Сричкопренасянето на български думи в
>>>> LaTeX също е незадоволително, не са само Firefox,
>>>> OpenOffice.org/LibreOffice и Thunderbird... За щастие, в днешно време почти
>>>> не се използва сричкопренасяне (освен при печатни книги), което намалява
>>>> тежестта на този проблем.
>>>>
>>>>
>>>>
>>>> Лошо е, че bg.aff от „БГ Офис“ ползва windows-1251... Доколкото знам,
>>>> файлът .aff е само за афиксите, даже е само май за окончанията и
>>>> определителните членове (не включва представки и наставки).
>>>>
>>>> Файлът за сричкопренасянето май е hyph_bg_BG.dic, но и то за жалост е с
>>>> кодировка windows-1251. Пък и явно не е съвсем пълен, защото Firefox
>>>> подчертава като грешни много правилно написани думи, ако сте поставили
>>>> окончание и/или окончание и определителен член (това важи особено много за
>>>> добавени от потребителя думи (т.е. чрез използването на селекция на думата,
>>>> дясно щракване върху нея и Add to dictionary във Firefox!). Разбира се,
>>>> това е поправимо, пък и колосалният труд зад „БГ Офис“ значително улеснява
>>>> подобряването на самите файлове на „БГ Офис“. Пък и понякога е възможно,
>>>> ако ползваш грешен афикс към дума (например окончание и определителен член
>>>> за м. р., ед. ч. при дума от ж. р., ед. ч.), програмата да не ти подчертае
>>>> грешката (макар че това се случва изключително рядко).
>>>>
>>>> Друг е въпросът, че от езикова гледна точка има колебания в употребата
>>>> на окончанието (т.е. на рода и най-вече на мн. ч.) на новонавлезлите в
>>>> езика ни заемки от други езици — например „дронове“ или „дрони“, което няма
>>>> как да бъде нормирано чрез spellchecker-а на „БГ Офис“, защото още не се е
>>>> стигнало до консенсус по въпроса коя от формите е по-правилната...
>>>>
>>>> П.П. Най-лесно е да добавим нови думи към bg.dic. Въпросът е, че те
>>>> трябва да се сверят с официалния речник (и да се има предвид, че и в него
>>>> има грешки на места...) и едва тогава да се добавят към bg.dic. Иначе няма
>>>> смисъл от тези промени по речниковата база на spellchecker-а.
>>>>
>>>> Ентусиазмът ви обаче е похвален, ако по-нататък имате достатъчно
>>>> свободно време и имате желание да допринесете за развитието на един нов
>>>> свободен речник, който надгражда този на „Читанка“, можете да се включите в
>>>> екипа на нашия речник „Словник“, който се разработва от известно време, но
>>>> който няма да бъде пуснат в скоро време: http://slovnik.bulogos.info.
>>>>
>>>> Разбира се, препоръчвам ви да се свържете и с radnev at gmail.com
>>>> (авторът на „БГ Офис“), за да се координирате с него по отношение на вашите
>>>> приноси към „БГ Офис“.
>>>>
>>>> Поздрави,
>>>> Sah War (sahwar)
>>>>
>>>> На 29 март 2015 г., 12:15, Стоян Димитров <stoyan at gmx.com> написа:
>>>>
>>>>>      Здравейте,
>>>>>     интересува ме някой от вас знае ли дали в момента се извършва
>>>>> дейност по осъвременяването на модула за проверка на правописа в БГ Офис
>>>>> [1] по-скоро списъка с думи (вероятно се нарича „речник“). След
>>>>> предварителен преглед на базата данни [2] от речника [3] мисля, че списъкът
>>>>> с думи, включени в БГ Офис, може да бъде осъвременен и поддържан във форма
>>>>> сравнително лесно. Като допълнителен бонус процесът на обновяване може да
>>>>> бъде автоматизиран. Не е съм съвсем сигурен, но вероятно всички модули
>>>>> (напр. сричкопренасянето) и за всички продукти (OpenOffice, Mozilla) ще
>>>>> имат полза от това.
>>>>>     Започнал съм работа по файла .aff, което да послужи като шаблон за
>>>>> генерирането на допълнен речник за проверка на правописа, та идеята ми е да
>>>>> не се настъпим с някого.
>>>>>
>>>>> П.П.
>>>>> Разборът, който е направен на изходния материал, за да бъде реализиран
>>>>> [3] е страхотна основа за надграждане и незная как е останал незабелязан до
>>>>> момента. Поздравления за автора!
>>>>>
>>>>> __
>>>>> [1] - http://bgoffice.sf.net
>>>>> [2] - http://rechnik.chitanka.info/db.sql.gz
>>>>> [3] - http://rechnik.chitanka.info
>>>>>
>>>>> --
>>>>> С
>>>>>
>>>>>
>>>>> _______________________________________________
>>>>> Dict mailing list
>>>>> Dict at ludost.net
>>>>> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
>>>>>
>>>>>
>>>>
>>>> _______________________________________________
>>>> Dict mailing list
>>>> Dict at ludost.net
>>>> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
>>>>
>>>>
>>>
>>> _______________________________________________
>>> Dict mailing list
>>> Dict at ludost.net
>>> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
>>>
>>>
>>
>> _______________________________________________
>> Dict mailing list
>> Dict at ludost.net
>> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
>>
>>
>
> _______________________________________________
> Dict mailing list
> Dict at ludost.net
> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
>
>
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.ludost.net/pipermail/dict/attachments/20150329/2ea6a3e8/attachment-0001.html>