[Dict] БГ Офис модул за проверка на правопис

Стоян Димитров stoyan at gmx.com
Mon Mar 30 20:26:12 EEST 2015


Но, да, в светлината на проекта редактирането на .aff файловете е 
безсмислено.

На 30.03.2015 г. в 10:15, Стоян Димитров написа:
> Здравейте, господин Раднев,
>     Радвам се, че се включвате в дискусията. Моите почитания към 
> работата ви.
>
> На 29.03.2015 г. в 18:57, Radostin Radnev написа:
>> Здравейте,
>>
>> Да се включа и аз, поне да кажа как работят нещата в
>> http://bgoffice.sourceforge.net/
>>
>> С .aff нямате работа - той се генерира автоматично. Неговата цел е да
>> постигне някаква компресия и нищо повече. Примерно, в aspell няма афикс
>> файл, всяка дума е на нов ред и има около 800 000 словоформи. За 
>> Firefox и
>> другите дето ползват aff файл също може да се наблъскат в един файл и да
>> има празен .aff файл.
> Няма да се съглася с вас. Освен SFX във файла .aff има други секции, 
> които също могат да бъдат полезни. Например, на пръв поглед, KEY и 
> REP. Да, те нямат стойността на останалата част, но спомагат.
>> Така че не правете модификации във файл, който се генерира автоматично.
>>
>> Ако искате да добавяте нови думи, просто определяте типа на думата и я
>> вкарвате в съответния файл - bg001.dat, bg002.dat, 03, ....
>>
>> След това пускате скриптовете за проверка и билдване на речниците и 
>> нещата
>> трябва да проработят.
>>
>> Има някакви помощни скриптове за определяне типа на думата, но те дават
>> предложения, после ръчно трябва да определите в кой файл да отиде новата
>> дума.
>>
>> Firefox, а и всички останали програми за проверка на правописа (поне
>> чуждите) разглеждат думата сама за себе си - няма как да знаят че дрони
>> (или дронове) е множествено число на дрон. Така че като добавите 
>> дрон, ще
>> познава само дрон - дрони, дрона, дронът, дроните - няма да ги познава.
>> Става въпрос за потребителските речници.
>>
>>
>> Поздрави,
>> Радостин Раднев
>>
>>
>>
>> 2015-03-29 17:44 GMT+03:00 Sah War <ve4ernik at gmail.com>:
>>
>>> Здравейте, г-н Димитров!
>>>
>>> Предварително се извинявам за дългото писмо. :D
>>>
>>> За съжаление, в речника на „Читанка“ има доста грешки и неточности и 
>>> не е
>>> проверен дали е точен по отношение на правописа с последния официален
>>> правописен речник на БАН от 2012 г. (в който на места същ има 
>>> грешки...),
>>> поради което базата от данни на речника на „Читанка“ не е много 
>>> надеждна за
>>> целите на добавянето ѝ към spellchecker-а на „БГ Офис“ (т.е. първо 
>>> трябва
>>> изцяло да се свери с речника на БАН, което е адски трудоемко...). Освен
>>> това на места липсват дублети.
>>>
>>> Това е забелязано отдавна, поради което и не е пристъпено към 
>>> използването
>>> на тази база от данни в „БГ Офис“.
>>>
>>> Но въпреки това има начини, по който можете да ни помогнете за
>>> spellchecker-а:
>>>
>>> 1. Ако знаете как, ще се радвам да създадете .txt вариант на db.sql.gz
>>> (все пак това е SQL база от данни...), даже е добре този вариант да се
>>> раздели на няколко отделни .txt файла, защото иначе ще е мъка да се
>>> редактира с текстов редактор.
>>>
>>> 2. Набираме желаещи да направят OCR и последваща ръчна проверка и 
>>> корекция
>>> на речника на БАН от 2012 г. (чрез ползване на най-новата версия на 
>>> ABBYY
>>> FineReader):
>>>
>>>
>>> http://www.mediafire.com/view/7tncj767aau69d3/OPRBE-2012_full_2pagesperpage.pdf 
>>>
>>>
>>> http://www.mediafire.com/download/tpgax3g7o36k4oy/OPRBE-2012_full_2pagesperpage_lossy-djvu.djvu 
>>>
>>>
>>> Има обаче една тънкост при корекцията — поради известни недостатъци на
>>> ABBYY FineReader, програмата не може правилно да разчете знаците за
>>> ударение на думите и обикновено дава резултат без тях, което 
>>> означава, че
>>> при ръчна корекция трябва да напишете думата 2 пъти: един без 
>>> ударения и
>>> един път с правилните ударения. Но и при това има затруднение, 
>>> защото има
>>> няколко (!!!) начина за слагане на ударения — чрез копиране на знак от
>>> Уникод, комбиниран със знака за ударение (май се казваше „гравис“ 
>>> (тежко
>>> ударение), т.е. U+0300 COMBINING GRAVE ACCENT,
>>> http://en.wikipedia.org/wiki/Combining_character), чрез знак и сложено
>>> след него ударение (което незнайно защо се показва като един знак
>>> впоследствие), или чрез използване на т.нар. precomposed characters
>>> <http://en.wikipedia.org/wiki/Precomposed_character> (като „ѝ“).
>>>
>>> При корекцията на един друг речник в „Читанка“ са решили да ползват 
>>> втория
>>> вариант (пример за слети знаци: байга̀ньо; пример за начина, използван в
>>> сканирания речник Мурдаров в „Читанка“: байга`ньо), от следната 
>>> страница
>>> можеш да видиш как изглежда правописът във варианта, използван в 
>>> „Читанка“:
>>> http://wiki.workroom.chitanka.info/Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41 
>>>
>>> (но за да видиш реалното положение на нещата е нужно да влезеш в 
>>> профила си
>>> в „Читанка“ и да отидеш например на
>>> http://wiki.workroom.chitanka.info/index.php?title=Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41&action=edit), 
>>>
>>> техният вариант е споменатия нагоре „байга`ньо“, а не „байга̀ньо“ 
>>> (възможно
>>> е да не ти се показва правилно, ако не ползваш подходящ шрифт...).
>>>
>>> За мен техният вариант не е особено удачен, защото например при 
>>> търсене с
>>> Ctrl+F за низа „байганьо“ чрез браузър (давам пример с последната 
>>> версия на
>>> Opera), излиза правилно открояване на резултата „байга̀ньо“ дори при
>>> търсене за „байганьо“ (т.е. без ударението), докато за откриване на
>>> „байга`ньо“ трябва да добавиш по някакъв друг начин знака „гравис“, 
>>> което
>>> много усложнява нещата и е адски неудобно! Т.е. трябва да се избере и
>>> правилният вариант за слагане на ударенията на 2-рото копие на 
>>> дадена дума
>>> от речника. Обяснението на „Читанка“ е „За ударение използвайте 
>>> символа „`“
>>> (обикновено е на един и същи клавиш с „~“, вляво от „1“), като го 
>>> поставите
>>> след ударената гласна, например „АСТРОНА`ВТ“.“... Мъка... Всичко това
>>> слагане на ударения, за съжаление, става само ръчно и затова ще отнеме
>>> адски много време... :\
>>>
>>> Колкото до сричкопренасянето — то е трудно и за да е точно (а не просто
>>> генерирано по алгоритъм, който често дава напълно грешни варианти за
>>> сричкопренасяне), то трябва да се направи като ръчно написан списък със
>>> сричките на думите. Алгоритмите не могат да автоматизират напълно този
>>> процес, дори и при английския език (чието сричкопренасяне също е 
>>> трудно и
>>> не е напълно точно, ако е генерирано чрез алгоритъм — даже 
>>> специалистите
>>> препоръчват да се ползва речник за сверяване на сричкопренасянето и 
>>> не се
>>> изисква да се помни то наизуст). Сричкопренасянето на български думи в
>>> LaTeX също е незадоволително, не са само Firefox,
>>> OpenOffice.org/LibreOffice и Thunderbird... За щастие, в днешно 
>>> време почти
>>> не се използва сричкопренасяне (освен при печатни книги), което 
>>> намалява
>>> тежестта на този проблем.
>>>
>>>
>>>
>>> Лошо е, че bg.aff от „БГ Офис“ ползва windows-1251... Доколкото знам,
>>> файлът .aff е само за афиксите, даже е само май за окончанията и
>>> определителните членове (не включва представки и наставки).
>>>
>>> Файлът за сричкопренасянето май е hyph_bg_BG.dic, но и то за жалост е с
>>> кодировка windows-1251. Пък и явно не е съвсем пълен, защото Firefox
>>> подчертава като грешни много правилно написани думи, ако сте поставили
>>> окончание и/или окончание и определителен член (това важи особено 
>>> много за
>>> добавени от потребителя думи (т.е. чрез използването на селекция на 
>>> думата,
>>> дясно щракване върху нея и Add to dictionary във Firefox!). Разбира се,
>>> това е поправимо, пък и колосалният труд зад „БГ Офис“ значително 
>>> улеснява
>>> подобряването на самите файлове на „БГ Офис“. Пък и понякога е 
>>> възможно,
>>> ако ползваш грешен афикс към дума (например окончание и 
>>> определителен член
>>> за м. р., ед. ч. при дума от ж. р., ед. ч.), програмата да не ти 
>>> подчертае
>>> грешката (макар че това се случва изключително рядко).
>>>
>>> Друг е въпросът, че от езикова гледна точка има колебания в 
>>> употребата на
>>> окончанието (т.е. на рода и най-вече на мн. ч.) на новонавлезлите в 
>>> езика
>>> ни заемки от други езици — например „дронове“ или „дрони“, което 
>>> няма как
>>> да бъде нормирано чрез spellchecker-а на „БГ Офис“, защото още не се е
>>> стигнало до консенсус по въпроса коя от формите е по-правилната...
>>>
>>> П.П. Най-лесно е да добавим нови думи към bg.dic. Въпросът е, че те 
>>> трябва
>>> да се сверят с официалния речник (и да се има предвид, че и в него има
>>> грешки на места...) и едва тогава да се добавят към bg.dic. Иначе няма
>>> смисъл от тези промени по речниковата база на spellchecker-а.
>>>
>>> Ентусиазмът ви обаче е похвален, ако по-нататък имате достатъчно 
>>> свободно
>>> време и имате желание да допринесете за развитието на един нов свободен
>>> речник, който надгражда този на „Читанка“, можете да се включите в 
>>> екипа на
>>> нашия речник „Словник“, който се разработва от известно време, но който
>>> няма да бъде пуснат в скоро време: http://slovnik.bulogos.info.
>>>
>>> Разбира се, препоръчвам ви да се свържете и с radnev at gmail.com (авторът
>>> на „БГ Офис“), за да се координирате с него по отношение на вашите 
>>> приноси
>>> към „БГ Офис“.
>>>
>>> Поздрави,
>>> Sah War (sahwar)
>>>
>>> На 29 март 2015 г., 12:15, Стоян Димитров <stoyan at gmx.com> написа:
>>>
>>>>       Здравейте,
>>>>      интересува ме някой от вас знае ли дали в момента се извършва 
>>>> дейност
>>>> по осъвременяването на модула за проверка на правописа в БГ Офис [1]
>>>> по-скоро списъка с думи (вероятно се нарича „речник“). След 
>>>> предварителен
>>>> преглед на базата данни [2] от речника [3] мисля, че списъкът с думи,
>>>> включени в БГ Офис, може да бъде осъвременен и поддържан във форма
>>>> сравнително лесно. Като допълнителен бонус процесът на обновяване 
>>>> може да
>>>> бъде автоматизиран. Не е съм съвсем сигурен, но вероятно всички модули
>>>> (напр. сричкопренасянето) и за всички продукти (OpenOffice, 
>>>> Mozilla) ще
>>>> имат полза от това.
>>>>      Започнал съм работа по файла .aff, което да послужи като 
>>>> шаблон за
>>>> генерирането на допълнен речник за проверка на правописа, та идеята 
>>>> ми е да
>>>> не се настъпим с някого.
>>>>
>>>> П.П.
>>>> Разборът, който е направен на изходния материал, за да бъде реализиран
>>>> [3] е страхотна основа за надграждане и незная как е останал 
>>>> незабелязан до
>>>> момента. Поздравления за автора!
>>>>
>>>> __
>>>> [1] - http://bgoffice.sf.net
>>>> [2] - http://rechnik.chitanka.info/db.sql.gz
>>>> [3] - http://rechnik.chitanka.info
>>>>
>>>> -- 
>>>> С
>>>>
>>>>
>>>> _______________________________________________
>>>> Dict mailing list
>>>> Dict at ludost.net
>>>> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
>>>>
>>>>
>>> _______________________________________________
>>> Dict mailing list
>>> Dict at ludost.net
>>> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
>>>
>>>
>>>
>>>
>>> _______________________________________________
>>> Dict mailing list
>>> Dict at ludost.net
>>> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
>
>
>
> _______________________________________________
> Dict mailing list
> Dict at ludost.net
> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict

-- 
С

-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.ludost.net/pipermail/dict/attachments/20150330/120eb3e1/attachment-0001.html>


More information about the Dict mailing list