[Dict] БГ Офис модул за проверка на правопис
Стоян Димитров
stoyan at gmx.com
Mon Mar 30 10:15:28 EEST 2015
Здравейте, господин Раднев,
Радвам се, че се включвате в дискусията. Моите почитания към
работата ви.
На 29.03.2015 г. в 18:57, Radostin Radnev написа:
> Здравейте,
>
> Да се включа и аз, поне да кажа как работят нещата в
> http://bgoffice.sourceforge.net/
>
> С .aff нямате работа - той се генерира автоматично. Неговата цел е да
> постигне някаква компресия и нищо повече. Примерно, в aspell няма афикс
> файл, всяка дума е на нов ред и има около 800 000 словоформи. За Firefox и
> другите дето ползват aff файл също може да се наблъскат в един файл и да
> има празен .aff файл.
Няма да се съглася с вас. Освен SFX във файла .aff има други секции,
които също могат да бъдат полезни. Например, на пръв поглед, KEY и REP.
Да, те нямат стойността на останалата част, но спомагат.
> Така че не правете модификации във файл, който се генерира автоматично.
>
> Ако искате да добавяте нови думи, просто определяте типа на думата и я
> вкарвате в съответния файл - bg001.dat, bg002.dat, 03, ....
>
> След това пускате скриптовете за проверка и билдване на речниците и нещата
> трябва да проработят.
>
> Има някакви помощни скриптове за определяне типа на думата, но те дават
> предложения, после ръчно трябва да определите в кой файл да отиде новата
> дума.
>
> Firefox, а и всички останали програми за проверка на правописа (поне
> чуждите) разглеждат думата сама за себе си - няма как да знаят че дрони
> (или дронове) е множествено число на дрон. Така че като добавите дрон, ще
> познава само дрон - дрони, дрона, дронът, дроните - няма да ги познава.
> Става въпрос за потребителските речници.
>
>
> Поздрави,
> Радостин Раднев
>
>
>
> 2015-03-29 17:44 GMT+03:00 Sah War <ve4ernik at gmail.com>:
>
>> Здравейте, г-н Димитров!
>>
>> Предварително се извинявам за дългото писмо. :D
>>
>> За съжаление, в речника на „Читанка“ има доста грешки и неточности и не е
>> проверен дали е точен по отношение на правописа с последния официален
>> правописен речник на БАН от 2012 г. (в който на места същ има грешки...),
>> поради което базата от данни на речника на „Читанка“ не е много надеждна за
>> целите на добавянето ѝ към spellchecker-а на „БГ Офис“ (т.е. първо трябва
>> изцяло да се свери с речника на БАН, което е адски трудоемко...). Освен
>> това на места липсват дублети.
>>
>> Това е забелязано отдавна, поради което и не е пристъпено към използването
>> на тази база от данни в „БГ Офис“.
>>
>> Но въпреки това има начини, по който можете да ни помогнете за
>> spellchecker-а:
>>
>> 1. Ако знаете как, ще се радвам да създадете .txt вариант на db.sql.gz
>> (все пак това е SQL база от данни...), даже е добре този вариант да се
>> раздели на няколко отделни .txt файла, защото иначе ще е мъка да се
>> редактира с текстов редактор.
>>
>> 2. Набираме желаещи да направят OCR и последваща ръчна проверка и корекция
>> на речника на БАН от 2012 г. (чрез ползване на най-новата версия на ABBYY
>> FineReader):
>>
>>
>> http://www.mediafire.com/view/7tncj767aau69d3/OPRBE-2012_full_2pagesperpage.pdf
>>
>> http://www.mediafire.com/download/tpgax3g7o36k4oy/OPRBE-2012_full_2pagesperpage_lossy-djvu.djvu
>>
>> Има обаче една тънкост при корекцията — поради известни недостатъци на
>> ABBYY FineReader, програмата не може правилно да разчете знаците за
>> ударение на думите и обикновено дава резултат без тях, което означава, че
>> при ръчна корекция трябва да напишете думата 2 пъти: един без ударения и
>> един път с правилните ударения. Но и при това има затруднение, защото има
>> няколко (!!!) начина за слагане на ударения — чрез копиране на знак от
>> Уникод, комбиниран със знака за ударение (май се казваше „гравис“ (тежко
>> ударение), т.е. U+0300 COMBINING GRAVE ACCENT,
>> http://en.wikipedia.org/wiki/Combining_character), чрез знак и сложено
>> след него ударение (което незнайно защо се показва като един знак
>> впоследствие), или чрез използване на т.нар. precomposed characters
>> <http://en.wikipedia.org/wiki/Precomposed_character> (като „ѝ“).
>>
>> При корекцията на един друг речник в „Читанка“ са решили да ползват втория
>> вариант (пример за слети знаци: байга̀ньо; пример за начина, използван в
>> сканирания речник Мурдаров в „Читанка“: байга`ньо), от следната страница
>> можеш да видиш как изглежда правописът във варианта, използван в „Читанка“:
>> http://wiki.workroom.chitanka.info/Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41
>> (но за да видиш реалното положение на нещата е нужно да влезеш в профила си
>> в „Читанка“ и да отидеш например на
>> http://wiki.workroom.chitanka.info/index.php?title=Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41&action=edit),
>> техният вариант е споменатия нагоре „байга`ньо“, а не „байга̀ньо“ (възможно
>> е да не ти се показва правилно, ако не ползваш подходящ шрифт...).
>>
>> За мен техният вариант не е особено удачен, защото например при търсене с
>> Ctrl+F за низа „байганьо“ чрез браузър (давам пример с последната версия на
>> Opera), излиза правилно открояване на резултата „байга̀ньо“ дори при
>> търсене за „байганьо“ (т.е. без ударението), докато за откриване на
>> „байга`ньо“ трябва да добавиш по някакъв друг начин знака „гравис“, което
>> много усложнява нещата и е адски неудобно! Т.е. трябва да се избере и
>> правилният вариант за слагане на ударенията на 2-рото копие на дадена дума
>> от речника. Обяснението на „Читанка“ е „За ударение използвайте символа „`“
>> (обикновено е на един и същи клавиш с „~“, вляво от „1“), като го поставите
>> след ударената гласна, например „АСТРОНА`ВТ“.“... Мъка... Всичко това
>> слагане на ударения, за съжаление, става само ръчно и затова ще отнеме
>> адски много време... :\
>>
>> Колкото до сричкопренасянето — то е трудно и за да е точно (а не просто
>> генерирано по алгоритъм, който често дава напълно грешни варианти за
>> сричкопренасяне), то трябва да се направи като ръчно написан списък със
>> сричките на думите. Алгоритмите не могат да автоматизират напълно този
>> процес, дори и при английския език (чието сричкопренасяне също е трудно и
>> не е напълно точно, ако е генерирано чрез алгоритъм — даже специалистите
>> препоръчват да се ползва речник за сверяване на сричкопренасянето и не се
>> изисква да се помни то наизуст). Сричкопренасянето на български думи в
>> LaTeX също е незадоволително, не са само Firefox,
>> OpenOffice.org/LibreOffice и Thunderbird... За щастие, в днешно време почти
>> не се използва сричкопренасяне (освен при печатни книги), което намалява
>> тежестта на този проблем.
>>
>>
>>
>> Лошо е, че bg.aff от „БГ Офис“ ползва windows-1251... Доколкото знам,
>> файлът .aff е само за афиксите, даже е само май за окончанията и
>> определителните членове (не включва представки и наставки).
>>
>> Файлът за сричкопренасянето май е hyph_bg_BG.dic, но и то за жалост е с
>> кодировка windows-1251. Пък и явно не е съвсем пълен, защото Firefox
>> подчертава като грешни много правилно написани думи, ако сте поставили
>> окончание и/или окончание и определителен член (това важи особено много за
>> добавени от потребителя думи (т.е. чрез използването на селекция на думата,
>> дясно щракване върху нея и Add to dictionary във Firefox!). Разбира се,
>> това е поправимо, пък и колосалният труд зад „БГ Офис“ значително улеснява
>> подобряването на самите файлове на „БГ Офис“. Пък и понякога е възможно,
>> ако ползваш грешен афикс към дума (например окончание и определителен член
>> за м. р., ед. ч. при дума от ж. р., ед. ч.), програмата да не ти подчертае
>> грешката (макар че това се случва изключително рядко).
>>
>> Друг е въпросът, че от езикова гледна точка има колебания в употребата на
>> окончанието (т.е. на рода и най-вече на мн. ч.) на новонавлезлите в езика
>> ни заемки от други езици — например „дронове“ или „дрони“, което няма как
>> да бъде нормирано чрез spellchecker-а на „БГ Офис“, защото още не се е
>> стигнало до консенсус по въпроса коя от формите е по-правилната...
>>
>> П.П. Най-лесно е да добавим нови думи към bg.dic. Въпросът е, че те трябва
>> да се сверят с официалния речник (и да се има предвид, че и в него има
>> грешки на места...) и едва тогава да се добавят към bg.dic. Иначе няма
>> смисъл от тези промени по речниковата база на spellchecker-а.
>>
>> Ентусиазмът ви обаче е похвален, ако по-нататък имате достатъчно свободно
>> време и имате желание да допринесете за развитието на един нов свободен
>> речник, който надгражда този на „Читанка“, можете да се включите в екипа на
>> нашия речник „Словник“, който се разработва от известно време, но който
>> няма да бъде пуснат в скоро време: http://slovnik.bulogos.info.
>>
>> Разбира се, препоръчвам ви да се свържете и с radnev at gmail.com (авторът
>> на „БГ Офис“), за да се координирате с него по отношение на вашите приноси
>> към „БГ Офис“.
>>
>> Поздрави,
>> Sah War (sahwar)
>>
>> На 29 март 2015 г., 12:15, Стоян Димитров <stoyan at gmx.com> написа:
>>
>>> Здравейте,
>>> интересува ме някой от вас знае ли дали в момента се извършва дейност
>>> по осъвременяването на модула за проверка на правописа в БГ Офис [1]
>>> по-скоро списъка с думи (вероятно се нарича „речник“). След предварителен
>>> преглед на базата данни [2] от речника [3] мисля, че списъкът с думи,
>>> включени в БГ Офис, може да бъде осъвременен и поддържан във форма
>>> сравнително лесно. Като допълнителен бонус процесът на обновяване може да
>>> бъде автоматизиран. Не е съм съвсем сигурен, но вероятно всички модули
>>> (напр. сричкопренасянето) и за всички продукти (OpenOffice, Mozilla) ще
>>> имат полза от това.
>>> Започнал съм работа по файла .aff, което да послужи като шаблон за
>>> генерирането на допълнен речник за проверка на правописа, та идеята ми е да
>>> не се настъпим с някого.
>>>
>>> П.П.
>>> Разборът, който е направен на изходния материал, за да бъде реализиран
>>> [3] е страхотна основа за надграждане и незная как е останал незабелязан до
>>> момента. Поздравления за автора!
>>>
>>> __
>>> [1] - http://bgoffice.sf.net
>>> [2] - http://rechnik.chitanka.info/db.sql.gz
>>> [3] - http://rechnik.chitanka.info
>>>
>>> --
>>> С
>>>
>>>
>>> _______________________________________________
>>> Dict mailing list
>>> Dict at ludost.net
>>> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
>>>
>>>
>> _______________________________________________
>> Dict mailing list
>> Dict at ludost.net
>> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
>>
>>
>>
>>
>> _______________________________________________
>> Dict mailing list
>> Dict at ludost.net
>> http://lists.ludost.net/cgi-bin/mailman/listinfo/dict
--
С
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.ludost.net/pipermail/dict/attachments/20150330/d2f6d61b/attachment-0001.html>
More information about the Dict
mailing list