<html>
<head>
<meta content="text/html; charset=UTF-8" http-equiv="Content-Type">
</head>
<body bgcolor="#FFFFFF" text="#000000">
<font face="Fira Sans">Но, да, в светлината на проекта редактирането
на .aff файловете е безсмислено.</font><br>
<br>
<div class="moz-cite-prefix">На 30.03.2015 г. в 10:15, Стоян
Димитров написа:<br>
</div>
<blockquote cite="mid:5518F810.2070605@gmx.com" type="cite">
Здравейте, господин Раднев,
<br>
Радвам се, че се включвате в дискусията. Моите почитания към
работата ви.
<br>
<br>
На 29.03.2015 г. в 18:57, Radostin Radnev написа:
<br>
<blockquote type="cite">Здравейте,
<br>
<br>
Да се включа и аз, поне да кажа как работят нещата в
<br>
<a class="moz-txt-link-freetext" href="http://bgoffice.sourceforge.net/">http://bgoffice.sourceforge.net/</a>
<br>
<br>
С .aff нямате работа - той се генерира автоматично. Неговата цел
е да
<br>
постигне някаква компресия и нищо повече. Примерно, в aspell
няма афикс
<br>
файл, всяка дума е на нов ред и има около 800 000 словоформи. За
Firefox и
<br>
другите дето ползват aff файл също може да се наблъскат в един
файл и да
<br>
има празен .aff файл.
<br>
</blockquote>
Няма да се съглася с вас. Освен SFX във файла .aff има други
секции, които също могат да бъдат полезни. Например, на пръв
поглед, KEY и REP. Да, те нямат стойността на останалата част, но
спомагат.
<br>
<blockquote type="cite">Така че не правете модификации във файл,
който се генерира автоматично.
<br>
<br>
Ако искате да добавяте нови думи, просто определяте типа на
думата и я
<br>
вкарвате в съответния файл - bg001.dat, bg002.dat, 03, ....
<br>
<br>
След това пускате скриптовете за проверка и билдване на
речниците и нещата
<br>
трябва да проработят.
<br>
<br>
Има някакви помощни скриптове за определяне типа на думата, но
те дават
<br>
предложения, после ръчно трябва да определите в кой файл да
отиде новата
<br>
дума.
<br>
<br>
Firefox, а и всички останали програми за проверка на правописа
(поне
<br>
чуждите) разглеждат думата сама за себе си - няма как да знаят
че дрони
<br>
(или дронове) е множествено число на дрон. Така че като добавите
дрон, ще
<br>
познава само дрон - дрони, дрона, дронът, дроните - няма да ги
познава.
<br>
Става въпрос за потребителските речници.
<br>
<br>
<br>
Поздрави,
<br>
Радостин Раднев
<br>
<br>
<br>
<br>
2015-03-29 17:44 GMT+03:00 Sah War <a class="moz-txt-link-rfc2396E" href="mailto:ve4ernik@gmail.com"><ve4ernik@gmail.com></a>:
<br>
<br>
<blockquote type="cite">Здравейте, г-н Димитров!
<br>
<br>
Предварително се извинявам за дългото писмо. :D
<br>
<br>
За съжаление, в речника на „Читанка“ има доста грешки и
неточности и не е
<br>
проверен дали е точен по отношение на правописа с последния
официален
<br>
правописен речник на БАН от 2012 г. (в който на места същ има
грешки...),
<br>
поради което базата от данни на речника на „Читанка“ не е
много надеждна за
<br>
целите на добавянето ѝ към spellchecker-а на „БГ Офис“ (т.е.
първо трябва
<br>
изцяло да се свери с речника на БАН, което е адски
трудоемко...). Освен
<br>
това на места липсват дублети.
<br>
<br>
Това е забелязано отдавна, поради което и не е пристъпено към
използването
<br>
на тази база от данни в „БГ Офис“.
<br>
<br>
Но въпреки това има начини, по който можете да ни помогнете за
<br>
spellchecker-а:
<br>
<br>
1. Ако знаете как, ще се радвам да създадете .txt вариант на
db.sql.gz
<br>
(все пак това е SQL база от данни...), даже е добре този
вариант да се
<br>
раздели на няколко отделни .txt файла, защото иначе ще е мъка
да се
<br>
редактира с текстов редактор.
<br>
<br>
2. Набираме желаещи да направят OCR и последваща ръчна
проверка и корекция
<br>
на речника на БАН от 2012 г. (чрез ползване на най-новата
версия на ABBYY
<br>
FineReader):
<br>
<br>
<br>
<a class="moz-txt-link-freetext" href="http://www.mediafire.com/view/7tncj767aau69d3/OPRBE-2012_full_2pagesperpage.pdf">http://www.mediafire.com/view/7tncj767aau69d3/OPRBE-2012_full_2pagesperpage.pdf</a>
<br>
<br>
<a class="moz-txt-link-freetext" href="http://www.mediafire.com/download/tpgax3g7o36k4oy/OPRBE-2012_full_2pagesperpage_lossy-djvu.djvu">http://www.mediafire.com/download/tpgax3g7o36k4oy/OPRBE-2012_full_2pagesperpage_lossy-djvu.djvu</a>
<br>
<br>
Има обаче една тънкост при корекцията — поради известни
недостатъци на
<br>
ABBYY FineReader, програмата не може правилно да разчете
знаците за
<br>
ударение на думите и обикновено дава резултат без тях, което
означава, че
<br>
при ръчна корекция трябва да напишете думата 2 пъти: един без
ударения и
<br>
един път с правилните ударения. Но и при това има затруднение,
защото има
<br>
няколко (!!!) начина за слагане на ударения — чрез копиране на
знак от
<br>
Уникод, комбиниран със знака за ударение (май се казваше
„гравис“ (тежко
<br>
ударение), т.е. U+0300 COMBINING GRAVE ACCENT,
<br>
<a class="moz-txt-link-freetext" href="http://en.wikipedia.org/wiki/Combining_character">http://en.wikipedia.org/wiki/Combining_character</a>), чрез знак и
сложено
<br>
след него ударение (което незнайно защо се показва като един
знак
<br>
впоследствие), или чрез използване на т.нар. precomposed
characters
<br>
<a class="moz-txt-link-rfc2396E" href="http://en.wikipedia.org/wiki/Precomposed_character"><http://en.wikipedia.org/wiki/Precomposed_character></a>
(като „ѝ“).
<br>
<br>
При корекцията на един друг речник в „Читанка“ са решили да
ползват втория
<br>
вариант (пример за слети знаци: байга̀ньо; пример за начина,
използван в
<br>
сканирания речник Мурдаров в „Читанка“: байга`ньо), от
следната страница
<br>
можеш да видиш как изглежда правописът във варианта, използван
в „Читанка“:
<br>
<a class="moz-txt-link-freetext" href="http://wiki.workroom.chitanka.info/Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41">http://wiki.workroom.chitanka.info/Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41</a>
<br>
(но за да видиш реалното положение на нещата е нужно да влезеш
в профила си
<br>
в „Читанка“ и да отидеш например на
<br>
<a class="moz-txt-link-freetext" href="http://wiki.workroom.chitanka.info/index.php?title=Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41&action=edit">http://wiki.workroom.chitanka.info/index.php?title=Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41&action=edit</a>),
<br>
техният вариант е споменатия нагоре „байга`ньо“, а не
„байга̀ньо“ (възможно
<br>
е да не ти се показва правилно, ако не ползваш подходящ
шрифт...).
<br>
<br>
За мен техният вариант не е особено удачен, защото например
при търсене с
<br>
Ctrl+F за низа „байганьо“ чрез браузър (давам пример с
последната версия на
<br>
Opera), излиза правилно открояване на резултата „байга̀ньо“
дори при
<br>
търсене за „байганьо“ (т.е. без ударението), докато за
откриване на
<br>
„байга`ньо“ трябва да добавиш по някакъв друг начин знака
„гравис“, което
<br>
много усложнява нещата и е адски неудобно! Т.е. трябва да се
избере и
<br>
правилният вариант за слагане на ударенията на 2-рото копие на
дадена дума
<br>
от речника. Обяснението на „Читанка“ е „За ударение
използвайте символа „`“
<br>
(обикновено е на един и същи клавиш с „~“, вляво от „1“), като
го поставите
<br>
след ударената гласна, например „АСТРОНА`ВТ“.“... Мъка...
Всичко това
<br>
слагане на ударения, за съжаление, става само ръчно и затова
ще отнеме
<br>
адски много време... :\
<br>
<br>
Колкото до сричкопренасянето — то е трудно и за да е точно (а
не просто
<br>
генерирано по алгоритъм, който често дава напълно грешни
варианти за
<br>
сричкопренасяне), то трябва да се направи като ръчно написан
списък със
<br>
сричките на думите. Алгоритмите не могат да автоматизират
напълно този
<br>
процес, дори и при английския език (чието сричкопренасяне също
е трудно и
<br>
не е напълно точно, ако е генерирано чрез алгоритъм — даже
специалистите
<br>
препоръчват да се ползва речник за сверяване на
сричкопренасянето и не се
<br>
изисква да се помни то наизуст). Сричкопренасянето на
български думи в
<br>
LaTeX също е незадоволително, не са само Firefox,
<br>
OpenOffice.org/LibreOffice и Thunderbird... За щастие, в
днешно време почти
<br>
не се използва сричкопренасяне (освен при печатни книги),
което намалява
<br>
тежестта на този проблем.
<br>
<br>
<br>
<br>
Лошо е, че bg.aff от „БГ Офис“ ползва windows-1251...
Доколкото знам,
<br>
файлът .aff е само за афиксите, даже е само май за окончанията
и
<br>
определителните членове (не включва представки и наставки).
<br>
<br>
Файлът за сричкопренасянето май е hyph_bg_BG.dic, но и то за
жалост е с
<br>
кодировка windows-1251. Пък и явно не е съвсем пълен, защото
Firefox
<br>
подчертава като грешни много правилно написани думи, ако сте
поставили
<br>
окончание и/или окончание и определителен член (това важи
особено много за
<br>
добавени от потребителя думи (т.е. чрез използването на
селекция на думата,
<br>
дясно щракване върху нея и Add to dictionary във Firefox!).
Разбира се,
<br>
това е поправимо, пък и колосалният труд зад „БГ Офис“
значително улеснява
<br>
подобряването на самите файлове на „БГ Офис“. Пък и понякога е
възможно,
<br>
ако ползваш грешен афикс към дума (например окончание и
определителен член
<br>
за м. р., ед. ч. при дума от ж. р., ед. ч.), програмата да не
ти подчертае
<br>
грешката (макар че това се случва изключително рядко).
<br>
<br>
Друг е въпросът, че от езикова гледна точка има колебания в
употребата на
<br>
окончанието (т.е. на рода и най-вече на мн. ч.) на
новонавлезлите в езика
<br>
ни заемки от други езици — например „дронове“ или „дрони“,
което няма как
<br>
да бъде нормирано чрез spellchecker-а на „БГ Офис“, защото още
не се е
<br>
стигнало до консенсус по въпроса коя от формите е
по-правилната...
<br>
<br>
П.П. Най-лесно е да добавим нови думи към bg.dic. Въпросът е,
че те трябва
<br>
да се сверят с официалния речник (и да се има предвид, че и в
него има
<br>
грешки на места...) и едва тогава да се добавят към bg.dic.
Иначе няма
<br>
смисъл от тези промени по речниковата база на spellchecker-а.
<br>
<br>
Ентусиазмът ви обаче е похвален, ако по-нататък имате
достатъчно свободно
<br>
време и имате желание да допринесете за развитието на един нов
свободен
<br>
речник, който надгражда този на „Читанка“, можете да се
включите в екипа на
<br>
нашия речник „Словник“, който се разработва от известно време,
но който
<br>
няма да бъде пуснат в скоро време:
<a class="moz-txt-link-freetext" href="http://slovnik.bulogos.info">http://slovnik.bulogos.info</a>.
<br>
<br>
Разбира се, препоръчвам ви да се свържете и с <a class="moz-txt-link-abbreviated" href="mailto:radnev@gmail.com">radnev@gmail.com</a>
(авторът
<br>
на „БГ Офис“), за да се координирате с него по отношение на
вашите приноси
<br>
към „БГ Офис“.
<br>
<br>
Поздрави,
<br>
Sah War (sahwar)
<br>
<br>
На 29 март 2015 г., 12:15, Стоян Димитров
<a class="moz-txt-link-rfc2396E" href="mailto:stoyan@gmx.com"><stoyan@gmx.com></a> написа:
<br>
<br>
<blockquote type="cite"> Здравейте,
<br>
интересува ме някой от вас знае ли дали в момента се
извършва дейност
<br>
по осъвременяването на модула за проверка на правописа в БГ
Офис [1]
<br>
по-скоро списъка с думи (вероятно се нарича „речник“). След
предварителен
<br>
преглед на базата данни [2] от речника [3] мисля, че
списъкът с думи,
<br>
включени в БГ Офис, може да бъде осъвременен и поддържан във
форма
<br>
сравнително лесно. Като допълнителен бонус процесът на
обновяване може да
<br>
бъде автоматизиран. Не е съм съвсем сигурен, но вероятно
всички модули
<br>
(напр. сричкопренасянето) и за всички продукти (OpenOffice,
Mozilla) ще
<br>
имат полза от това.
<br>
Започнал съм работа по файла .aff, което да послужи
като шаблон за
<br>
генерирането на допълнен речник за проверка на правописа, та
идеята ми е да
<br>
не се настъпим с някого.
<br>
<br>
П.П.
<br>
Разборът, който е направен на изходния материал, за да бъде
реализиран
<br>
[3] е страхотна основа за надграждане и незная как е останал
незабелязан до
<br>
момента. Поздравления за автора!
<br>
<br>
__
<br>
[1] - <a class="moz-txt-link-freetext" href="http://bgoffice.sf.net">http://bgoffice.sf.net</a>
<br>
[2] - <a class="moz-txt-link-freetext" href="http://rechnik.chitanka.info/db.sql.gz">http://rechnik.chitanka.info/db.sql.gz</a>
<br>
[3] - <a class="moz-txt-link-freetext" href="http://rechnik.chitanka.info">http://rechnik.chitanka.info</a>
<br>
<br>
--
<br>
С
<br>
<br>
<br>
_______________________________________________
<br>
Dict mailing list
<br>
<a class="moz-txt-link-abbreviated" href="mailto:Dict@ludost.net">Dict@ludost.net</a>
<br>
<a class="moz-txt-link-freetext" href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a>
<br>
<br>
<br>
</blockquote>
_______________________________________________
<br>
Dict mailing list
<br>
<a class="moz-txt-link-abbreviated" href="mailto:Dict@ludost.net">Dict@ludost.net</a>
<br>
<a class="moz-txt-link-freetext" href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a>
<br>
<br>
<br>
<br>
<br>
_______________________________________________
<br>
Dict mailing list
<br>
<a class="moz-txt-link-abbreviated" href="mailto:Dict@ludost.net">Dict@ludost.net</a>
<br>
<a class="moz-txt-link-freetext" href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a>
<br>
</blockquote>
</blockquote>
<br>
<br>
<fieldset class="mimeAttachmentHeader"></fieldset>
<br>
<pre wrap="">_______________________________________________
Dict mailing list
<a class="moz-txt-link-abbreviated" href="mailto:Dict@ludost.net">Dict@ludost.net</a>
<a class="moz-txt-link-freetext" href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a>
</pre>
</blockquote>
<br>
<pre class="moz-signature" cols="72">--
С</pre>
</body>
</html>