<html>
  <head>
    <meta content="text/html; charset=UTF-8" http-equiv="Content-Type">
  </head>
  <body bgcolor="#FFFFFF" text="#000000">
        Здравейте, господин Раднев,<br>
        Радвам се, че се включвате в дискусията. Моите почитания към
    работата ви.<br>
    <br>
    <div class="moz-cite-prefix">На 29.03.2015 г. в 18:57, Radostin
      Radnev написа:<br>
    </div>
    <blockquote
cite="mid:CALC7OmZvBenOf5yP-LqChJrKQix41qhWBnSriZVrNd_nc-EuxA@mail.gmail.com"
      type="cite">
      <pre wrap="">Здравейте,

Да се включа и аз, поне да кажа как работят нещата в
<a class="moz-txt-link-freetext" href="http://bgoffice.sourceforge.net/">http://bgoffice.sourceforge.net/</a>

С .aff нямате работа - той се генерира автоматично. Неговата цел е да
постигне някаква компресия и нищо повече. Примерно, в aspell няма афикс
файл, всяка дума е на нов ред и има около 800 000 словоформи. За Firefox и
другите дето ползват aff файл също може да се наблъскат в един файл и да
има празен .aff файл.</pre>
    </blockquote>
    Няма да се съглася с вас. Освен SFX във файла .aff има други секции,
    които също могат да бъдат полезни. Например, на пръв поглед, KEY и
    REP. Да, те нямат стойността на останалата част, но спомагат.<br>
    <blockquote
cite="mid:CALC7OmZvBenOf5yP-LqChJrKQix41qhWBnSriZVrNd_nc-EuxA@mail.gmail.com"
      type="cite">
      <pre wrap="">Така че не правете модификации във файл, който се генерира автоматично.

Ако искате да добавяте нови думи, просто определяте типа на думата и я
вкарвате в съответния файл - bg001.dat, bg002.dat, 03, ....

След това пускате скриптовете за проверка и билдване на речниците и нещата
трябва да проработят.

Има някакви помощни скриптове за определяне типа на думата, но те дават
предложения, после ръчно трябва да определите в кой файл да отиде новата
дума.

Firefox, а и всички останали програми за проверка на правописа (поне
чуждите) разглеждат думата сама за себе си - няма как да знаят че дрони
(или дронове) е множествено число на дрон. Така че като добавите дрон, ще
познава само дрон - дрони, дрона, дронът, дроните - няма да ги познава.
Става въпрос за потребителските речници.


Поздрави,
Радостин Раднев



2015-03-29 17:44 GMT+03:00 Sah War <a class="moz-txt-link-rfc2396E" href="mailto:ve4ernik@gmail.com"><ve4ernik@gmail.com></a>:

</pre>
      <blockquote type="cite">
        <pre wrap="">Здравейте, г-н Димитров!

Предварително се извинявам за дългото писмо. :D

За съжаление, в речника на „Читанка“ има доста грешки и неточности и не е
проверен дали е точен по отношение на правописа с последния официален
правописен речник на БАН от 2012 г. (в който на места същ има грешки...),
поради което базата от данни на речника на „Читанка“ не е много надеждна за
целите на добавянето ѝ към spellchecker-а на „БГ Офис“ (т.е. първо трябва
изцяло да се свери с речника на БАН, което е адски трудоемко...). Освен
това на места липсват дублети.

Това е забелязано отдавна, поради което и не е пристъпено към използването
на тази база от данни в „БГ Офис“.

Но въпреки това има начини, по който можете да ни помогнете за
spellchecker-а:

1. Ако знаете как, ще се радвам да създадете .txt вариант на db.sql.gz
(все пак това е SQL база от данни...), даже е добре този вариант да се
раздели на няколко отделни .txt файла, защото иначе ще е мъка да се
редактира с текстов редактор.

2. Набираме желаещи да направят OCR и последваща ръчна проверка и корекция
на речника на БАН от 2012 г. (чрез ползване на най-новата версия на ABBYY
FineReader):


<a class="moz-txt-link-freetext" href="http://www.mediafire.com/view/7tncj767aau69d3/OPRBE-2012_full_2pagesperpage.pdf">http://www.mediafire.com/view/7tncj767aau69d3/OPRBE-2012_full_2pagesperpage.pdf</a>

<a class="moz-txt-link-freetext" href="http://www.mediafire.com/download/tpgax3g7o36k4oy/OPRBE-2012_full_2pagesperpage_lossy-djvu.djvu">http://www.mediafire.com/download/tpgax3g7o36k4oy/OPRBE-2012_full_2pagesperpage_lossy-djvu.djvu</a>

Има обаче една тънкост при корекцията — поради известни недостатъци на
ABBYY FineReader, програмата не може правилно да разчете знаците за
ударение на думите и обикновено дава резултат без тях, което означава, че
при ръчна корекция трябва да напишете думата 2 пъти: един без ударения и
един път с правилните ударения. Но и при това има затруднение, защото има
няколко (!!!) начина за слагане на ударения — чрез копиране на знак от
Уникод, комбиниран със знака за ударение (май се казваше „гравис“ (тежко
ударение), т.е. U+0300 COMBINING GRAVE ACCENT,
<a class="moz-txt-link-freetext" href="http://en.wikipedia.org/wiki/Combining_character">http://en.wikipedia.org/wiki/Combining_character</a>), чрез знак и сложено
след него ударение (което незнайно защо се показва като един знак
впоследствие), или чрез използване на т.нар. precomposed characters
<a class="moz-txt-link-rfc2396E" href="http://en.wikipedia.org/wiki/Precomposed_character"><http://en.wikipedia.org/wiki/Precomposed_character></a> (като „ѝ“).

При корекцията на един друг речник в „Читанка“ са решили да ползват втория
вариант (пример за слети знаци: байга̀ньо; пример за начина, използван в
сканирания речник Мурдаров в „Читанка“: байга`ньо), от следната страница
можеш да видиш как изглежда правописът във варианта, използван в „Читанка“:
<a class="moz-txt-link-freetext" href="http://wiki.workroom.chitanka.info/Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41">http://wiki.workroom.chitanka.info/Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41</a>
(но за да видиш реалното положение на нещата е нужно да влезеш в профила си
в „Читанка“ и да отидеш например на
<a class="moz-txt-link-freetext" href="http://wiki.workroom.chitanka.info/index.php?title=Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41&action=edit">http://wiki.workroom.chitanka.info/index.php?title=Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41&action=edit</a>),
техният вариант е споменатия нагоре „байга`ньо“, а не „байга̀ньо“ (възможно
е да не ти се показва правилно, ако не ползваш подходящ шрифт...).

За мен техният вариант не е особено удачен, защото например при търсене с
Ctrl+F за низа „байганьо“ чрез браузър (давам пример с последната версия на
Opera), излиза правилно открояване на резултата „байга̀ньо“ дори при
търсене за „байганьо“ (т.е. без ударението), докато за откриване на
„байга`ньо“ трябва да добавиш по някакъв друг начин знака „гравис“, което
много усложнява нещата и е адски неудобно! Т.е. трябва да се избере и
правилният вариант за слагане на ударенията на 2-рото копие на дадена дума
от речника. Обяснението на „Читанка“ е „За ударение използвайте символа „`“
(обикновено е на един и същи клавиш с „~“, вляво от „1“), като го поставите
след ударената гласна, например „АСТРОНА`ВТ“.“... Мъка... Всичко това
слагане на ударения, за съжаление, става само ръчно и затова ще отнеме
адски много време... :\

Колкото до сричкопренасянето — то е трудно и за да е точно (а не просто
генерирано по алгоритъм, който често дава напълно грешни варианти за
сричкопренасяне), то трябва да се направи като ръчно написан списък със
сричките на думите. Алгоритмите не могат да автоматизират напълно този
процес, дори и при английския език (чието сричкопренасяне също е трудно и
не е напълно точно, ако е генерирано чрез алгоритъм — даже специалистите
препоръчват да се ползва речник за сверяване на сричкопренасянето и не се
изисква да се помни то наизуст). Сричкопренасянето на български думи в
LaTeX също е незадоволително, не са само Firefox,
OpenOffice.org/LibreOffice и Thunderbird... За щастие, в днешно време почти
не се използва сричкопренасяне (освен при печатни книги), което намалява
тежестта на този проблем.



Лошо е, че bg.aff от „БГ Офис“ ползва windows-1251... Доколкото знам,
файлът .aff е само за афиксите, даже е само май за окончанията и
определителните членове (не включва представки и наставки).

Файлът за сричкопренасянето май е hyph_bg_BG.dic, но и то за жалост е с
кодировка windows-1251. Пък и явно не е съвсем пълен, защото Firefox
подчертава като грешни много правилно написани думи, ако сте поставили
окончание и/или окончание и определителен член (това важи особено много за
добавени от потребителя думи (т.е. чрез използването на селекция на думата,
дясно щракване върху нея и Add to dictionary във Firefox!). Разбира се,
това е поправимо, пък и колосалният труд зад „БГ Офис“ значително улеснява
подобряването на самите файлове на „БГ Офис“. Пък и понякога е възможно,
ако ползваш грешен афикс към дума (например окончание и определителен член
за м. р., ед. ч. при дума от ж. р., ед. ч.), програмата да не ти подчертае
грешката (макар че това се случва изключително рядко).

Друг е въпросът, че от езикова гледна точка има колебания в употребата на
окончанието (т.е. на рода и най-вече на мн. ч.) на новонавлезлите в езика
ни заемки от други езици — например „дронове“ или „дрони“, което няма как
да бъде нормирано чрез spellchecker-а на „БГ Офис“, защото още не се е
стигнало до консенсус по въпроса коя от формите е по-правилната...

П.П. Най-лесно е да добавим нови думи към bg.dic. Въпросът е, че те трябва
да се сверят с официалния речник (и да се има предвид, че и в него има
грешки на места...) и едва тогава да се добавят към bg.dic. Иначе няма
смисъл от тези промени по речниковата база на spellchecker-а.

Ентусиазмът ви обаче е похвален, ако по-нататък имате достатъчно свободно
време и имате желание да допринесете за развитието на един нов свободен
речник, който надгражда този на „Читанка“, можете да се включите в екипа на
нашия речник „Словник“, който се разработва от известно време, но който
няма да бъде пуснат в скоро време: <a class="moz-txt-link-freetext" href="http://slovnik.bulogos.info">http://slovnik.bulogos.info</a>.

Разбира се, препоръчвам ви да се свържете и с <a class="moz-txt-link-abbreviated" href="mailto:radnev@gmail.com">radnev@gmail.com</a> (авторът
на „БГ Офис“), за да се координирате с него по отношение на вашите приноси
към „БГ Офис“.

Поздрави,
Sah War (sahwar)

На 29 март 2015 г., 12:15, Стоян Димитров <a class="moz-txt-link-rfc2396E" href="mailto:stoyan@gmx.com"><stoyan@gmx.com></a> написа:

</pre>
        <blockquote type="cite">
          <pre wrap="">     Здравейте,
    интересува ме някой от вас знае ли дали в момента се извършва дейност
по осъвременяването на модула за проверка на правописа в БГ Офис [1]
по-скоро списъка с думи (вероятно се нарича „речник“). След предварителен
преглед на базата данни [2] от речника [3] мисля, че списъкът с думи,
включени в БГ Офис, може да бъде осъвременен и поддържан във форма
сравнително лесно. Като допълнителен бонус процесът на обновяване може да
бъде автоматизиран. Не е съм съвсем сигурен, но вероятно всички модули
(напр. сричкопренасянето) и за всички продукти (OpenOffice, Mozilla) ще
имат полза от това.
    Започнал съм работа по файла .aff, което да послужи като шаблон за
генерирането на допълнен речник за проверка на правописа, та идеята ми е да
не се настъпим с някого.

П.П.
Разборът, който е направен на изходния материал, за да бъде реализиран
[3] е страхотна основа за надграждане и незная как е останал незабелязан до
момента. Поздравления за автора!

__
[1] - <a class="moz-txt-link-freetext" href="http://bgoffice.sf.net">http://bgoffice.sf.net</a>
[2] - <a class="moz-txt-link-freetext" href="http://rechnik.chitanka.info/db.sql.gz">http://rechnik.chitanka.info/db.sql.gz</a>
[3] - <a class="moz-txt-link-freetext" href="http://rechnik.chitanka.info">http://rechnik.chitanka.info</a>

--
С


_______________________________________________
Dict mailing list
<a class="moz-txt-link-abbreviated" href="mailto:Dict@ludost.net">Dict@ludost.net</a>
<a class="moz-txt-link-freetext" href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a>


</pre>
        </blockquote>
        <pre wrap="">
_______________________________________________
Dict mailing list
<a class="moz-txt-link-abbreviated" href="mailto:Dict@ludost.net">Dict@ludost.net</a>
<a class="moz-txt-link-freetext" href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a>


</pre>
        <br>
        <fieldset class="mimeAttachmentHeader"></fieldset>
        <br>
        <pre wrap="">_______________________________________________
Dict mailing list
<a class="moz-txt-link-abbreviated" href="mailto:Dict@ludost.net">Dict@ludost.net</a>
<a class="moz-txt-link-freetext" href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a>
</pre>
      </blockquote>
    </blockquote>
    <br>
    <pre class="moz-signature" cols="72">-- 
С</pre>
  </body>
</html>