<html>

  <head>

    <meta content="text/html; charset=UTF-8" http-equiv="Content-Type">

  </head>

  <body bgcolor="#FFFFFF" text="#000000">

    <font face="Fira Sans">Но, да, в светлината на проекта редактирането

      на .aff файловете е безсмислено.</font><br>

    <br>

    <div class="moz-cite-prefix">На 30.03.2015 г. в 10:15, Стоян

      Димитров написа:<br>

    </div>

    <blockquote cite="mid:5518F810.2070605@gmx.com" type="cite">   

      Здравейте, господин Раднев,

      <br>

          Радвам се, че се включвате в дискусията. Моите почитания към

      работата ви.

      <br>

      <br>

      На 29.03.2015 г. в 18:57, Radostin Radnev написа:

      <br>

      <blockquote type="cite">Здравейте,

        <br>

        <br>

        Да се включа и аз, поне да кажа как работят нещата в

        <br>

        <a class="moz-txt-link-freetext" href="http://bgoffice.sourceforge.net/">http://bgoffice.sourceforge.net/</a>

        <br>

        <br>

        С .aff нямате работа - той се генерира автоматично. Неговата цел

        е да

        <br>

        постигне някаква компресия и нищо повече. Примерно, в aspell

        няма афикс

        <br>

        файл, всяка дума е на нов ред и има около 800 000 словоформи. За

        Firefox и

        <br>

        другите дето ползват aff файл също може да се наблъскат в един

        файл и да

        <br>

        има празен .aff файл.

        <br>

      </blockquote>

      Няма да се съглася с вас. Освен SFX във файла .aff има други

      секции, които също могат да бъдат полезни. Например, на пръв

      поглед, KEY и REP. Да, те нямат стойността на останалата част, но

      спомагат.

      <br>

      <blockquote type="cite">Така че не правете модификации във файл,

        който се генерира автоматично.

        <br>

        <br>

        Ако искате да добавяте нови думи, просто определяте типа на

        думата и я

        <br>

        вкарвате в съответния файл - bg001.dat, bg002.dat, 03, ....

        <br>

        <br>

        След това пускате скриптовете за проверка и билдване на

        речниците и нещата

        <br>

        трябва да проработят.

        <br>

        <br>

        Има някакви помощни скриптове за определяне типа на думата, но

        те дават

        <br>

        предложения, после ръчно трябва да определите в кой файл да

        отиде новата

        <br>

        дума.

        <br>

        <br>

        Firefox, а и всички останали програми за проверка на правописа

        (поне

        <br>

        чуждите) разглеждат думата сама за себе си - няма как да знаят

        че дрони

        <br>

        (или дронове) е множествено число на дрон. Така че като добавите

        дрон, ще

        <br>

        познава само дрон - дрони, дрона, дронът, дроните - няма да ги

        познава.

        <br>

        Става въпрос за потребителските речници.

        <br>

        <br>

        <br>

        Поздрави,

        <br>

        Радостин Раднев

        <br>

        <br>

        <br>

        <br>

        2015-03-29 17:44 GMT+03:00 Sah War <a class="moz-txt-link-rfc2396E" href="mailto:ve4ernik@gmail.com"><ve4ernik@gmail.com></a>:

        <br>

        <br>

        <blockquote type="cite">Здравейте, г-н Димитров!

          <br>

          <br>

          Предварително се извинявам за дългото писмо. :D

          <br>

          <br>

          За съжаление, в речника на „Читанка“ има доста грешки и

          неточности и не е

          <br>

          проверен дали е точен по отношение на правописа с последния

          официален

          <br>

          правописен речник на БАН от 2012 г. (в който на места същ има

          грешки...),

          <br>

          поради което базата от данни на речника на „Читанка“ не е

          много надеждна за

          <br>

          целите на добавянето ѝ към spellchecker-а на „БГ Офис“ (т.е.

          първо трябва

          <br>

          изцяло да се свери с речника на БАН, което е адски

          трудоемко...). Освен

          <br>

          това на места липсват дублети.

          <br>

          <br>

          Това е забелязано отдавна, поради което и не е пристъпено към

          използването

          <br>

          на тази база от данни в „БГ Офис“.

          <br>

          <br>

          Но въпреки това има начини, по който можете да ни помогнете за

          <br>

          spellchecker-а:

          <br>

          <br>

          1. Ако знаете как, ще се радвам да създадете .txt вариант на

          db.sql.gz

          <br>

          (все пак това е SQL база от данни...), даже е добре този

          вариант да се

          <br>

          раздели на няколко отделни .txt файла, защото иначе ще е мъка

          да се

          <br>

          редактира с текстов редактор.

          <br>

          <br>

          2. Набираме желаещи да направят OCR и последваща ръчна

          проверка и корекция

          <br>

          на речника на БАН от 2012 г. (чрез ползване на най-новата

          версия на ABBYY

          <br>

          FineReader):

          <br>

          <br>

          <br>

<a class="moz-txt-link-freetext" href="http://www.mediafire.com/view/7tncj767aau69d3/OPRBE-2012_full_2pagesperpage.pdf">http://www.mediafire.com/view/7tncj767aau69d3/OPRBE-2012_full_2pagesperpage.pdf</a>

          <br>

          <br>

<a class="moz-txt-link-freetext" href="http://www.mediafire.com/download/tpgax3g7o36k4oy/OPRBE-2012_full_2pagesperpage_lossy-djvu.djvu">http://www.mediafire.com/download/tpgax3g7o36k4oy/OPRBE-2012_full_2pagesperpage_lossy-djvu.djvu</a>

          <br>

          <br>

          Има обаче една тънкост при корекцията — поради известни

          недостатъци на

          <br>

          ABBYY FineReader, програмата не може правилно да разчете

          знаците за

          <br>

          ударение на думите и обикновено дава резултат без тях, което

          означава, че

          <br>

          при ръчна корекция трябва да напишете думата 2 пъти: един без

          ударения и

          <br>

          един път с правилните ударения. Но и при това има затруднение,

          защото има

          <br>

          няколко (!!!) начина за слагане на ударения — чрез копиране на

          знак от

          <br>

          Уникод, комбиниран със знака за ударение (май се казваше

          „гравис“ (тежко

          <br>

          ударение), т.е. U+0300 COMBINING GRAVE ACCENT,

          <br>

          <a class="moz-txt-link-freetext" href="http://en.wikipedia.org/wiki/Combining_character">http://en.wikipedia.org/wiki/Combining_character</a>), чрез знак и

          сложено

          <br>

          след него ударение (което незнайно защо се показва като един

          знак

          <br>

          впоследствие), или чрез използване на т.нар. precomposed

          characters

          <br>

          <a class="moz-txt-link-rfc2396E" href="http://en.wikipedia.org/wiki/Precomposed_character"><http://en.wikipedia.org/wiki/Precomposed_character></a>

          (като „ѝ“).

          <br>

          <br>

          При корекцията на един друг речник в „Читанка“ са решили да

          ползват втория

          <br>

          вариант (пример за слети знаци: байга̀ньо; пример за начина,

          използван в

          <br>

          сканирания речник Мурдаров в „Читанка“: байга`ньо), от

          следната страница

          <br>

          можеш да видиш как изглежда правописът във варианта, използван

          в „Читанка“:

          <br>

<a class="moz-txt-link-freetext" href="http://wiki.workroom.chitanka.info/Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41">http://wiki.workroom.chitanka.info/Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41</a>

          <br>

          (но за да видиш реалното положение на нещата е нужно да влезеш

          в профила си

          <br>

          в „Читанка“ и да отидеш например на

          <br>

<a class="moz-txt-link-freetext" href="http://wiki.workroom.chitanka.info/index.php?title=Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41&action=edit">http://wiki.workroom.chitanka.info/index.php?title=Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41&action=edit</a>),

          <br>

          техният вариант е споменатия нагоре „байга`ньо“, а не

          „байга̀ньо“ (възможно

          <br>

          е да не ти се показва правилно, ако не ползваш подходящ

          шрифт...).

          <br>

          <br>

          За мен техният вариант не е особено удачен, защото например

          при търсене с

          <br>

          Ctrl+F за низа „байганьо“ чрез браузър (давам пример с

          последната версия на

          <br>

          Opera), излиза правилно открояване на резултата „байга̀ньо“

          дори при

          <br>

          търсене за „байганьо“ (т.е. без ударението), докато за

          откриване на

          <br>

          „байга`ньо“ трябва да добавиш по някакъв друг начин знака

          „гравис“, което

          <br>

          много усложнява нещата и е адски неудобно! Т.е. трябва да се

          избере и

          <br>

          правилният вариант за слагане на ударенията на 2-рото копие на

          дадена дума

          <br>

          от речника. Обяснението на „Читанка“ е „За ударение

          използвайте символа „`“

          <br>

          (обикновено е на един и същи клавиш с „~“, вляво от „1“), като

          го поставите

          <br>

          след ударената гласна, например „АСТРОНА`ВТ“.“... Мъка...

          Всичко това

          <br>

          слагане на ударения, за съжаление, става само ръчно и затова

          ще отнеме

          <br>

          адски много време... :\

          <br>

          <br>

          Колкото до сричкопренасянето — то е трудно и за да е точно (а

          не просто

          <br>

          генерирано по алгоритъм, който често дава напълно грешни

          варианти за

          <br>

          сричкопренасяне), то трябва да се направи като ръчно написан

          списък със

          <br>

          сричките на думите. Алгоритмите не могат да автоматизират

          напълно този

          <br>

          процес, дори и при английския език (чието сричкопренасяне също

          е трудно и

          <br>

          не е напълно точно, ако е генерирано чрез алгоритъм — даже

          специалистите

          <br>

          препоръчват да се ползва речник за сверяване на

          сричкопренасянето и не се

          <br>

          изисква да се помни то наизуст). Сричкопренасянето на

          български думи в

          <br>

          LaTeX също е незадоволително, не са само Firefox,

          <br>

          OpenOffice.org/LibreOffice и Thunderbird... За щастие, в

          днешно време почти

          <br>

          не се използва сричкопренасяне (освен при печатни книги),

          което намалява

          <br>

          тежестта на този проблем.

          <br>

          <br>

          <br>

          <br>

          Лошо е, че bg.aff от „БГ Офис“ ползва windows-1251...

          Доколкото знам,

          <br>

          файлът .aff е само за афиксите, даже е само май за окончанията

          и

          <br>

          определителните членове (не включва представки и наставки).

          <br>

          <br>

          Файлът за сричкопренасянето май е hyph_bg_BG.dic, но и то за

          жалост е с

          <br>

          кодировка windows-1251. Пък и явно не е съвсем пълен, защото

          Firefox

          <br>

          подчертава като грешни много правилно написани думи, ако сте

          поставили

          <br>

          окончание и/или окончание и определителен член (това важи

          особено много за

          <br>

          добавени от потребителя думи (т.е. чрез използването на

          селекция на думата,

          <br>

          дясно щракване върху нея и Add to dictionary във Firefox!).

          Разбира се,

          <br>

          това е поправимо, пък и колосалният труд зад „БГ Офис“

          значително улеснява

          <br>

          подобряването на самите файлове на „БГ Офис“. Пък и понякога е

          възможно,

          <br>

          ако ползваш грешен афикс към дума (например окончание и

          определителен член

          <br>

          за м. р., ед. ч. при дума от ж. р., ед. ч.), програмата да не

          ти подчертае

          <br>

          грешката (макар че това се случва изключително рядко).

          <br>

          <br>

          Друг е въпросът, че от езикова гледна точка има колебания в

          употребата на

          <br>

          окончанието (т.е. на рода и най-вече на мн. ч.) на

          новонавлезлите в езика

          <br>

          ни заемки от други езици — например „дронове“ или „дрони“,

          което няма как

          <br>

          да бъде нормирано чрез spellchecker-а на „БГ Офис“, защото още

          не се е

          <br>

          стигнало до консенсус по въпроса коя от формите е

          по-правилната...

          <br>

          <br>

          П.П. Най-лесно е да добавим нови думи към bg.dic. Въпросът е,

          че те трябва

          <br>

          да се сверят с официалния речник (и да се има предвид, че и в

          него има

          <br>

          грешки на места...) и едва тогава да се добавят към bg.dic.

          Иначе няма

          <br>

          смисъл от тези промени по речниковата база на spellchecker-а.

          <br>

          <br>

          Ентусиазмът ви обаче е похвален, ако по-нататък имате

          достатъчно свободно

          <br>

          време и имате желание да допринесете за развитието на един нов

          свободен

          <br>

          речник, който надгражда този на „Читанка“, можете да се

          включите в екипа на

          <br>

          нашия речник „Словник“, който се разработва от известно време,

          но който

          <br>

          няма да бъде пуснат в скоро време:

          <a class="moz-txt-link-freetext" href="http://slovnik.bulogos.info">http://slovnik.bulogos.info</a>.

          <br>

          <br>

          Разбира се, препоръчвам ви да се свържете и с <a class="moz-txt-link-abbreviated" href="mailto:radnev@gmail.com">radnev@gmail.com</a>

          (авторът

          <br>

          на „БГ Офис“), за да се координирате с него по отношение на

          вашите приноси

          <br>

          към „БГ Офис“.

          <br>

          <br>

          Поздрави,

          <br>

          Sah War (sahwar)

          <br>

          <br>

          На 29 март 2015 г., 12:15, Стоян Димитров

          <a class="moz-txt-link-rfc2396E" href="mailto:stoyan@gmx.com"><stoyan@gmx.com></a> написа:

          <br>

          <br>

          <blockquote type="cite">      Здравейте,

            <br>

                 интересува ме някой от вас знае ли дали в момента се

            извършва дейност

            <br>

            по осъвременяването на модула за проверка на правописа в БГ

            Офис [1]

            <br>

            по-скоро списъка с думи (вероятно се нарича „речник“). След

            предварителен

            <br>

            преглед на базата данни [2] от речника [3] мисля, че

            списъкът с думи,

            <br>

            включени в БГ Офис, може да бъде осъвременен и поддържан във

            форма

            <br>

            сравнително лесно. Като допълнителен бонус процесът на

            обновяване може да

            <br>

            бъде автоматизиран. Не е съм съвсем сигурен, но вероятно

            всички модули

            <br>

            (напр. сричкопренасянето) и за всички продукти (OpenOffice,

            Mozilla) ще

            <br>

            имат полза от това.

            <br>

                 Започнал съм работа по файла .aff, което да послужи

            като шаблон за

            <br>

            генерирането на допълнен речник за проверка на правописа, та

            идеята ми е да

            <br>

            не се настъпим с някого.

            <br>

            <br>

            П.П.

            <br>

            Разборът, който е направен на изходния материал, за да бъде

            реализиран

            <br>

            [3] е страхотна основа за надграждане и незная как е останал

            незабелязан до

            <br>

            момента. Поздравления за автора!

            <br>

            <br>

            __

            <br>

            [1] - <a class="moz-txt-link-freetext" href="http://bgoffice.sf.net">http://bgoffice.sf.net</a>

            <br>

            [2] - <a class="moz-txt-link-freetext" href="http://rechnik.chitanka.info/db.sql.gz">http://rechnik.chitanka.info/db.sql.gz</a>

            <br>

            [3] - <a class="moz-txt-link-freetext" href="http://rechnik.chitanka.info">http://rechnik.chitanka.info</a>

            <br>

            <br>

            --

            <br>

            С

            <br>

            <br>

            <br>

            _______________________________________________

            <br>

            Dict mailing list

            <br>

            <a class="moz-txt-link-abbreviated" href="mailto:Dict@ludost.net">Dict@ludost.net</a>

            <br>

            <a class="moz-txt-link-freetext" href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a>

            <br>

            <br>

            <br>

          </blockquote>

          _______________________________________________

          <br>

          Dict mailing list

          <br>

          <a class="moz-txt-link-abbreviated" href="mailto:Dict@ludost.net">Dict@ludost.net</a>

          <br>

          <a class="moz-txt-link-freetext" href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a>

          <br>

          <br>

          <br>

          <br>

          <br>

          _______________________________________________

          <br>

          Dict mailing list

          <br>

          <a class="moz-txt-link-abbreviated" href="mailto:Dict@ludost.net">Dict@ludost.net</a>

          <br>

          <a class="moz-txt-link-freetext" href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a>

          <br>

        </blockquote>

      </blockquote>

      <br>

      <br>

      <fieldset class="mimeAttachmentHeader"></fieldset>

      <br>

      <pre wrap="">_______________________________________________

Dict mailing list

<a class="moz-txt-link-abbreviated" href="mailto:Dict@ludost.net">Dict@ludost.net</a>

<a class="moz-txt-link-freetext" href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a>

</pre>

    </blockquote>

    <br>

    <pre class="moz-signature" cols="72">-- 

С</pre>

  </body>

</html>