<html>
  <head>
    <meta content="text/html; charset=UTF-8" http-equiv="Content-Type">
  </head>
  <body bgcolor="#FFFFFF" text="#000000">
    <font face="Fira Sans">Но, да, в светлината на проекта редактирането
      на .aff файловете е безсмислено.</font><br>
    <br>
    <div class="moz-cite-prefix">На 30.03.2015 г. в 10:15, Стоян
      Димитров написа:<br>
    </div>
    <blockquote cite="mid:5518F810.2070605@gmx.com" type="cite">   
      Здравейте, господин Раднев,
      <br>
          Радвам се, че се включвате в дискусията. Моите почитания към
      работата ви.
      <br>
      <br>
      На 29.03.2015 г. в 18:57, Radostin Radnev написа:
      <br>
      <blockquote type="cite">Здравейте,
        <br>
        <br>
        Да се включа и аз, поне да кажа как работят нещата в
        <br>
        <a class="moz-txt-link-freetext" href="http://bgoffice.sourceforge.net/">http://bgoffice.sourceforge.net/</a>
        <br>
        <br>
        С .aff нямате работа - той се генерира автоматично. Неговата цел
        е да
        <br>
        постигне някаква компресия и нищо повече. Примерно, в aspell
        няма афикс
        <br>
        файл, всяка дума е на нов ред и има около 800 000 словоформи. За
        Firefox и
        <br>
        другите дето ползват aff файл също може да се наблъскат в един
        файл и да
        <br>
        има празен .aff файл.
        <br>
      </blockquote>
      Няма да се съглася с вас. Освен SFX във файла .aff има други
      секции, които също могат да бъдат полезни. Например, на пръв
      поглед, KEY и REP. Да, те нямат стойността на останалата част, но
      спомагат.
      <br>
      <blockquote type="cite">Така че не правете модификации във файл,
        който се генерира автоматично.
        <br>
        <br>
        Ако искате да добавяте нови думи, просто определяте типа на
        думата и я
        <br>
        вкарвате в съответния файл - bg001.dat, bg002.dat, 03, ....
        <br>
        <br>
        След това пускате скриптовете за проверка и билдване на
        речниците и нещата
        <br>
        трябва да проработят.
        <br>
        <br>
        Има някакви помощни скриптове за определяне типа на думата, но
        те дават
        <br>
        предложения, после ръчно трябва да определите в кой файл да
        отиде новата
        <br>
        дума.
        <br>
        <br>
        Firefox, а и всички останали програми за проверка на правописа
        (поне
        <br>
        чуждите) разглеждат думата сама за себе си - няма как да знаят
        че дрони
        <br>
        (или дронове) е множествено число на дрон. Така че като добавите
        дрон, ще
        <br>
        познава само дрон - дрони, дрона, дронът, дроните - няма да ги
        познава.
        <br>
        Става въпрос за потребителските речници.
        <br>
        <br>
        <br>
        Поздрави,
        <br>
        Радостин Раднев
        <br>
        <br>
        <br>
        <br>
        2015-03-29 17:44 GMT+03:00 Sah War <a class="moz-txt-link-rfc2396E" href="mailto:ve4ernik@gmail.com"><ve4ernik@gmail.com></a>:
        <br>
        <br>
        <blockquote type="cite">Здравейте, г-н Димитров!
          <br>
          <br>
          Предварително се извинявам за дългото писмо. :D
          <br>
          <br>
          За съжаление, в речника на „Читанка“ има доста грешки и
          неточности и не е
          <br>
          проверен дали е точен по отношение на правописа с последния
          официален
          <br>
          правописен речник на БАН от 2012 г. (в който на места същ има
          грешки...),
          <br>
          поради което базата от данни на речника на „Читанка“ не е
          много надеждна за
          <br>
          целите на добавянето ѝ към spellchecker-а на „БГ Офис“ (т.е.
          първо трябва
          <br>
          изцяло да се свери с речника на БАН, което е адски
          трудоемко...). Освен
          <br>
          това на места липсват дублети.
          <br>
          <br>
          Това е забелязано отдавна, поради което и не е пристъпено към
          използването
          <br>
          на тази база от данни в „БГ Офис“.
          <br>
          <br>
          Но въпреки това има начини, по който можете да ни помогнете за
          <br>
          spellchecker-а:
          <br>
          <br>
          1. Ако знаете как, ще се радвам да създадете .txt вариант на
          db.sql.gz
          <br>
          (все пак това е SQL база от данни...), даже е добре този
          вариант да се
          <br>
          раздели на няколко отделни .txt файла, защото иначе ще е мъка
          да се
          <br>
          редактира с текстов редактор.
          <br>
          <br>
          2. Набираме желаещи да направят OCR и последваща ръчна
          проверка и корекция
          <br>
          на речника на БАН от 2012 г. (чрез ползване на най-новата
          версия на ABBYY
          <br>
          FineReader):
          <br>
          <br>
          <br>
<a class="moz-txt-link-freetext" href="http://www.mediafire.com/view/7tncj767aau69d3/OPRBE-2012_full_2pagesperpage.pdf">http://www.mediafire.com/view/7tncj767aau69d3/OPRBE-2012_full_2pagesperpage.pdf</a>
          <br>
          <br>
<a class="moz-txt-link-freetext" href="http://www.mediafire.com/download/tpgax3g7o36k4oy/OPRBE-2012_full_2pagesperpage_lossy-djvu.djvu">http://www.mediafire.com/download/tpgax3g7o36k4oy/OPRBE-2012_full_2pagesperpage_lossy-djvu.djvu</a>
          <br>
          <br>
          Има обаче една тънкост при корекцията — поради известни
          недостатъци на
          <br>
          ABBYY FineReader, програмата не може правилно да разчете
          знаците за
          <br>
          ударение на думите и обикновено дава резултат без тях, което
          означава, че
          <br>
          при ръчна корекция трябва да напишете думата 2 пъти: един без
          ударения и
          <br>
          един път с правилните ударения. Но и при това има затруднение,
          защото има
          <br>
          няколко (!!!) начина за слагане на ударения — чрез копиране на
          знак от
          <br>
          Уникод, комбиниран със знака за ударение (май се казваше
          „гравис“ (тежко
          <br>
          ударение), т.е. U+0300 COMBINING GRAVE ACCENT,
          <br>
          <a class="moz-txt-link-freetext" href="http://en.wikipedia.org/wiki/Combining_character">http://en.wikipedia.org/wiki/Combining_character</a>), чрез знак и
          сложено
          <br>
          след него ударение (което незнайно защо се показва като един
          знак
          <br>
          впоследствие), или чрез използване на т.нар. precomposed
          characters
          <br>
          <a class="moz-txt-link-rfc2396E" href="http://en.wikipedia.org/wiki/Precomposed_character"><http://en.wikipedia.org/wiki/Precomposed_character></a>
          (като „ѝ“).
          <br>
          <br>
          При корекцията на един друг речник в „Читанка“ са решили да
          ползват втория
          <br>
          вариант (пример за слети знаци: байга̀ньо; пример за начина,
          използван в
          <br>
          сканирания речник Мурдаров в „Читанка“: байга`ньо), от
          следната страница
          <br>
          можеш да видиш как изглежда правописът във варианта, използван
          в „Читанка“:
          <br>
<a class="moz-txt-link-freetext" href="http://wiki.workroom.chitanka.info/Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41">http://wiki.workroom.chitanka.info/Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41</a>
          <br>
          (но за да видиш реалното положение на нещата е нужно да влезеш
          в профила си
          <br>
          в „Читанка“ и да отидеш например на
          <br>
<a class="moz-txt-link-freetext" href="http://wiki.workroom.chitanka.info/index.php?title=Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41&action=edit">http://wiki.workroom.chitanka.info/index.php?title=Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41&action=edit</a>),
          <br>
          техният вариант е споменатия нагоре „байга`ньо“, а не
          „байга̀ньо“ (възможно
          <br>
          е да не ти се показва правилно, ако не ползваш подходящ
          шрифт...).
          <br>
          <br>
          За мен техният вариант не е особено удачен, защото например
          при търсене с
          <br>
          Ctrl+F за низа „байганьо“ чрез браузър (давам пример с
          последната версия на
          <br>
          Opera), излиза правилно открояване на резултата „байга̀ньо“
          дори при
          <br>
          търсене за „байганьо“ (т.е. без ударението), докато за
          откриване на
          <br>
          „байга`ньо“ трябва да добавиш по някакъв друг начин знака
          „гравис“, което
          <br>
          много усложнява нещата и е адски неудобно! Т.е. трябва да се
          избере и
          <br>
          правилният вариант за слагане на ударенията на 2-рото копие на
          дадена дума
          <br>
          от речника. Обяснението на „Читанка“ е „За ударение
          използвайте символа „`“
          <br>
          (обикновено е на един и същи клавиш с „~“, вляво от „1“), като
          го поставите
          <br>
          след ударената гласна, например „АСТРОНА`ВТ“.“... Мъка...
          Всичко това
          <br>
          слагане на ударения, за съжаление, става само ръчно и затова
          ще отнеме
          <br>
          адски много време... :\
          <br>
          <br>
          Колкото до сричкопренасянето — то е трудно и за да е точно (а
          не просто
          <br>
          генерирано по алгоритъм, който често дава напълно грешни
          варианти за
          <br>
          сричкопренасяне), то трябва да се направи като ръчно написан
          списък със
          <br>
          сричките на думите. Алгоритмите не могат да автоматизират
          напълно този
          <br>
          процес, дори и при английския език (чието сричкопренасяне също
          е трудно и
          <br>
          не е напълно точно, ако е генерирано чрез алгоритъм — даже
          специалистите
          <br>
          препоръчват да се ползва речник за сверяване на
          сричкопренасянето и не се
          <br>
          изисква да се помни то наизуст). Сричкопренасянето на
          български думи в
          <br>
          LaTeX също е незадоволително, не са само Firefox,
          <br>
          OpenOffice.org/LibreOffice и Thunderbird... За щастие, в
          днешно време почти
          <br>
          не се използва сричкопренасяне (освен при печатни книги),
          което намалява
          <br>
          тежестта на този проблем.
          <br>
          <br>
          <br>
          <br>
          Лошо е, че bg.aff от „БГ Офис“ ползва windows-1251...
          Доколкото знам,
          <br>
          файлът .aff е само за афиксите, даже е само май за окончанията
          и
          <br>
          определителните членове (не включва представки и наставки).
          <br>
          <br>
          Файлът за сричкопренасянето май е hyph_bg_BG.dic, но и то за
          жалост е с
          <br>
          кодировка windows-1251. Пък и явно не е съвсем пълен, защото
          Firefox
          <br>
          подчертава като грешни много правилно написани думи, ако сте
          поставили
          <br>
          окончание и/или окончание и определителен член (това важи
          особено много за
          <br>
          добавени от потребителя думи (т.е. чрез използването на
          селекция на думата,
          <br>
          дясно щракване върху нея и Add to dictionary във Firefox!).
          Разбира се,
          <br>
          това е поправимо, пък и колосалният труд зад „БГ Офис“
          значително улеснява
          <br>
          подобряването на самите файлове на „БГ Офис“. Пък и понякога е
          възможно,
          <br>
          ако ползваш грешен афикс към дума (например окончание и
          определителен член
          <br>
          за м. р., ед. ч. при дума от ж. р., ед. ч.), програмата да не
          ти подчертае
          <br>
          грешката (макар че това се случва изключително рядко).
          <br>
          <br>
          Друг е въпросът, че от езикова гледна точка има колебания в
          употребата на
          <br>
          окончанието (т.е. на рода и най-вече на мн. ч.) на
          новонавлезлите в езика
          <br>
          ни заемки от други езици — например „дронове“ или „дрони“,
          което няма как
          <br>
          да бъде нормирано чрез spellchecker-а на „БГ Офис“, защото още
          не се е
          <br>
          стигнало до консенсус по въпроса коя от формите е
          по-правилната...
          <br>
          <br>
          П.П. Най-лесно е да добавим нови думи към bg.dic. Въпросът е,
          че те трябва
          <br>
          да се сверят с официалния речник (и да се има предвид, че и в
          него има
          <br>
          грешки на места...) и едва тогава да се добавят към bg.dic.
          Иначе няма
          <br>
          смисъл от тези промени по речниковата база на spellchecker-а.
          <br>
          <br>
          Ентусиазмът ви обаче е похвален, ако по-нататък имате
          достатъчно свободно
          <br>
          време и имате желание да допринесете за развитието на един нов
          свободен
          <br>
          речник, който надгражда този на „Читанка“, можете да се
          включите в екипа на
          <br>
          нашия речник „Словник“, който се разработва от известно време,
          но който
          <br>
          няма да бъде пуснат в скоро време:
          <a class="moz-txt-link-freetext" href="http://slovnik.bulogos.info">http://slovnik.bulogos.info</a>.
          <br>
          <br>
          Разбира се, препоръчвам ви да се свържете и с <a class="moz-txt-link-abbreviated" href="mailto:radnev@gmail.com">radnev@gmail.com</a>
          (авторът
          <br>
          на „БГ Офис“), за да се координирате с него по отношение на
          вашите приноси
          <br>
          към „БГ Офис“.
          <br>
          <br>
          Поздрави,
          <br>
          Sah War (sahwar)
          <br>
          <br>
          На 29 март 2015 г., 12:15, Стоян Димитров
          <a class="moz-txt-link-rfc2396E" href="mailto:stoyan@gmx.com"><stoyan@gmx.com></a> написа:
          <br>
          <br>
          <blockquote type="cite">      Здравейте,
            <br>
                 интересува ме някой от вас знае ли дали в момента се
            извършва дейност
            <br>
            по осъвременяването на модула за проверка на правописа в БГ
            Офис [1]
            <br>
            по-скоро списъка с думи (вероятно се нарича „речник“). След
            предварителен
            <br>
            преглед на базата данни [2] от речника [3] мисля, че
            списъкът с думи,
            <br>
            включени в БГ Офис, може да бъде осъвременен и поддържан във
            форма
            <br>
            сравнително лесно. Като допълнителен бонус процесът на
            обновяване може да
            <br>
            бъде автоматизиран. Не е съм съвсем сигурен, но вероятно
            всички модули
            <br>
            (напр. сричкопренасянето) и за всички продукти (OpenOffice,
            Mozilla) ще
            <br>
            имат полза от това.
            <br>
                 Започнал съм работа по файла .aff, което да послужи
            като шаблон за
            <br>
            генерирането на допълнен речник за проверка на правописа, та
            идеята ми е да
            <br>
            не се настъпим с някого.
            <br>
            <br>
            П.П.
            <br>
            Разборът, който е направен на изходния материал, за да бъде
            реализиран
            <br>
            [3] е страхотна основа за надграждане и незная как е останал
            незабелязан до
            <br>
            момента. Поздравления за автора!
            <br>
            <br>
            __
            <br>
            [1] - <a class="moz-txt-link-freetext" href="http://bgoffice.sf.net">http://bgoffice.sf.net</a>
            <br>
            [2] - <a class="moz-txt-link-freetext" href="http://rechnik.chitanka.info/db.sql.gz">http://rechnik.chitanka.info/db.sql.gz</a>
            <br>
            [3] - <a class="moz-txt-link-freetext" href="http://rechnik.chitanka.info">http://rechnik.chitanka.info</a>
            <br>
            <br>
            --
            <br>
            С
            <br>
            <br>
            <br>
            _______________________________________________
            <br>
            Dict mailing list
            <br>
            <a class="moz-txt-link-abbreviated" href="mailto:Dict@ludost.net">Dict@ludost.net</a>
            <br>
            <a class="moz-txt-link-freetext" href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a>
            <br>
            <br>
            <br>
          </blockquote>
          _______________________________________________
          <br>
          Dict mailing list
          <br>
          <a class="moz-txt-link-abbreviated" href="mailto:Dict@ludost.net">Dict@ludost.net</a>
          <br>
          <a class="moz-txt-link-freetext" href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a>
          <br>
          <br>
          <br>
          <br>
          <br>
          _______________________________________________
          <br>
          Dict mailing list
          <br>
          <a class="moz-txt-link-abbreviated" href="mailto:Dict@ludost.net">Dict@ludost.net</a>
          <br>
          <a class="moz-txt-link-freetext" href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a>
          <br>
        </blockquote>
      </blockquote>
      <br>
      <br>
      <fieldset class="mimeAttachmentHeader"></fieldset>
      <br>
      <pre wrap="">_______________________________________________
Dict mailing list
<a class="moz-txt-link-abbreviated" href="mailto:Dict@ludost.net">Dict@ludost.net</a>
<a class="moz-txt-link-freetext" href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a>
</pre>
    </blockquote>
    <br>
    <pre class="moz-signature" cols="72">-- 
С</pre>
  </body>
</html>