<div dir="ltr"><div><div><div><div><div><div>Здравейте,<br><br>Много благодаря за обясненията, г-н Раднев! Трудът ви по „БГ Офис“ е повече от похвален и дълбоко уважавам делото ви, благодарение на което имаме spellchecker за OpenOffice.org/LibreOffice, Chrome, Thunderbird и Firefox, което е огромно улеснение! :)<br><br><blockquote style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex" class="gmail_quote">Примерно, в aspell няма афикс файл, всяка дума е на нов ред и има около 
800 000 словоформи. За Firefox и другите дето ползват aff файл също може
 да се наблъскат в един файл и да има празен .aff файл.<br></blockquote><br></div>Предполагам, че това означава, че за да е възможно най-пълен и точен речникът за Firefox и подобни, трябва да добавим всички словоформи на думите в един файл и да се лишим от файла .aff за сметка на по-малкия размер на речника и компресията при употребата на .aff файл. Мисля, че този вариант е най-удачен въпреки увеличаването на големината на spellchecker-а.<br><br><blockquote style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex" class="gmail_quote"><div>Ако искате да добавяте нови думи, просто определяте типа на думата и
 я вкарвате в съответния файл - bg001.dat, bg002.dat, 03, ....<br><br>След това пускате скриптовете за проверка и билдване на речниците и нещата трябва да проработят.<br></div></blockquote><div><br></div><div>Хм, нещо не мога да се ориентирам, за което се извинявам. Бихте ли ни дали хипервръзки към документацията, където е обяснено как се вършат тези неща? Благодаря предварително и съжалявам за тъпия въпрос.<br></div>Мислих си, че проверката на правописа се извършва на базата на файла bg.dic, а всъщност се оказва, че се извършва чрез .dat файловете. Поправете ме, ако греша. Къде е описано в кои .dat файлове трябва да се сложат съответните думи според частта на речта, към която принадлежат? Трудно се ориентирам, съжалявам за което.<br><br><blockquote style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex" class="gmail_quote">Firefox, а и всички останали програми за проверка на правописа (поне 
чуждите) разглеждат думата сама за себе си - няма как да знаят че дрони 
(или дронове) е множествено число на дрон. Така че като добавите дрон, 
ще познава само дрон - дрони, дрона, дронът, дроните - няма да ги 
познава. Става въпрос за потребителските речници.<br></blockquote><br></div>В bg.dic отиват думите, добавени към потребителския речник, така ли? За да имаме всички словоформи на дадена дума в потребителския речник трябва да добавим всяка поотделно към bg.dic, така ли? Или в .dat файловете? Мислих си, че при добавянето на основната форма, файлът с афиксите някакси се ползва за генерирането на останалите словоформи на думата, но очевидно съм се заблуждавал (пък и като се замисля не знам дори как биха се избирали афиксите на дадена дума). Поправете ме, ако греша.<br><br></div>Имам още един въпрос. В bg.dic има едни означения след някои от думите — „\K“ („\“ плюс дадена латинска буква), къде е обяснено какво означават те, т.е. каква е функцията им?<br><br></div>Отново се извинявам, ако задавам тъпи въпроси. :)<br><br></div><div>П.П. Спорен мен е най-полезно да се съсредоточим в това да добавим думите от речника на БАН от 2012 г. към базата от данни на „БГ Офис“ (а защо не и тези от речника на БАН от 2002 г.). За целта обаче трябва да извършим OCR и последваща ръчна корекция на сканираната му версия — версията, цитирана от мен в предишното ми писмо към пощенския списък.<br></div><div><br></div>Поздрави,<br></div>Sah War (sahwar)<br></div><div class="gmail_extra"><br><div class="gmail_quote">На 29 март 2015 г., 18:57, Radostin Radnev <span dir="ltr"><<a href="mailto:radnev@gmail.com" target="_blank">radnev@gmail.com</a>></span> написа:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Здравейте,<div><br></div><div>Да се включа и аз, поне да кажа как работят нещата в <a href="http://bgoffice.sourceforge.net/" target="_blank">http://bgoffice.sourceforge.net/</a></div><div><br></div><div>С .aff нямате работа - той се генерира автоматично. Неговата цел е да постигне някаква компресия и нищо повече. Примерно, в aspell няма афикс файл, всяка дума е на нов ред и има около 800 000 словоформи. За Firefox и другите дето ползват aff файл също може да се наблъскат в един файл и да има празен .aff файл.</div><div><br></div><div>Така че не правете модификации във файл, който се генерира автоматично.</div><div><br></div><div>Ако искате да добавяте нови думи, просто определяте типа на думата и я вкарвате в съответния файл - bg001.dat, bg002.dat, 03, ....</div><div><br></div><div>След това пускате скриптовете за проверка и билдване на речниците и нещата трябва да проработят.</div><div><br></div><div>Има някакви помощни скриптове за определяне типа на думата, но те дават предложения, после ръчно трябва да определите в кой файл да отиде новата дума.</div><div><br></div><div>Firefox, а и всички останали програми за проверка на правописа (поне чуждите) разглеждат думата сама за себе си - няма как да знаят че дрони (или дронове) е множествено число на дрон. Така че като добавите дрон, ще познава само дрон - дрони, дрона, дронът, дроните - няма да ги познава. Става въпрос за потребителските речници.</div><div><br></div><div><br></div><div>Поздрави,</div><div>Радостин Раднев</div><div><br></div><div><br></div></div><div class="HOEnZb"><div class="h5"><div class="gmail_extra"><br><div class="gmail_quote">2015-03-29 17:44 GMT+03:00 Sah War <span dir="ltr"><<a href="mailto:ve4ernik@gmail.com" target="_blank">ve4ernik@gmail.com</a>></span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Здравейте, г-н Димитров!<br><br>Предварително се извинявам за дългото писмо. :D<br><div><br></div><div>За съжаление, в речника на „Читанка“ има доста грешки и неточности и не е проверен дали е точен по отношение на правописа с последния официален правописен речник на БАН от 2012 г. (в който на места същ има грешки...), поради което базата от данни на речника на „Читанка“ не е много надеждна за целите на добавянето ѝ към spellchecker-а на „БГ Офис“ (т.е. първо трябва изцяло да се свери с речника на БАН, което е адски трудоемко...). Освен това на места липсват дублети.<br><br>Това е забелязано отдавна, поради което и не е пристъпено към използването на тази база от данни в „БГ Офис“.<br><br>Но въпреки това има начини, по който можете да ни помогнете за spellchecker-а:</div><div><br>1. Ако знаете как, ще се радвам да създадете .txt вариант на db.sql.gz (все пак това е SQL база от данни...), даже е добре този вариант да се раздели на няколко отделни .txt файла, защото иначе ще е мъка да се редактира с текстов редактор.<br><br></div><div>2. Набираме желаещи да направят OCR и последваща ръчна проверка и корекция на речника на БАН от 2012 г. (чрез ползване на най-новата версия на ABBYY FineReader):<br><br><a href="http://www.mediafire.com/view/7tncj767aau69d3/OPRBE-2012_full_2pagesperpage.pdf" target="_blank">http://www.mediafire.com/view/7tncj767aau69d3/OPRBE-2012_full_2pagesperpage.pdf</a><br><a href="http://www.mediafire.com/download/tpgax3g7o36k4oy/OPRBE-2012_full_2pagesperpage_lossy-djvu.djvu" target="_blank">http://www.mediafire.com/download/tpgax3g7o36k4oy/OPRBE-2012_full_2pagesperpage_lossy-djvu.djvu</a><br><br>Има обаче една тънкост при корекцията — поради известни недостатъци на ABBYY FineReader, програмата не може правилно да разчете знаците за ударение на думите и обикновено дава резултат без тях, което означава, че при ръчна корекция трябва да напишете думата 2 пъти: един без ударения и един път с правилните ударения. Но и при това има затруднение, защото има няколко (!!!) начина за слагане на ударения — чрез копиране на знак от Уникод, комбиниран със знака за ударение (май се казваше „гравис“ (тежко ударение), т.е. U+0300 COMBINING GRAVE ACCENT, <a href="http://en.wikipedia.org/wiki/Combining_character" target="_blank">http://en.wikipedia.org/wiki/Combining_character</a>), чрез знак и сложено след него ударение (което незнайно защо се показва като един знак впоследствие), или чрез използване на т.нар. <a href="http://en.wikipedia.org/wiki/Precomposed_character" target="_blank">precomposed characters</a> (като „ѝ“).</div><div><br></div><div>При корекцията на един друг речник в „Читанка“ са решили да ползват втория вариант (пример за слети знаци: байга̀ньо; пример за начина, използван в сканирания речник Мурдаров в „Читанка“: байга`ньо), от следната страница можеш да видиш как изглежда правописът във варианта, използван в „Читанка“: <a href="http://wiki.workroom.chitanka.info/Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41" target="_blank">http://wiki.workroom.chitanka.info/Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41</a> (но за да видиш реалното положение на нещата е нужно да влезеш в профила си в „Читанка“ и да отидеш например на <a href="http://wiki.workroom.chitanka.info/index.php?title=Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41&action=edit" target="_blank">http://wiki.workroom.chitanka.info/index.php?title=Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41&action=edit</a>), техният вариант е споменатия нагоре „байга`ньо“, а не „байга̀ньо“ (възможно е да не ти се показва правилно, ако не ползваш подходящ шрифт...).</div><div><br></div><div>За мен техният вариант не е особено удачен, защото например при търсене с Ctrl+F за низа „байганьо“ чрез браузър (давам пример с последната версия на Opera), излиза правилно открояване на резултата „байга̀ньо“ дори при търсене за „байганьо“ (т.е. без ударението), докато за откриване на „байга`ньо“ трябва да добавиш по някакъв друг начин знака „гравис“, което много усложнява нещата и е адски неудобно! Т.е. трябва да се избере и правилният вариант за слагане на ударенията на 2-рото копие на дадена дума от речника. Обяснението на „Читанка“ е „За ударение използвайте символа „`“ (обикновено е на един и същи клавиш с „~“, вляво от „1“), като го поставите след ударената гласна, например „АСТРОНА`ВТ“.“... Мъка... Всичко това слагане на ударения, за съжаление, става само ръчно и затова ще отнеме адски много време... :\</div><div><br></div><div>Колкото до сричкопренасянето — то е трудно и за да е точно (а не просто генерирано по алгоритъм, който често дава напълно грешни варианти за сричкопренасяне), то трябва да се направи като ръчно написан списък със сричките на думите. Алгоритмите не могат да автоматизират напълно този процес, дори и при английския език (чието сричкопренасяне също е трудно и не е напълно точно, ако е генерирано чрез алгоритъм — даже специалистите препоръчват да се ползва речник за сверяване на сричкопренасянето и не се изисква да се помни то наизуст). Сричкопренасянето на български думи в LaTeX също е незадоволително, не са само Firefox, OpenOffice.org/LibreOffice и Thunderbird... За щастие, в днешно време почти не се използва сричкопренасяне (освен при печатни книги), което намалява тежестта на този проблем.<br><br><br><br>Лошо е, че bg.aff от „БГ Офис“ ползва windows-1251... Доколкото знам, файлът .aff е само за афиксите, даже е само май за окончанията и определителните членове (не включва представки и наставки).<br><br><div>Файлът за сричкопренасянето май е hyph_bg_BG.dic, но и то за жалост е с кодировка windows-1251. Пък и явно не е съвсем пълен, защото Firefox подчертава като грешни много правилно написани думи, ако сте поставили окончание и/или окончание и определителен член (това важи особено много за добавени от потребителя думи (т.е. чрез използването на селекция на думата, дясно щракване върху нея и Add to dictionary във Firefox!). Разбира се, това е поправимо, пък и колосалният труд зад „БГ Офис“ значително улеснява подобряването на самите файлове на „БГ Офис“. Пък и понякога е възможно, ако ползваш грешен афикс към дума (например окончание и определителен член за м. р., ед. ч. при дума от ж. р., ед. ч.), програмата да не ти подчертае грешката (макар че това се случва изключително рядко).<br><br>Друг е въпросът, че от езикова гледна точка има колебания в употребата на окончанието (т.е. на рода и най-вече на мн. ч.) на новонавлезлите в езика ни заемки от други езици — например „дронове“ или „дрони“, което няма как да бъде нормирано чрез spellchecker-а на „БГ Офис“, защото още не се е стигнало до консенсус по въпроса коя от формите е по-правилната...<br><br>П.П. Най-лесно е да добавим нови думи към bg.dic. Въпросът е, че те трябва да се сверят с официалния речник (и да се има предвид, че и в него има грешки на места...) и едва тогава да се добавят към bg.dic. Иначе няма смисъл от тези промени по речниковата база на spellchecker-а.</div><div><br></div><div>Ентусиазмът ви обаче е похвален, ако по-нататък имате достатъчно свободно време и имате желание да допринесете за развитието на един нов свободен речник, който надгражда този на „Читанка“, можете да се включите в екипа на нашия речник „Словник“, който се разработва от известно време, но който няма да бъде пуснат в скоро време: <a href="http://slovnik.bulogos.info" target="_blank">http://slovnik.bulogos.info</a>.</div><div><br></div><div>Разбира се, препоръчвам ви да се свържете и с <a href="mailto:radnev@gmail.com" target="_blank">radnev@gmail.com</a> (авторът на „БГ Офис“), за да се координирате с него по отношение на вашите приноси към „БГ Офис“.<br><br>Поздрави,<br>Sah War (sahwar)</div></div></div><div class="gmail_extra"><br><div class="gmail_quote"><div><div>На 29 март 2015 г., 12:15, Стоян Димитров <span dir="ltr"><<a href="mailto:stoyan@gmx.com" target="_blank">stoyan@gmx.com</a>></span> написа:<br></div></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div>
  

    
  
  <div bgcolor="#FFFFFF" text="#000000">
    <font face="Fira Sans">    Здравейте,<br>
          интересува ме някой от вас знае ли дали в момента се извършва
      дейност по осъвременяването на модула за проверка на правописа в
      БГ Офис [1] по-скоро списъка с думи (вероятно се нарича „речник“).
      След предварителен преглед на базата данни [2] от речника [3]
      мисля, че списъкът с думи, включени в БГ Офис, може да бъде
      осъвременен и поддържан във форма сравнително лесно. Като
      допълнителен бонус процесът на обновяване може да бъде
      автоматизиран. Не е съм съвсем сигурен, но вероятно всички модули
      (напр. сричкопренасянето) и за всички продукти (OpenOffice,
      Mozilla) ще имат полза от това.<br>
          Започнал съм работа по файла .aff, което да послужи като
      шаблон за генерирането на допълнен речник за проверка на правописа,
      та идеята ми е да не се настъпим с някого.<br>
      <br>
      П.П.<br>
      Разборът, който е направен на изходния материал, за да бъде
      реализиран [3] е страхотна основа за надграждане и незная как е
      останал незабелязан до момента. Поздравления за автора!<br>
      <br>
      __<br>
      [1] - <a href="http://bgoffice.sf.net" target="_blank">http://bgoffice.sf.net</a><br>
      [2] - <a href="http://rechnik.chitanka.info/db.sql.gz" target="_blank">http://rechnik.chitanka.info/db.sql.gz</a><br>
      [3] - <a href="http://rechnik.chitanka.info" target="_blank">http://rechnik.chitanka.info</a><span><font color="#888888"><br>
    </font></span></font><span><font color="#888888">
    <pre cols="72">-- 
С</pre>
  </font></span></div>

<br></div></div>_______________________________________________<br>
Dict mailing list<br>
<a href="mailto:Dict@ludost.net" target="_blank">Dict@ludost.net</a><br>
<a href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict" target="_blank">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a><br>
<br></blockquote></div><br></div>
<br>_______________________________________________<br>
Dict mailing list<br>
<a href="mailto:Dict@ludost.net" target="_blank">Dict@ludost.net</a><br>
<a href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict" target="_blank">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a><br>
<br></blockquote></div><br></div>
</div></div><br>_______________________________________________<br>
Dict mailing list<br>
<a href="mailto:Dict@ludost.net">Dict@ludost.net</a><br>
<a href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict" target="_blank">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a><br>
<br></blockquote></div><br></div>