<div dir="ltr">Здравейте,<div><br></div><div>Да Ñе включа и аз, поне да кажа как работÑÑ‚ нещата в <a href="http://bgoffice.sourceforge.net/">http://bgoffice.sourceforge.net/</a></div><div><br></div><div>С .aff нÑмате работа - той Ñе генерира автоматично. Ðеговата цел е да поÑтигне нÑкаква компреÑÐ¸Ñ Ð¸ нищо повече. Примерно, в aspell нÑма Ð°Ñ„Ð¸ÐºÑ Ñ„Ð°Ð¹Ð», вÑÑка дума е на нов ред и има около 800 000 Ñловоформи. За Firefox и другите дето ползват aff файл Ñъщо може да Ñе наблъÑкат в един файл и да има празен .aff файл.</div><div><br></div><div>Така че не правете модификации във файл, който Ñе генерира автоматично.</div><div><br></div><div>Ðко иÑкате да добавÑте нови думи, проÑто определÑте типа на думата и Ñ Ð²ÐºÐ°Ñ€Ð²Ð°Ñ‚Ðµ в ÑÑŠÐ¾Ñ‚Ð²ÐµÑ‚Ð½Ð¸Ñ Ñ„Ð°Ð¹Ð» - bg001.dat, bg002.dat, 03, ....</div><div><br></div><div>След това пуÑкате Ñкриптовете за проверка и билдване на речниците и нещата Ñ‚Ñ€Ñбва да проработÑÑ‚.</div><div><br></div><div>Има нÑкакви помощни Ñкриптове за определÑне типа на думата, но те дават предложениÑ, поÑле ръчно Ñ‚Ñ€Ñбва да определите в кой файл да отиде новата дума.</div><div><br></div><div>Firefox, а и вÑички оÑтанали програми за проверка на правопиÑа (поне чуждите) разглеждат думата Ñама за Ñебе Ñи - нÑма как да знаÑÑ‚ че дрони (или дронове) е множеÑтвено чиÑло на дрон. Така че като добавите дрон, ще познава Ñамо дрон - дрони, дрона, дронът, дроните - нÑма да ги познава. Става Ð²ÑŠÐ¿Ñ€Ð¾Ñ Ð·Ð° потребителÑките речници.</div><div><br></div><div><br></div><div>Поздрави,</div><div>РадоÑтин Раднев</div><div><br></div><div><br></div></div><div class="gmail_extra"><br><div class="gmail_quote">2015-03-29 17:44 GMT+03:00 Sah War <span dir="ltr"><<a href="mailto:ve4ernik@gmail.com" target="_blank">ve4ernik@gmail.com</a>></span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Здравейте, г-н Димитров!<br><br>Предварително Ñе извинÑвам за дългото пиÑмо. :D<br><div><br></div><div>За Ñъжаление, в речника на „Читанка“ има доÑта грешки и неточноÑти и не е проверен дали е точен по отношение на правопиÑа Ñ Ð¿Ð¾ÑÐ»ÐµÐ´Ð½Ð¸Ñ Ð¾Ñ„Ð¸Ñ†Ð¸Ð°Ð»ÐµÐ½ правопиÑен речник на БÐРот 2012 г. (в който на меÑта Ñъщ има грешки...), поради което базата от данни на речника на „Читанка“ не е много надеждна за целите на добавÑнето Ñ ÐºÑŠÐ¼ spellchecker-а на „БГ ОфиÑ“ (Ñ‚.е. първо Ñ‚Ñ€Ñбва изцÑло да Ñе Ñвери Ñ Ñ€ÐµÑ‡Ð½Ð¸ÐºÐ° на БÐÐ, което е адÑки трудоемко...). ОÑвен това на меÑта липÑват дублети.<br><br>Това е забелÑзано отдавна, поради което и не е приÑтъпено към използването на тази база от данни в „БГ ОфиÑ“.<br><br>Ðо въпреки това има начини, по който можете да ни помогнете за spellchecker-а:</div><div><br>1. Ðко знаете как, ще Ñе радвам да Ñъздадете .txt вариант на db.sql.gz (вÑе пак това е SQL база от данни...), даже е добре този вариант да Ñе раздели на нÑколко отделни .txt файла, защото иначе ще е мъка да Ñе редактира Ñ Ñ‚ÐµÐºÑтов редактор.<br><br></div><div>2. Ðабираме желаещи да направÑÑ‚ OCR и поÑледваща ръчна проверка и ÐºÐ¾Ñ€ÐµÐºÑ†Ð¸Ñ Ð½Ð° речника на БÐРот 2012 г. (чрез ползване на най-новата верÑÐ¸Ñ Ð½Ð° ABBYY FineReader):<br><br><a href="http://www.mediafire.com/view/7tncj767aau69d3/OPRBE-2012_full_2pagesperpage.pdf" target="_blank">http://www.mediafire.com/view/7tncj767aau69d3/OPRBE-2012_full_2pagesperpage.pdf</a><br><a href="http://www.mediafire.com/download/tpgax3g7o36k4oy/OPRBE-2012_full_2pagesperpage_lossy-djvu.djvu" target="_blank">http://www.mediafire.com/download/tpgax3g7o36k4oy/OPRBE-2012_full_2pagesperpage_lossy-djvu.djvu</a><br><br>Има обаче една тънкоÑÑ‚ при корекциÑта — поради извеÑтни недоÑтатъци на ABBYY FineReader, програмата не може правилно да разчете знаците за ударение на думите и обикновено дава резултат без Ñ‚ÑÑ…, което означава, че при ръчна ÐºÐ¾Ñ€ÐµÐºÑ†Ð¸Ñ Ñ‚Ñ€Ñбва да напишете думата 2 пъти: един без ÑƒÐ´Ð°Ñ€ÐµÐ½Ð¸Ñ Ð¸ един път Ñ Ð¿Ñ€Ð°Ð²Ð¸Ð»Ð½Ð¸Ñ‚Ðµ ударениÑ. Ðо и при това има затруднение, защото има нÑколко (!!!) начина за Ñлагане на ÑƒÐ´Ð°Ñ€ÐµÐ½Ð¸Ñ â€” чрез копиране на знак от Уникод, комбиниран ÑÑŠÑ Ð·Ð½Ð°ÐºÐ° за ударение (май Ñе казваше „гравиÑ“ (тежко ударение), Ñ‚.е. U+0300 COMBINING GRAVE ACCENT, <a href="http://en.wikipedia.org/wiki/Combining_character" target="_blank">http://en.wikipedia.org/wiki/Combining_character</a>), чрез знак и Ñложено Ñлед него ударение (което незнайно защо Ñе показва като един знак впоÑледÑтвие), или чрез използване на Ñ‚.нар. <a href="http://en.wikipedia.org/wiki/Precomposed_character" target="_blank">precomposed characters</a> (като „Ñ“).</div><div><br></div><div>При корекциÑта на един друг речник в „Читанка“ Ñа решили да ползват Ð²Ñ‚Ð¾Ñ€Ð¸Ñ Ð²Ð°Ñ€Ð¸Ð°Ð½Ñ‚ (пример за Ñлети знаци: байга̀ньо; пример за начина, използван в ÑÐºÐ°Ð½Ð¸Ñ€Ð°Ð½Ð¸Ñ Ñ€ÐµÑ‡Ð½Ð¸Ðº Мурдаров в „Читанка“: байга`ньо), от Ñледната Ñтраница можеш да видиш как изглежда правопиÑÑŠÑ‚ във варианта, използван в „Читанка“: <a href="http://wiki.workroom.chitanka.info/Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41" target="_blank">http://wiki.workroom.chitanka.info/Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41</a> (но за да видиш реалното положение на нещата е нужно да влезеш в профила Ñи в „Читанка“ и да отидеш например на <a href="http://wiki.workroom.chitanka.info/index.php?title=Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41&action=edit" target="_blank">http://wiki.workroom.chitanka.info/index.php?title=Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41&action=edit</a>), техниÑÑ‚ вариант е ÑÐ¿Ð¾Ð¼ÐµÐ½Ð°Ñ‚Ð¸Ñ Ð½Ð°Ð³Ð¾Ñ€Ðµ „байга`ньо“, а не „байга̀ньо“ (възможно е да не ти Ñе показва правилно, ако не ползваш подходÑщ шрифт...).</div><div><br></div><div>За мен техниÑÑ‚ вариант не е оÑобено удачен, защото например при Ñ‚ÑŠÑ€Ñене Ñ Ctrl+F за низа „байганьо“ чрез браузър (давам пример Ñ Ð¿Ð¾Ñледната верÑÐ¸Ñ Ð½Ð° Opera), излиза правилно откроÑване на резултата „байга̀ньо“ дори при Ñ‚ÑŠÑ€Ñене за „байганьо“ (Ñ‚.е. без ударението), докато за откриване на „байга`ньо“ Ñ‚Ñ€Ñбва да добавиш по нÑкакъв друг начин знака „гравиÑ“, което много уÑложнÑва нещата и е адÑки неудобно! Т.е. Ñ‚Ñ€Ñбва да Ñе избере и правилниÑÑ‚ вариант за Ñлагане на ударениÑта на 2-рото копие на дадена дума от речника. ОбÑÑнението на „Читанка“ е „За ударение използвайте Ñимвола „`“ (обикновено е на един и Ñъщи клавиш Ñ â€ž~“, влÑво от „1“), като го поÑтавите Ñлед ударената глаÑна, например „ÐСТРОÐÐ`ВТ“.“... Мъка... Ð’Ñичко това Ñлагане на ударениÑ, за Ñъжаление, Ñтава Ñамо ръчно и затова ще отнеме адÑки много време... :\</div><div><br></div><div>Колкото до ÑричкопренаÑÑнето — то е трудно и за да е точно (а не проÑто генерирано по алгоритъм, който чеÑто дава напълно грешни варианти за ÑричкопренаÑÑне), то Ñ‚Ñ€Ñбва да Ñе направи като ръчно напиÑан ÑпиÑък ÑÑŠÑ Ñричките на думите. Ðлгоритмите не могат да автоматизират напълно този процеÑ, дори и при английÑÐºÐ¸Ñ ÐµÐ·Ð¸Ðº (чието ÑричкопренаÑÑне Ñъщо е трудно и не е напълно точно, ако е генерирано чрез алгоритъм — даже ÑпециалиÑтите препоръчват да Ñе ползва речник за ÑверÑване на ÑричкопренаÑÑнето и не Ñе изиÑква да Ñе помни то наизуÑÑ‚). СричкопренаÑÑнето на българÑки думи в LaTeX Ñъщо е незадоволително, не Ñа Ñамо Firefox, OpenOffice.org/LibreOffice и Thunderbird... За щаÑтие, в днешно време почти не Ñе използва ÑричкопренаÑÑне (оÑвен при печатни книги), което намалÑва тежеÑтта на този проблем.<br><br><br><br>Лошо е, че bg.aff от „БГ ОфиÑ“ ползва windows-1251... Доколкото знам, файлът .aff е Ñамо за афикÑите, даже е Ñамо май за окончаниÑта и определителните членове (не включва предÑтавки и наÑтавки).<br><br><div>Файлът за ÑричкопренаÑÑнето май е hyph_bg_BG.dic, но и то за жалоÑÑ‚ е Ñ ÐºÐ¾Ð´Ð¸Ñ€Ð¾Ð²ÐºÐ° windows-1251. Пък и Ñвно не е ÑъвÑем пълен, защото Firefox подчертава като грешни много правилно напиÑани думи, ако Ñте поÑтавили окончание и/или окончание и определителен член (това важи оÑобено много за добавени от Ð¿Ð¾Ñ‚Ñ€ÐµÐ±Ð¸Ñ‚ÐµÐ»Ñ Ð´ÑƒÐ¼Ð¸ (Ñ‚.е. чрез използването на ÑÐµÐ»ÐµÐºÑ†Ð¸Ñ Ð½Ð° думата, дÑÑно щракване върху Ð½ÐµÑ Ð¸ Add to dictionary във Firefox!). Разбира Ñе, това е поправимо, пък и колоÑалниÑÑ‚ труд зад „БГ ОфиÑ“ значително улеÑнÑва подобрÑването на Ñамите файлове на „БГ ОфиÑ“. Пък и понÑкога е възможно, ако ползваш грешен Ð°Ñ„Ð¸ÐºÑ ÐºÑŠÐ¼ дума (например окончание и определителен член за м. Ñ€., ед. ч. при дума от ж. Ñ€., ед. ч.), програмата да не ти подчертае грешката (макар че това Ñе Ñлучва изключително Ñ€Ñдко).<br><br>Друг е въпроÑÑŠÑ‚, че от езикова гледна точка има ÐºÐ¾Ð»ÐµÐ±Ð°Ð½Ð¸Ñ Ð² употребата на окончанието (Ñ‚.е. на рода и най-вече на мн. ч.) на новонавлезлите в езика ни заемки от други езици — например „дронове“ или „дрони“, което нÑма как да бъде нормирано чрез spellchecker-а на „БГ ОфиÑ“, защото още не Ñе е Ñтигнало до конÑенÑÑƒÑ Ð¿Ð¾ въпроÑа ÐºÐ¾Ñ Ð¾Ñ‚ формите е по-правилната...<br><br>П.П. Ðай-леÑно е да добавим нови думи към bg.dic. ВъпроÑÑŠÑ‚ е, че те Ñ‚Ñ€Ñбва да Ñе ÑверÑÑ‚ Ñ Ð¾Ñ„Ð¸Ñ†Ð¸Ð°Ð»Ð½Ð¸Ñ Ñ€ÐµÑ‡Ð½Ð¸Ðº (и да Ñе има предвид, че и в него има грешки на меÑта...) и едва тогава да Ñе добавÑÑ‚ към bg.dic. Иначе нÑма ÑмиÑъл от тези промени по речниковата база на spellchecker-а.</div><div><br></div><div>ЕнтуÑиазмът ви обаче е похвален, ако по-нататък имате доÑтатъчно Ñвободно време и имате желание да допринеÑете за развитието на един нов Ñвободен речник, който надгражда този на „Читанка“, можете да Ñе включите в екипа на Ð½Ð°ÑˆÐ¸Ñ Ñ€ÐµÑ‡Ð½Ð¸Ðº „Словник“, който Ñе разработва от извеÑтно време, но който нÑма да бъде пуÑнат в Ñкоро време: <a href="http://slovnik.bulogos.info" target="_blank">http://slovnik.bulogos.info</a>.</div><div><br></div><div>Разбира Ñе, препоръчвам ви да Ñе Ñвържете и Ñ <a href="mailto:radnev@gmail.com" target="_blank">radnev@gmail.com</a> (авторът на „БГ ОфиÑ“), за да Ñе координирате Ñ Ð½ÐµÐ³Ð¾ по отношение на вашите приноÑи към „БГ ОфиÑ“.<br><br>Поздрави,<br>Sah War (sahwar)</div></div></div><div class="gmail_extra"><br><div class="gmail_quote"><div><div class="h5">Ðа 29 март 2015 г., 12:15, СтоÑн Димитров <span dir="ltr"><<a href="mailto:stoyan@gmx.com" target="_blank">stoyan@gmx.com</a>></span> напиÑа:<br></div></div><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div><div class="h5">
<div bgcolor="#FFFFFF" text="#000000">
<font face="Fira Sans">   Здравейте,<br>
   интереÑува ме нÑкой от Ð²Ð°Ñ Ð·Ð½Ð°Ðµ ли дали в момента Ñе извършва
дейноÑÑ‚ по оÑъвременÑването на модула за проверка на правопиÑа в
БГ ÐžÑ„Ð¸Ñ [1] по-Ñкоро ÑпиÑъка Ñ Ð´ÑƒÐ¼Ð¸ (вероÑтно Ñе нарича „речник“).
След предварителен преглед на базата данни [2] от речника [3]
миÑлÑ, че ÑпиÑъкът Ñ Ð´ÑƒÐ¼Ð¸, включени в БГ ОфиÑ, може да бъде
оÑъвременен и поддържан във форма Ñравнително леÑно. Като
допълнителен Ð±Ð¾Ð½ÑƒÑ Ð¿Ñ€Ð¾Ñ†ÐµÑÑŠÑ‚ на обновÑване може да бъде
автоматизиран. Ðе е Ñъм ÑъвÑем Ñигурен, но вероÑтно вÑички модули
(напр. ÑричкопренаÑÑнето) и за вÑички продукти (OpenOffice,
Mozilla) ще имат полза от това.<br>
   Започнал Ñъм работа по файла .aff, което да поÑлужи като
шаблон за генерирането на допълнен речник за проверка на правопиÑа,
та идеÑта ми е да не Ñе наÑтъпим Ñ Ð½Ñкого.<br>
<br>
П.П.<br>
Разборът, който е направен на Ð¸Ð·Ñ…Ð¾Ð´Ð½Ð¸Ñ Ð¼Ð°Ñ‚ÐµÑ€Ð¸Ð°Ð», за да бъде
реализиран [3] е Ñтрахотна оÑнова за надграждане и Ð½ÐµÐ·Ð½Ð°Ñ ÐºÐ°Ðº е
оÑтанал незабелÑзан до момента. ÐŸÐ¾Ð·Ð´Ñ€Ð°Ð²Ð»ÐµÐ½Ð¸Ñ Ð·Ð° автора!<br>
<br>
__<br>
[1] - <a href="http://bgoffice.sf.net" target="_blank">http://bgoffice.sf.net</a><br>
[2] - <a href="http://rechnik.chitanka.info/db.sql.gz" target="_blank">http://rechnik.chitanka.info/db.sql.gz</a><br>
[3] - <a href="http://rechnik.chitanka.info" target="_blank">http://rechnik.chitanka.info</a><span><font color="#888888"><br>
</font></span></font><span><font color="#888888">
<pre cols="72">--
С</pre>
</font></span></div>
<br></div></div>_______________________________________________<br>
Dict mailing list<br>
<a href="mailto:Dict@ludost.net" target="_blank">Dict@ludost.net</a><br>
<a href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict" target="_blank">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a><br>
<br></blockquote></div><br></div>
<br>_______________________________________________<br>
Dict mailing list<br>
<a href="mailto:Dict@ludost.net">Dict@ludost.net</a><br>
<a href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict" target="_blank">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a><br>
<br></blockquote></div><br></div>