<div dir="ltr">Здравейте, г-н Димитров!<br><br>Предварително се извинявам за дългото писмо. :D<br><div><br></div><div>За съжаление, в речника на „Читанка“ има доста грешки и неточности и не е проверен дали е точен по отношение на правописа с последния официален правописен речник на БАН от 2012 г. (в който на места същ има грешки...), поради което базата от данни на речника на „Читанка“ не е много надеждна за целите на добавянето ѝ към spellchecker-а на „БГ Офис“ (т.е. първо трябва изцяло да се свери с речника на БАН, което е адски трудоемко...). Освен това на места липсват дублети.<br><br>Това е забелязано отдавна, поради което и не е пристъпено към използването на тази база от данни в „БГ Офис“.<br><br>Но въпреки това има начини, по който можете да ни помогнете за spellchecker-а:</div><div><br>1. Ако знаете как, ще се радвам да създадете .txt вариант на db.sql.gz (все пак това е SQL база от данни...), даже е добре този вариант да се раздели на няколко отделни .txt файла, защото иначе ще е мъка да се редактира с текстов редактор.<br><br></div><div>2. Набираме желаещи да направят OCR и последваща ръчна проверка и корекция на речника на БАН от 2012 г. (чрез ползване на най-новата версия на ABBYY FineReader):<br><br><a href="http://www.mediafire.com/view/7tncj767aau69d3/OPRBE-2012_full_2pagesperpage.pdf" target="_blank">http://www.mediafire.com/view/7tncj767aau69d3/OPRBE-2012_full_2pagesperpage.pdf</a><br><a href="http://www.mediafire.com/download/tpgax3g7o36k4oy/OPRBE-2012_full_2pagesperpage_lossy-djvu.djvu" target="_blank">http://www.mediafire.com/download/tpgax3g7o36k4oy/OPRBE-2012_full_2pagesperpage_lossy-djvu.djvu</a><br><br>Има обаче една тънкост при корекцията — поради известни недостатъци на ABBYY FineReader, програмата не може правилно да разчете знаците за ударение на думите и обикновено дава резултат без тях, което означава, че при ръчна корекция трябва да напишете думата 2 пъти: един без ударения и един път с правилните ударения. Но и при това има затруднение, защото има няколко (!!!) начина за слагане на ударения — чрез копиране на знак от Уникод, комбиниран със знака за ударение (май се казваше „гравис“ (тежко ударение), т.е. U+0300 COMBINING GRAVE ACCENT, <a href="http://en.wikipedia.org/wiki/Combining_character" target="_blank">http://en.wikipedia.org/wiki/Combining_character</a>), чрез знак и сложено след него ударение (което незнайно защо се показва като един знак впоследствие), или чрез използване на т.нар. <a href="http://en.wikipedia.org/wiki/Precomposed_character" target="_blank">precomposed characters</a> (като „ѝ“).</div><div><br></div><div>При корекцията на един друг речник в „Читанка“ са решили да ползват втория вариант (пример за слети знаци: байга̀ньо; пример за начина, използван в сканирания речник Мурдаров в „Читанка“: байга`ньо), от следната страница можеш да видиш как изглежда правописът във варианта, използван в „Читанка“: <a href="http://wiki.workroom.chitanka.info/Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41" target="_blank">http://wiki.workroom.chitanka.info/Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41</a> (но за да видиш реалното положение на нещата е нужно да влезеш в профила си в „Читанка“ и да отидеш например на <a href="http://wiki.workroom.chitanka.info/index.php?title=Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41&action=edit" target="_blank">http://wiki.workroom.chitanka.info/index.php?title=Page:Murdarov-Rechnik_na_sljatoto_polusljatoto_i_razdelnoto_pisane.djvu/41&action=edit</a>), техният вариант е споменатия нагоре „байга`ньо“, а не „байга̀ньо“ (възможно е да не ти се показва правилно, ако не ползваш подходящ шрифт...).</div><div><br></div><div>За мен техният вариант не е особено удачен, защото например при търсене с Ctrl+F за низа „байганьо“ чрез браузър (давам пример с последната версия на Opera), излиза правилно открояване на резултата „байга̀ньо“ дори при търсене за „байганьо“ (т.е. без ударението), докато за откриване на „байга`ньо“ трябва да добавиш по някакъв друг начин знака „гравис“, което много усложнява нещата и е адски неудобно! Т.е. трябва да се избере и правилният вариант за слагане на ударенията на 2-рото копие на дадена дума от речника. Обяснението на „Читанка“ е „За ударение използвайте символа „`“ (обикновено е на един и същи клавиш с „~“, вляво от „1“), като го поставите след ударената гласна, например „АСТРОНА`ВТ“.“... Мъка... Всичко това слагане на ударения, за съжаление, става само ръчно и затова ще отнеме адски много време... :\</div><div><br></div><div>Колкото до сричкопренасянето — то е трудно и за да е точно (а не просто генерирано по алгоритъм, който често дава напълно грешни варианти за сричкопренасяне), то трябва да се направи като ръчно написан списък със сричките на думите. Алгоритмите не могат да автоматизират напълно този процес, дори и при английския език (чието сричкопренасяне също е трудно и не е напълно точно, ако е генерирано чрез алгоритъм — даже специалистите препоръчват да се ползва речник за сверяване на сричкопренасянето и не се изисква да се помни то наизуст). Сричкопренасянето на български думи в LaTeX също е незадоволително, не са само Firefox, OpenOffice.org/LibreOffice и Thunderbird... За щастие, в днешно време почти не се използва сричкопренасяне (освен при печатни книги), което намалява тежестта на този проблем.<br><br><br><br>Лошо е, че bg.aff от „БГ Офис“ ползва windows-1251... Доколкото знам, файлът .aff е само за афиксите, даже е само май за окончанията и определителните членове (не включва представки и наставки).<br><br><div>Файлът за сричкопренасянето май е hyph_bg_BG.dic, но и то за жалост е с кодировка windows-1251. Пък и явно не е съвсем пълен, защото Firefox подчертава като грешни много правилно написани думи, ако сте поставили окончание и/или окончание и определителен член (това важи особено много за добавени от потребителя думи (т.е. чрез използването на селекция на думата, дясно щракване върху нея и Add to dictionary във Firefox!). Разбира се, това е поправимо, пък и колосалният труд зад „БГ Офис“ значително улеснява подобряването на самите файлове на „БГ Офис“. Пък и понякога е възможно, ако ползваш грешен афикс към дума (например окончание и определителен член за м. р., ед. ч. при дума от ж. р., ед. ч.), програмата да не ти подчертае грешката (макар че това се случва изключително рядко).<br><br>Друг е въпросът, че от езикова гледна точка има колебания в употребата на окончанието (т.е. на рода и най-вече на мн. ч.) на новонавлезлите в езика ни заемки от други езици — например „дронове“ или „дрони“, което няма как да бъде нормирано чрез spellchecker-а на „БГ Офис“, защото още не се е стигнало до консенсус по въпроса коя от формите е по-правилната...<br><br>П.П. Най-лесно е да добавим нови думи към bg.dic. Въпросът е, че те трябва да се сверят с официалния речник (и да се има предвид, че и в него има грешки на места...) и едва тогава да се добавят към bg.dic. Иначе няма смисъл от тези промени по речниковата база на spellchecker-а.</div><div><br></div><div>Ентусиазмът ви обаче е похвален, ако по-нататък имате достатъчно свободно време и имате желание да допринесете за развитието на един нов свободен речник, който надгражда този на „Читанка“, можете да се включите в екипа на нашия речник „Словник“, който се разработва от известно време, но който няма да бъде пуснат в скоро време: <a href="http://slovnik.bulogos.info" target="_blank">http://slovnik.bulogos.info</a>.</div><div><br></div><div class="">Разбира се, препоръчвам ви да се свържете и с <a href="mailto:radnev@gmail.com" target="_blank">radnev@gmail.com</a> (авторът на „БГ Офис“), за да се координирате с него по отношение на вашите приноси към „БГ Офис“.<br><br>Поздрави,<br>Sah War (sahwar)</div></div></div><div class="gmail_extra"><br><div class="gmail_quote">На 29 март 2015 г., 12:15, Стоян Димитров <span dir="ltr"><<a href="mailto:stoyan@gmx.com" target="_blank">stoyan@gmx.com</a>></span> написа:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div bgcolor="#FFFFFF" text="#000000">
<font face="Fira Sans"> Здравейте,<br>
интересува ме някой от вас знае ли дали в момента се извършва
дейност по осъвременяването на модула за проверка на правописа в
БГ Офис [1] по-скоро списъка с думи (вероятно се нарича „речник“).
След предварителен преглед на базата данни [2] от речника [3]
мисля, че списъкът с думи, включени в БГ Офис, може да бъде
осъвременен и поддържан във форма сравнително лесно. Като
допълнителен бонус процесът на обновяване може да бъде
автоматизиран. Не е съм съвсем сигурен, но вероятно всички модули
(напр. сричкопренасянето) и за всички продукти (OpenOffice,
Mozilla) ще имат полза от това.<br>
Започнал съм работа по файла .aff, което да послужи като
шаблон за генерирането на допълнен речник за проверка на правописа,
та идеята ми е да не се настъпим с някого.<br>
<br>
П.П.<br>
Разборът, който е направен на изходния материал, за да бъде
реализиран [3] е страхотна основа за надграждане и незная как е
останал незабелязан до момента. Поздравления за автора!<br>
<br>
__<br>
[1] - <a href="http://bgoffice.sf.net" target="_blank">http://bgoffice.sf.net</a><br>
[2] - <a href="http://rechnik.chitanka.info/db.sql.gz" target="_blank">http://rechnik.chitanka.info/db.sql.gz</a><br>
[3] - <a href="http://rechnik.chitanka.info" target="_blank">http://rechnik.chitanka.info</a><span class="HOEnZb"><font color="#888888"><br>
</font></span></font><span class="HOEnZb"><font color="#888888">
<pre cols="72">--
С</pre>
</font></span></div>
<br>_______________________________________________<br>
Dict mailing list<br>
<a href="mailto:Dict@ludost.net">Dict@ludost.net</a><br>
<a href="http://lists.ludost.net/cgi-bin/mailman/listinfo/dict" target="_blank">http://lists.ludost.net/cgi-bin/mailman/listinfo/dict</a><br>
<br></blockquote></div><br></div>