„Добре дошли в Microsoft Ръб“, посреща ни официална страница в портала на технологичния гигант. Съобщението е възможно най-лошият начин да бъде представена на българската аудитория програмата за достъп до уеб сайтове Microsoft Edge.
„Прекръстването“ по всяка вероятност не е дело на служител с лоши езикови познания или още по-лошо чувство за хумор.
„Microsoft Ръб“ изглежда като излязло от контрол творение на машинния превод – технология, на която разчитат все повече сайтове по света.
Забелязваме я само когато има проблем.
Много полезно, но много опасно
Още от появата на първите такива специализирани услуги преди повече от 15 години, амбицията е чрез тях Глобалната мрежа да стане наистина глобална – без никакви езикови бариери. Качеството вече е най-малкото използваемо и куриози като този при „Майкрософт“ са все по-рядко срещани. При адекватен човешки контрол обикновените потребители най-често даже не разбират, че е използван машинен превод.
Монетата обаче има и обратна страна – лесното, мигновено и безплатно ползване на онлайн платформи като Google Translate „подарява“ нашите данни на големите компании, а и създава рискове за сигурността.
„Проблемът с всичките тези онлайн преводачи е, че те запазват вашите личните данни и ги ползват. По-лошото е, че понякога тези данни могат да бъдат откраднати или неволно изложени в интернет“, коментира д-р Николай Богойчев от Университета в Единбург, който има специализация в областите на обработката на естествен език и изкуствения интелект.
По най-лошия начин разбраха за този риск хиляди потребители на сайта Translate.com преди няколко години. Оказа се, че пуснати за автоматичен превод поверителни документи съвсем лесно излизат при онлайн търсене. Така публично достояние стана кореспонденцията на Норвежката петролна компания.
Също така на теория е възможно службите в авторитарна държава да използват подадената онлайн информация срещу инакомислещи граждани.
Това е и причината Богойчев и негови колеги да разработят нов тип безплатна платформа за машинен превод, която работи изцяло на компютъра на потребителя. Резултатът от TranslateLocally конкурира огромните сървърни флотилии на големите компании, а амбицията на разработчиците е софтуерът да бъде и в полза на бизнеса.
Програмата превежда от български на английски и от английски на български като допълнение към възможностите за работа с чешки, немски, испански, естонски, норвежки и исландски език. TranslateLocally се финансира от ЕС по проекта „Бергамот“ за създаване на система за превод, която защитава личните данни на потребителя.
Какво има под капака?
TranslateLocally се базира на междинен компонент с отворен код, върху който Богойчев и негови колеги от университета са работили в продължение на години, а сега се подкрепя и от големи онлайн компании.
Самите езикови модели са изработени в няколко европейски университета, сред които е и Карловият университет в Прага.
Те са резултат от сериозна изчислителна дейност. Моделът за български език е изисквал ангажирането на 8 видеокарти от висок клас за три седмици. Използвани са 163 милиона паралелни изречения, т.е. текстове с едно и също съдържание на двата езика.
Богойчев отбелязва, че повечето преводачески платформи са уеб базирани, защото самият превод е твърде скъп от изчислителна гледна точка. Затова и се захващат с оптимизиране на програмния код.
„Целта която имахме, е когато човек на над 10-годишен лаптоп отвори нашето приложение, то да работи също толкова бързо, колкото и онлайн преводачът на „Гугъл“. Нито един потребител не би чакал 20 секунди за да се преведе едно изречение. Общо взето, целта ни е да накараме един малък лаптоп да изглежда в окото на крайния потребител също толкова бърз, колкото флотата от суперкомпютри на „Гугъл“.
При тестването с дописка от БТА с дължина от 818 думи резултатът е превод от български на английски с 1161 думи в секунда и напълно приемливо качество в сравнение с големите платформи. За целта е използван компютър с процесор i7-6700, 16 GB RAM и вградена видеокарта. Подобна машина на втора ръка може да се купи за под 700 лв.
Машините винаги ще имат нужда от помощ
Богойчев е скептичен към прогнозите, че съвсем скоро машинният превод ще ни позволява свободно да общуваме във всяка точка на света по всякакви теми: „Машинният превод се представя много зле в сфери които не е виждал докато се е тренирал. Това е проблем в превод на специфични сфери като медицинската, високите технологии, математиката…“.
Втори проблем е надеждността. По думите му грешката на машината може да бъде катастрофална: „Човешки преводач може лесно да каже кога не е сигурен и да помоли за уточнение или да провери в речник. Машинният преводач не може да прави това“.
Разбира се, не всеки ден се налага да превеждаме литературни творби или да провеждаме преговори на най-високо дипломатическо ниво. „Що се отнася до ежедневна комуникация за злободневни теми и в сфери, където не е важна сто процента точност на преведеното, а просто смисълът да бъде пренесен, то машинният превод е готов“, подчертава Богойчев.
Какво следва за TranslateLocally?
Компютрите вече явно са достатъчно мощни, че да правят това, за което преди са били нужни отдалечени сървъри. В наши дни обаче устройството, с което най-често боравим, е мобилният телефон. Богойчев и колегите му имат планове за приложение за смартфон, като „проблемът не е в желанието, а в часовете на денонощието“.
„Един модерен Android или iOS телефон е по-мощен от един лаптоп от преди 10 години отбелязва той.
Планове има и в другата посока – софтуерът да работи във фирми. Големите играчи като „Гугъл“ и „Майкрософт“ предлагат специални решения за машинен превод в корпоративна среда, но те изискват инсталация на сървър и далеч не са по силите и бюджета на всички, които иначе биха се възползвали от възможностите на услугата.
Ще се разширяват и възможностите за превод – в момента той може да бъде само от и нас английски. Затруднение е липсата на публично достъпни масиви, на които да се основават моделите. Затова и първоначално TranslateLocally ще използва т.нар „пивотиране“, т.е. ще минава през английския, за да ни превежда, например, от испански на норвежки.
Софтуерът е с отворен код и всеки със знанията и уменията може да се включи в развиването му. Тепърва ще видим колко далеч ще достигне скромната на вид програма, която се опитва да конкурира най-големите в бранша. Даже и в момента има поне едно конкурентно предимство извън сигурността – знае, че Microsoft Edge не е Microsoft Ръб…