В архиви и библиотеки по света има исторически документи, скрити зад неразгадаем шифър, а изкуственият интелект все по-често помага на изследователите да отключат тези тайни текстове.
Дълбоко в архивите на Ватиканската библиотека в продължение на повече от 400 години е лежала необикновена ръкописна книга, изписана със странни символи и останала неразчетена. По нейните загадъчни страници, изглежда, са били скрити тайни лечебни рецепти „за страдания на човешкото тяло“, както подсказва текст, издълбан върху корицата.
Подобни практики са се пазели в тайна, тъй като по онова време са можели да предизвикат подозрения или дори обвинения в магьосничество.
Ръкописът, известен като „Шифъра на Борг“, е с обем 408 страници и в по-голямата си част е неразбираем. Текстът е кодиран с 34 неясни символа, към които се добавят няколко римски букви, а първата страница е написана на арабски. Дълго време не е бил известен ключът, с който да се разкрие какво точно е било закодирано. Някои от страниците са и повредени от времето, което допълнително усложнява разчитането.
С помощта на машинно обучение - форма на изкуствен интелект - изследователите успяват да разбият кода, пише Би Би Си.
Оказва се, че текстът е изпъстрен с хиляди странни лечения, сред които пиене на няколко чаши висококачествено червено вино или ферментиране на индийско орехче в тесто за борба с дизентерията.
„Това е като детективска работа, при която всеки символ, всеки модел и всяко частично решение може да ни доближи до нечии тайни и до един изгубен исторически свят“, казва Беата Мегьези, професор по компютърна лингвистика в Стокхолмския университет в Швеция, която е част от екипа, разчел текста.
Дори с помощта на AI процесът по разшифроването на ключа е бил изключително трудоемък.
Сега Мегьези и нейните колеги ръководят усилия за използване на силата на изкуствения интелект за разгадаване на исторически шифри, което може да отключи огромно количество кодирана информация от миналото, досега смятана за неразрешима.
Според някои оценки около 1% от материалите в архивите и библиотеките по света са изцяло или частично шифрирани. Най-ранните известни шифри датират още от Древна Гърция и Рим.
Примамки, мъртви езици и лош почерк
Кодираните исторически документи крият дипломатическа информация, ритуали на тайни общества, медицински знания, любовни истории или всекидневни подробности, които хората са искали да запазят в тайна.
Това е информация, която днес липсва от историческите разкази. В някои случаи разчитането на подобни документи може да промени това, което знаем за известна личност или за цяла епоха.
Един неотдавнашен пример са група кодирани писма, за които по-късно става ясно, че са били написани от Мария Стюарт по време на дългото ѝ затворничество в Англия. Те разкриват участието ѝ в заговори за възстановяване на трона и напрегнатите ѝ отношения със сина ѝ Джеймс VI от Шотландия, бъдещия крал Джеймс I на Англия.
Историческите шифри могат да бъдат сравнително прости: шифърът на Борг, например, използва заместващ шифър, при който всеки символ е заменен с една римска буква, за да се скрие написаното.
Други обаче са далеч по-трудни за разгадаване. В някои случаи не е известно дори на какъв език е бил оригиналният текст. За заблуда могат да бъдат добавяни и допълнителни, безсмислени символи, които да подведат всеки, опитващ се да надникне в текста. В други случаи няколко знака могат да обозначават една и съща буква.
Това означава огромно количество работа — често чрез проба и грешка — дори за разчитането на малък откъс.
На Сесил Пиро, криптограф в Френския национален институт за изследвания в информатиката (INRIA) в Нанси, и нейните колеги им отнема шест месеца, за да разкрият постепенно ключа към 500-годишно писмо от Карл V, император на Свещената римска империя и крал на Испания, написано с 120 различни шифрови знака в три страници.
След разчитането става ясно, че Карл V - един от най-влиятелните хора на своето време - е бил сломен от страх, че срещу него се готви покушение. Кралят се е опасявал, че италиански наемнически военачалник, служил на френския крал Франсоа I, е на път да го убие.
Преди да започне разгадаването на шифър, изследователите първо трябва внимателно да превърнат ръкописния текст в цифров документ, който да бъде подаден на софтуер за разшифроване. Лошият почерк и избледнялото мастило могат да направят тази задача още по-трудна.
Пиро казва, че обикновено ѝ отнема цял ден само за да препише двустранно писмо, съдържащо символи, които са ѝ непознати.
Как AI помага да се разчитат тайни текстове по-бързо
Но изкуственият интелект вече започва да ускорява процеса. Мишел Валдиспюл, професор по немско езикознание в Университета в Осло в Норвегия, и нейните колеги наскоро използваха онлайн AI платформа, наречена Transkribus, за да препишат тайно писмо, изпратено през 1637 г. от благородника Зигмунд Хойснер фон Вандерслебен до шведския лорд-канцлер Аксел Оксеншерна — в разгара на Тридесетгодишната война, религиозен конфликт, отнел милиони животи и опустошил големи части от Европа.
Инструментът е обучаван върху различни езици, писмени системи и почерци, обхващащи няколко века. След като изображението на документ бъде качено в системата, AI първо открива текстовите блокове и отделните редове, а след това преглежда целия текст знак по знак, за да го превърне в цифров вид.
Макар да са били необходими и някои ръчни корекции, инструментът се е справил добре с писмото на фон Вандерслебен, тъй като то е било само частично шифрирано с цифри, разделени с точки, които са били изписани ясно и с добре отделени знаци. Други части не са били кодирани и са били написани просто на немски от XVII век.
Съществуващите AI платформи за транскрипция често се затрудняват, когато ръкописите са шифрирани с необичайни знаци, като измислени символи, астрологически знаци или цифри, изписани по странен начин. Затова Мегьези, Валдиспюл и техните колеги разработват собствен AI инструмент, който да превръща ръкописни исторически текстове с неясни символи или писмености в машинно четими документи, като част от международния проект Descrypt.
„Разработваме по-гъвкави модели, обучени и тествани върху широк набор от писмености, азбуки и символни системи“, казва Мегьези.
След като един таен документ бъде транскрибиран, започва детективската работа. В момента криптолозите често използват специално разработен, не-AI компютърен софтуер, който чрез алгоритми се опитва да определи какъв шифър е използван и да го разбие. Простите шифри често могат да бъдат разкрити чрез анализ на честотата на използваните символи и съпоставянето им с буквите от азбуката, които се срещат със сходна честота в даден език. Например в английския език най-често срещаната буква е E, а Z, Q и X са сред най-рядко срещаните.
Но в писмото на фон Вандерслебен от фронтовете на Тридесетгодишната война, например, той е използвал до осем различни символа, за да обозначи буквата E. Това е наложило проба и грешка, както и познанията на Валдиспюл по стар немски, за да бъде кодът постепенно разплетен.
„Много се редуваше между машината и човешката проверка“, казва Валдиспюл. „Може би в даден момент AI ще може да го прави напълно самостоятелно.“
Зад шифъра са били скрити предупрежденията на фон Вандерслебен за заплахата, която представлявали фракциите сред протестантските съюзници на Швеция във войната. Той пише на Оксеншерна, че е бил принуден да предприеме стратегически отстъпления от конфликта, след като научил за заговор сред съюзниците си, включително лорд Франц Хайнрих от Саксония.
Възраждане на стари кодове
Мегьези и екипът ѝ сега проучват как AI може да прескочи етапа на транскрипция изцяло, като просто анализира снимки на страниците, за да разчете тайните послания. Наскоро те показаха как този подход може да работи при прости кодове, при които всяка буква е заменена с един символ.
Екипът тества системата върху ръкопис от 105 страници, който вече е бил разчетен и е известен като шифъра Copiale. Той описва ритуалите, правилата и идеалите на немско тайно общество от XVIII век. След като обучили AI върху общи образци на почерк, а след това върху изображения на конкретни редове от шифъра и съответстващия им разчетен немски текст, системата успяла точно да дешифрира части от текста, които не е виждала преди.
Подобна система би била особено полезна, когато основният език на даден шифър е неизвестен.
„Това отваря вълнуващи възможности за редки и нестандартни писмени системи“, казва Мегьези. „Крайната цел е транскрипцията и разчитането да се обединят в една-единствена стъпка.“
Валдиспюл и колегите ѝ претърсват стари архиви в търсене на шифровани текстове, които да включат в база данни. Това може да се окаже от ключово значение за събирането на достатъчно данни, необходими за обучението на AI, способен да разбива кодове. Големите езикови модели, които стоят зад AI чатботове като ChatGPT, се обучават върху трилиони думи от книги, статии и уебсайтове. Намирането на еквивалентно количество данни за разкодиране на шифри е предизвикателство.
Сред събрания материал са и 400 загадъчни пощенски картички, написани на шифър от края на XIX и началото на XX век. Малкото вече разчетени откъси показват, че някои от тях са любовни писма, написани на немски.
Екипът на Мегьези е използвал своята работа, за да създаде AI чатбот-инструмент, който комбинира транскрипция и дешифриране в една стъпка. Чатботът съчетава алгоритми за разкодиране, обучени върху двойки шифрови знаци и текста, който те представляват, с големи езикови модели, обучени върху исторически текстове от различни периоди, за да помагат с подсказки за даден код. Включват се и алгоритми за разпознаване на изображения, обучени върху анотиран почерк. Инструментът ще може и да се самоусъвършенства, като включва корекциите, направени от експерти, които го използват.
Идеята е изследователи, а дори и широката публика, да могат да подадат на чатбота шифрован исторически текст и той да разкрие какво е написано.
Когато изследователите тествали AI чатбота с шифъра на Борг, Мегьези и колегите ѝ установили, че той може да преведе и разкодира откъс от 500 символа за малко повече от 29 минути. Той дори е предложил превод на английски. Освен това е документирал процеса и е обяснил защо решението е правдоподобно. Това е важно, за да се гарантира, че AI не халюцинира и не измисля интерпретации.
Екипът наскоро е тествал системата и с два други шифъра, които вече е разчел и които представляват различни исторически периоди, езици, видове тайни кодове и нива на сложност. Тя ги е разкодирала бързо, което показва, че може да се справя с широк набор от шифри.
„AI помага най-много със скалата, скоростта, разпознаването на модели и обединяването на задачи“, казва Мегьези.
Подобни AI инструменти могат да се окажат ключови за разчупването на исторически шифри, които досега са убягвали на изследователите. Те ще помогнат и при древни текстове, написани с азбуки, които днес никой не може да чете. Например 4000-годишният диск от Фестос от Крит все още не е разчетен, също както и ранногръцката писменост „Линеар Б“.
„Това, което ме вълнува, е не само възможността да бъде решена една конкретна историческа загадка, а перспективата да създадем методи, които да помагат на изследователите в много различни случаи“, казва Мегьези.


