Увод у упоредно кодирање речника: XML и TEI

agap-new

Кроз формално кодирање речничке структуре и лексичко и употребно индексирање језичких ресурса, дигитализација речника нам омогућује да боље упознамо — и истовремено — осавременимо лексикографску традицију.

Овај чланак приказује на који начин дигитализација једног речника пружа прилику да га боље упознамо. Он такође упоредо приказује два пројекта дигитализације штампаних дела: старог глосара средњевековног латинског, Glossarium mediae et infimae latinitatis – Du Cange et al. (1. издање: 1678; последње издање: 1875-1887),1 и савременог речника старогрчког језика, Diccionario Griego-Español (1980-).2 Оба ова лексикографска дела описују један класични језик, садрже бројне цитате и састоје се од више томова. Али њихово поређење је овде мотивисано заједничком употребом истог стандарда кодирања (Препоруке Иницијативе за кодирање текста).

Glossarium mediae et infimae latinitatis, éd. augm., Niort : L. Favre, 1883 1887, t. II, col. 345a.

Пошто представимо Glossarium и DGEи укратко прикажемо формат (XML-TEI) који је коришћен за њихову дигитализацију, анализираћемо затим дела у функцији извесних елемената њихове схеме кодирања, задржавајући се на три целине које одговарају трима основним компонентама лексикографског текста: лематизацији, цитатима и значењима. Код сваке етапе овог описивања, покушаћемо да прикажемо како се са напретком аутоматске обраде класичних језика могу поново искористити богатства традиционалне лексикографије.

1. Приказ дела и њихове дигитализације

1.1. Glossarium mediae et infimae latinitatis

Иако је настао у 17. веку, Ди Канж (Du Cange) се ипак користи и данас, нарочито од стране медиевалиста. До сада су објављени и други приручници, као што је Нирмејер,3 али консултовање овог старог речника остаје још увек неопходан заобилазни пут за разумевање средњевековног текста.

Дигитално издање Glossarium-а иницирала је Национална школа за архиваре и библиотекаре 2007. године. Од 2009. године, Национална агенција за истраживања (ANR) финансира пројекат OMNIA, заједно са Школом за архиваре и библиотекаре, UMR 5594 ARTeHIS (универзитет Бургоње – CNRS), и тимом латинске лексикографије са Института за истраживања и историју текстова (IRHT). Дигитализовани Glossarium биће комплетиран другим речницима средњевековног латинског током уређивања широм Европе, под покровитељством Међународне уније академија. Novum Glossarium Medii Latinitatis (NGML) 4, је општи речник средњевековног латинског (800-1200) који је саставио тим лексикографа са Института за истраживање и историју текстова. Од објављених томова (L до Pl), два су на интернету5 (од phacoides до plaka). Биће потребно доста времена да се сакупе на истом порталу све електронске алатке корпусне лексикографије: консултовање постојећих речника, колаборативно уређивање, као и слободне алатке за истраживање тагованих (означених) корпуса, као што је пројекат Персеј6 за средњевековни латински.

1.2. Diccionario Griego-Español

DGE је једносмеран двојезични речник (грчко-шпански) који је иницирао и чијом је израдом руководио од 1962. лингвиста Франсиско Родригез Адрадос, у оквиру Вишег савета за научна истраживања (Consejo Superior de Investigaciones Científicas) (Мадрид). Први том је издат 1980. године, а седми том, у којем је последња одредница ἔξαυος, је објављен 2009. Настављујући дугу традицију грчке лексикографије, прва амбиција DGE-а је да допринесе њеном обнављању, нудећи читаоцима шпанског говорног подручја речник који осавремењује и обогаћује речник који му непосредно претходи и представља његов узор, Грчко-енглески лексикон, познатији под именима својих уредника, Лидл-Скот-Џонс (Liddell-Scott-Jones) (LSJ)7. Узимајући у обзир изузетан развој филолошких ресурса – штампаних и електронских – шпански пројекат у ствари има амбицију да се на најсвеобухватнији могући начин бави грчком лексиком и да прошири свој корпус на највећи број текстова (књижевних текстова, коментара, записа, некњижевних и документарних папируса, из периода од микенске цивилизације до 6. века наше ере, померајући границу на 10. век за неке делове корпуса).

DGE, део одреднице βύβλος

Пројекат дигитализације који је тренутно у току у оквиру DGE-а састоји се од истицања важности текста који је дубоко структуриран и правилан, уз помоћ кодирања у XML TEI, омогућавајући тако много већу функционалност тражења речи и претраживања на интернету. Као почетно искуство са циљем да провери исправност схеме и означавања који су примењени на фајлове DGE-а, шпански пројекат је спровео дигитализацију Léxico de magia y religión en los papiros mágicos griegos (Речник магије и религије у грчким магијским списима) (LMPG), публикације која је додата DGE-у, објављене 2001.8 Ово дело, које је саставио Луис Муњоз Делгадо, је мањег обима (2 627 одредница, 400 страна) и семантички анализира један хомогенији и ограниченији корпус (грчкe магијскe списe од 2. века пре наше ере до 5. века наше ере, сакупљенe нарочито у Papyri Graecae Magicae и Supplementum Magicum9 ). Оно представља између осталог и настојање да се строго прати структура и форма DGE. Дигитализација овог дела је завршена ове године захваљујући значајном доприносу тима информатичара Школе за архиваре и библиотекаре који је дигитализовао Ди Канжа. Овде можемо још да приметимо да је заједнички рад који је могао бити обављен овом приликом од стране наша два тима био у великој мери олакшан заједничком „лексиком“: вокабуларом тагова TEI који описује структуру једног речника.

1.3. XML и TEI

Нема сумње да треба објаснити у неколико речи, на крају нашег приказа, шта су XML и TEI, и разлог због којег они представљају формат који је погодан за дигитализацију речника.

XML (eXtensible Markup Language)10 је синтакса кода која омогућава да се текст подели на сегменте и да се тим сегментима доделе етикете или тагови (дескриптивни елементи унутар угластих заграда). Ови се могу преклапати и сачињавати „стабла“. Редослед текстуалног тока је тако сачуван, кодови дозвољавају да се кодирају сва типографска дешавања.11 Поред тога, XML је језик за који се каже да је проширив (eXtensible) зато што он не прецизира вокабулар који ће бити уписан између угластих заграда. Документ може користити елементе : <dictionnaire>, <article>, <définition>, <exemple> ; као и <html>, <div>, <h1>, <p> ; или још <entry>, <form>, <sense>. „Интерпункција“ XML тако дозвољава сваком пројекту да дефинише свој вокабулар ознака и граматику која уређује њихове низове и њихове распореде: схему.

За Ди Канжа као и за DGE (наравно и за LMPG), изабрали смо да ручно напишемо једну посебну схему, са тачно контролисаном граматиком, али смо одлучили да пратимо стандардизовани вокабулар, онај који препоручује Иницијатива за кодирање текста (TEI)12. Избор вокабулара кодова поставља у ствари терминолошка питања: који језик изабрати за име елемента? Да ли треба рећи article, entrée, или articulus? Да ли су били потребни елементи на латинском за Ди Канжа, на грчком или шпанском за DGE? Конвенција као што је TEI их не елиминише у потпуности, имплицитна имена и појмови би били дискутабилни, али када се једном упишу у код, ове недвосмислене речи помажу да се квантификују, да се пореде и да се размењују извори и методе једног пројекта са другим. Поред тога, TEI је академски стандард који је посвећен издавању и дељењу текстова у хуманистичким наукама, и посвећује једно поглавље својих Препорука кодирању речника.13 Да поновимо, ове заједничке референце су овде биле подстицај за повезивање два речника, две лексикографије, два класична језика па је онда разумљиво у којој мери елементи TEI постају, као што је већ поменуто на почетку ове теме, заједнички репери између Ди Канжа и DGE-а, и на њих ће се од сада ослањати пресликавање у описивању садржаја два дела и њиховог предвиђеног коришћења за аутоматизовану обраду старогрчког и средњевековног латинског.14

2. Макроструктура: речник као база лексичких јединица, <entry>

Речник се заснива на атомизму који дели лексику на леме. Овај логички модел добро одговара информатици. Абецедна и лематизована организација лексике једног класичног језика, која претходи читавом лексикографском подухвату, захтева ипак рафинирану језичку процену како би се размрсило клупко графичких варијација у различитим вековима и на различитим просторима. Како означити и исправити терминологију како би се предвидело обезбеђивање неопходних лексичких основа лематизаторима, а да се притом избегну графичке варијације класичних језика?

2.1. Списак речи: хијерархије лема и варијаната, <form>, <orth>, <ref>

Читаоци Glossarium-a знају да ово дело није много систематично; дигитализација je показала до које мере је то тако. Аутоматизовани тестови показују да 1500 одредница од 90000 не прате абецедни редослед. Неки случајеви се могу објаснити еквивалентношћу графема, као што су ‘U’ и ‘V’, ‘I’ и ‘J’, или ‘Æ’ и ‘E’. Низ INCLAVATURA, INCLAUDARE, INCLAUDERE, INCLAVELARE поштује дакле латински абецедни ред. Конфузија је такође резултат издавачке историје овог дела. Током векова, лексикографи су убацивали своје додатке у нове одреднице, или пододреднице, бавећи се више визуелним него језичким аспектима. Реч штампана великим масним словима обично представља одредницу, док би пододредница требало да буде представљена великим словима величине малих (small caps). Аутоматска сегментација према типографији разликује на пример само једну одредницу « 1. BREVIS, Breve ». Али зашто је одредница нумерисана када је опис одреднице јединствен? Испитивање штампане стране открива тринаест других BREVIS или BREVE, прецизно нумерисаних, али великим словима величине малих. Програми су дозволили да се уочи овај тип неправилности, производећи бројне лажне хомографе. Поред тога, средњевековне графије нису устаљене, па речник наводи бројне варијанте. На пример: « AYSSARTARE, pro Essartare », essartare није у списку речи, али се налази иза essartum, « ESSARTUM, Essartare. Vide Exartus. », « EXARTUS, Exartum, Exartes, Essartum, Assartum, Sartus, Sartum », « SARTUM, vel Sartus ». Опис одреднице AYSSARTARE садржи два пасуса, EXARTUS их групише двадесет, SARTUM додаје још два цитата. Систем адресирања Glossarium-а дакле не дозвољава, овакав какав је сада, да се успостави ригорозна хијерархија између варијанте и леме, што компликује коришћење речника, а нарочито издвајање језичких ресурса. Тим OMNIA, са лексикографима NGML-а, успоставља референтни списак речи за лематизатор. Мрежа одредница и упућивања старог Glossarium-а је подвргнута језичкој верификацији да би се обезбедили спискови лема и варијанти. Овј списак речи служи најпре за навигацију међу описима одредница и да се сакупе под једним линком описи одредница за које се претпоставља да се односе на једну исту реч.

Старогрчки свакако није заштићен од ових феномена варијација и колебања која из њих произилазе, али уредници DGE-а се могу ослонити на дугу традицију веома документовану проучавањем морфолошких чињеница, која карактерише историју грчке лингвистике. Ово омогућава лексикографима да успоставе хијерархију између леме и варијанте групишући их под истом одредницом. Да би се олакшало читаоцу, када је варијанта абецедно удаљена од своје леме, на њу се указује упућивањем, иако се она систематично поново помињу у опису одреднице. DGE нуди систем адресирања који је лакши и сигурнији за дигитализацију од оног који има LSJ.15 Његова терминологија је поред тога пример једне нарочито прецизне и комплетне индексације грчког вокабулара. Овај вид исцрпности који је изузетно важан шпанском пројекту захтева критички напор16 : не ради се о томе да се задрже сви откривени облици без темељног лингвистичког и филолошког испитивања, а да се помену само неправилне морфолошке варијанте. Одлучено је да се као две посебне речи одвајају само етимолошки и семантички различити облици. Када је разлика између два облика чисто фонетска или графичка, хронолошке или дијалекатске природе, сматра се да облици припадају истој одредници (или речи). Када се утврди атички облик, он представља, са врло ретким изузецима, главну лему.

Пошто је рад на морфолошком груписању већ био обезбеђен од стране лексикографа, информатичко препознавање је тако било много лакше него за Glossarium: одредница започиње морфолошким заглављем, <form>, који садржи основни облик речи <orth>, за којом следе евентуалне графичке, фонетске, морфолошке и дијалекатске варијанте, и прозодијски подаци. Свака варијанта, <orth> се налази унутар новог елемента <form>: (form (orth, gramGrp, form*) ).17 Описи одредница за упућивање, који садрже варијанте абецедно удаљене од главне леме, кодирани су као унакрсна референца (cross-reference), <xr>, која усмерава према главној одредници, <ref>.

<entry>
 <form>
  <orth type="lemma">βύβλος</orth>
  <form><orth type="variant">βίβλ-</orth></form>
  <form><orth type="variant">βύβλον</orth></form>
  <form type="pros">-ῠ-</form>
 </form>
</entry>

<entry>
 <form>
  <orth>βιβλ-</orth>
 </form>
 <xr>v. <ref>βυβλ-</ref></xr>
</entry>

Прецизност означавања DGE-а, захваљујући морфолошки структурираној индексацији лема и њихових варијанти, омогућава располагање једним новим поузданим извором лема за исправљање и обогаћивање лексичких база старогрчког које су тренутно доступне. Сетимо се обимног пројекта Perseus18 који је развио програм за морфосинтаксичку анализу, Morpheus, који садржи лексичку базу која је такође послужила за пројекат лематизације тезауруса Thesaurus Linguae Graecae на интернету.19 Упркос великом напретку програма, остају још увек разне тешкоће, грешке, изостављене речи, велики број нерешених или лоше решених случајева. Разматрање облика који су представљени у DGE-у представља средство контроле лоших морфолошких интерпретација које врши машина20 .

Да резимирамо, док стриктно успостављен списак речи DGE-а омогућава исправљање лексичких база старогрчког, они који се баве средњевековним латинским нису толико напредовали; Ди Канж обезбеђује материју, али не и структуру.

2.2. Граматика: стандардизација података, <gram>, <pos>

Лексичка база која је неопходна лематизатору почиње пописом лема (и варијанти), затим се додаје морфосинтаксичка ознака (именица, глагол, придев…), да би се лема повезала са својим флексивним облицима. Речник садржи много података кроз стандардизоване граматичке индикације21 о врсти речи и флексивној парадигми (деклинација или конјугација).

Поред података о варијацијама, морфолошко заглавље описа одредница DGE-а указује, као што је уобичајено у лексикографији флексивног језика, на обрасце који идентификују парадигму деклинације. Ови подаци су означени елементима <gram> који су уоквирени са <gramGrp> а у тренутној фази дигитализације је дозвољено додати у заглављу ознаку <pos>, изведену морфосинтаксичку ознаку:

<form>
  <orth>διασφράξ</orth>
  <gramGrp>
    <pos value="SF"/>
    <gram type="genitive">-άγος</gram>
    <gram type="determiner"></gram>
  </gramGrp>
</form>

Примарни циљ овог граматичког етикетирања лема DGE није само описивање језика – већ постоје велики пројекти анализатора – већ истраживање речника. Ова информација ће бити коришћена како би се омогућили укрштени захтеви као што је овај: „које су одреднице које описују придев и садрже цитат из Хомера?“ (оно што дигитални LSJ не дозвољава).

Са друге стране, Ди Канж не садржи никакве граматичке податке. Он не пописује ни граматичке речи, и веома мало глагола. У речнику су сакупљене пре свега именице и придеви који откривају средњевековне реалности латинског које нису познате из класичног латинског). Ови неологизми имају врло разноврсне графије, али, на срећу, немају толику разноликост наставака као класични латински. Деклинације се изводе обично из флексије леме или варијанте. Најнеправилније конјугације и деклинације потичу обично из класичног латинског, који је већ описан и пописан (лексичка база Персеј).

Веза између означених облика и лема се може аутоматизовати на два начина. Или алгоритам за одвајање наставака (стемер) полази од потврђених облика како би тражио највероватнију лему или леме, или флективни генератор (фр. flechisseur) полази од означених лема лексике и производи све могуће облике деклинације и конјугације. У пракси, ови општи принципи се удружују под људским надзором, али они пружају могућност и да се разјасни формална разлика. За старогрчки (или класични латински) корпус је затворен, готово у потпуности дигитализован22, беспотребно је генерисати облике који се несумњиво неће срести. За средњевековни латински, сачувани корпус је значајнији, мање дигитализован, није чак ни уређен, лексичка база је отворена, тим пре што је средњевековна морфолошка и лексичка креативност непредвидива. Теолошки текстови би тако могли да захтевају употребу деривационог анализатора, како би се смањили концепти добијени додавањем префикса и суфикса.

3. Цитати: речник као мрежа у корпусу текстова, <cit>

Поред морфолошког сређивања лексичких јединица, описати лексику класичног језика, за лексикографа као и за лексиколога, значи и испитати и изабрати значајна значења у корпусу текстова. Речник тако представља мрежу са не само на унутрашњем плану (где речи или облици речи упућују једна на другу), већ и у односу на цитате из других, спољних извора. Ди Канж и DGE садрже велики број цитата;23 сваки опис одреднице, ако се не ради о укрштеној референци, садржи најмање један цитат. Опис одреднице једног речника разрађеног на основу корпуса могао би се замислити као однос (релација), у формалном смислу Кодове алгебре (SQL), између лексике и библиографије. Али какве обраде су неопходне како би се истражили ови цитати из других извора? Видећемо да се могуће обраде у великој мери разликују од једног до другог речника.

3.1. О конкорданцији у корпусној лексикографији

Било да је реч о Хомеру или о Вулгати, први речници су сакупљали маргиналне белешке како би разјаснили реч из рукописног текста. Идеал овог лексичког описа достигао је Иго д Сан Шер (Hugues de Saint Cher) који је 1230. године саставио комплетну библијску конкорданцију. Све речи из текста су биле пописане, са упућивањем на свако појављивање. Свеобухватност је мењала перспективу: није више текст био тај који је управљао речима, већ абецедни редослед који је организовао цитате. То је на неки начин био први речник заснован на корпусу.

Величина и разбацаност средњевековног корпуса не дозвољавају овакву свеобухватност. Речник више није попис, већ сондирање терена. Ди Канж је почео свој речник бележећи „варваризме“ које је сретао у архивским документима, штампаним издањима, на картицама поређаним по абецедном реду. Метод је остао исти све до информатичког доба. Литре (Littré) је наставио на исти начин, запосливши студенте да читају класична дела пописујући из њих значајне употребе. Просторије NGML-а на Француском институту (Institut de France) су још увек прекривене картицама на којима је 1923. започето ексцерпирање извора. Glossarium изгледа као да је састављен из низа одломака објашњених по абецедном редоследу, без обзира на фреквентност појављивања, са пасијом сакупљача према принципу. Сачувана материја није била оштећена доктрином, али она није уравнотежена, нити на било који начин дефинисана, осим интуитивним духом класичног доба.

Сам DGE поштује принципе корпусне лексикографије.24 Уређивачи настављају пажљиво критичко испитивање својих претходника и располажу, поред описа одредница из претходних речника, веома важним лексикографским материјалом из новијих критичких издања, њиховим индексима, новим збиркама записа и папируса. Уз сваку нијансу значења или смисла увек иде најмање један цитат, <cit>, који садржи најчешће један одломак цитираног текста, <quote>, и у сваком случају увек библиографску референцу, <bibl>. Поред цитирања извора, одломци су понекад праћени и преводом на шпански. Ово се на формалан начин може изразити овако: cit (quote?, def?, bibl+). Критеријуми избора су вишеструки (хронологија, ниво језика, књижевни жанр, фреквентност, итд.), а представљање њихових детаља овде би нас одвело далеко од наше теме. Направљени избори су засновани на намери да се покаже разноликост проверених лингвистичких чињеница током периода од 1500 година, пазећи да се не одбаци норма.

3.2. Одломци: цитати из речника као корпуса високе варијабилности, <quote>

„Као кључ приступа тексту, типографија је наравно од суштинског значаја. (…) У речницима (…) нема пресликавања, у математичком смислу, између скупа информационих поља и скупа доступних стилова, с обзиром да исто информационо поље може да узме више стилова.“25 Ова терминологија математике скупова (функције, пресликавања, бијекције…) може се преформулисати у класичнију логику, како би се објаснио критички проблем Glossarium-а: сви цитати нису у курзиву, неки одломци у стиху појављују се штампани ситнијим латиничним словима; све што је у курзиву није цитат, постоји такође типографска разлика код страних речи, већ поменутих речи, упућивања, и многе друге конвенционалне нијансе. Резултат тога је да је, у тренутном стању означеног извора Ди Канжа, 160000 претпостављених цитата означено са <quote>. Аутоматски филтер је протумачио све делове у курзиву којима претходе две тачке ‘:’ као цитате који су уведени из других извора. Правило је изгледа дало добар резултат, али 8000 сумњивих употреби елемента <quote> (5%) је већ откривено и неопходно их је поново прочитати. Цитат из Glossarium-а може у ствари имати три нивоа хијерархије. Као пример ћемо узети овај цитат на старофранцуском у опису одреднице DESVIATORIUM: « Jehan Pigasse avoit fait aucunes destrousses et excluses (rectius infra : excluses et Destournées) dedans le pré d’iceulx Crosmanas, pour oster l’eaue de leur pré. ». Цитат је у курзиву, он садржи једну белешку лексикографа латиничним словима и у загради, та белешка указује на две речи у курзиву, excluses и Destournées, које нису део цитата. Разумећемо тешкоћу у програмирању машина које не само што предвиђају све случајеве, већ и исправљају неизбежне људске грешке.

Одломци које цитира DGE, захваљујући разлици у алфабету, много се лакше препознају и одвајају: они одговарају отприлике деловима грчког текста који се налазе после морфолошког заглавља и пре етимолошког одељка. С обзиром на већ раније поменуто обиље дигитализованих текстуалних извора, никакво напредније коришћење ових <quote> није било неопходно. У ствари, када је реч о проблематици аутоматизованог истраживања корпуса, старогрчки је у нарочито повољној ситуацији где готово читава лингвистичка хипотеза може бити проверена на целокупности сачуваних извора језика; DGE је тако пре свега једна селективна организација масе ових сведочанстава, а тренутни улог је пре свега да се повежу извори ових цитата са доступним дигитализованим корпусима.

3.3. Референце: библиографске конвенције за интернет линкове, <bibl>

У теорији, електронски речник заснован на корпусу би требало да може да буде повезан са текстовима које цитира. Онлајн LSJ на сајту Персеј представља један такав модел: 422000 цитата је означено и, за текстове који чине део електронске библиотеке пројекта, референце служе као линкови који указују на тачне пасусе цитираног дела. Технички циљ је претварање библиографских референци у URI26 а степен аутоматизације овог задатка зависи у многоме од степена стандардизације ових референци.

Тако би повезивање Du Cange-а са својим корпусом значило да може да се упише ознака <bibl> и атрибут @xlink:href.

<cit>
  <bibl xlink:href="???">Charta Th. decani S. Vulfr.
  Abbavil. ann. 1218. ex primo Lib. nigr. ejusd. eccl.
  fol. 8. r°.</bibl> :
  <quote>Retenta sibi et hæredibus suis præpositura cum
  dominio et libertate et fructibus grangiæ per servicium,
  quod antea nobis reddere solebat, videlicet duellum, et
  Citationes, et alia servicia.</quote>
</cit>

За Glossarium, библиографска референца, <bibl>, би била а приори фраза која претходи цитату. Међутим, количина тачака и скраћеница које нису из других извора ометају већину сегментатора. Лексикограф не може да процени какву конвенцију интерпункције би требало да следи како би изоловао референце. О атрибуту линка, @xlink:href, је још теже информисати се. „Charta Th. decani S. Vulfr. Abbavil. ann. 1218. ex primo Lib. nigr. ejusd. eccl. fol. 8. r°.“ Одговара једном рукопису који је познат медијевалистима, у Националној библиотеци Француске, нове латинске аквизиције 1681., фолио 8, картулар који зову „црна књига“ колегијалне цркве у Абевилу, који се може наћи у бази CartulR Института за истраживање и историју текстова, на адреси http://www.cn-telma.fr/cartulR/entite5363/. Медиевалисти ризикују да још дуго буду једини који знају да прочитају ове референце.

Ове тешкоће подсећају још да дубина дигитализације у великој мери зависи од векова стандардизације који претходе. У грчкој филологији, нормализација библиографских референци и скраћеница има веома дугу традицију и далеко је правилнија него код већине других језика, савремених или античких. Тако је, на пример, разрешавање референци корпуса Платонових дела могуће јер је Анри Етјен успоставио модел референтним издањем Платона (Женева, 1578), које још увек представља образац нумерације цитата у делу. Наука која проучава рукописе на папирусу је такође успоставила веома рано сопствене норме.27 Тако је могуће, за кодирање DGE-а, искористити поделементе <bibl> које предлаже TEI и сегментирати референце према аутору, <author>, делу <title>, и поменутом пасусу, <biblScope> :

εἰρεσία, -ας, ἡ … I … E.Hel.1453

<bibl type="related">
  <author>E.</author><title>Hel.</title><biblScope>1453</biblScope>
</bibl>

Степен детаљности који је тако постигнут у означавању референци отвориће унакрсна претраживања аутора, дела, итд.

Поред тога, DGE је одлучио да систематично прегледа све цитате из LSJ-а и да их поново преузме, ако не постоји боље читање цитираног текста. Такође је усвојен, колико је то било могуће, исти систем скраћеница: цитирани текст се понекад разликује јер је провераван на скоријим издањима, али референца остаје често иста. Онлајн DGE ће тако моћи да преузме, за заједничке цитате, линкове које је успоставио Персеј између LSJ-а и корпуса.28 Ове везе ће моћи такође да се прошире на друге корпусе текстова које цитира DGE и који су доступни на интернету, као што су Suda On Line29, велике базе текстова на папирусу као што су Duke Databank of Documentary Papyri и Heidelberger Gesamtverzeichnis,30 или још корпус записа у пројекту Greek Epigraphy Project31 института Packard Humanities Institute. Може се поред тога очекивати истински напредак на овом пољу објављивања, захваљујући, између осталих, пројекту EpiDoc чији је циљ да распростани стандард кодирања XML за електронско издање епиграфског материјала и материјала на папирусу на основи TEI.32

Да резимирамо, квалитет и ширина референтног класичног корпуса дозвољава DGE-у да понуди селективну организацију цитата према свесној научној намери уредничког пројекта. Са друге стране, одломци које цитира Glossarium тренутно су репрезентативни само за разноликост лексике.33

4. Микроструктура: формализовање семантичког стабла, <sense>

Да ли би опис одреднице у једном речнику античког језика могао да буде само низ цитата без објашњења и превода? Програм за израду конкорданција са напредним функцијама сортирања и статистике колокација би имао предност да не маскира одломке који не спадају у план лексикографа. Лексикографи NGML-а су размотрили ову хипотезу али констатују: „[ЦД ромови] обухватају значајне корпусе података; али ради се, у извесном смислу, о необрађеном материјалу, тешком за коришћење, посебно када се ради на речима високе или врло високе фреквентности. […] Речници нуде насупрот томе потврде ограничене по броју, али већ обрађен материјал: за брзу информацију о семантичким вредностима те и те речи, они су и остаће сигурно врло згодни инструменти.“34 У информатичко доба, стабло значења једног речника задржава корисност за живог читаоца, као што план књиге омогућава да се дубље уђе срж аутора и његове теме. Да ли ово стабло, рачунарски формат са својим алгебрама и својим алгоритмима, може имати друге употребе осим визуелних, на пример за аутоматско раздвајање значења вишезначних речи? Вероватно не у блиској будућности, јер критеријумима који се користе за разликовање A од B у речнику руководи комуникација међу људима, на основу здравог разума који машина не дели. Међутим, друга поља информација се могу користити, као што су преводи и ознаке употребе, како би се обезбедиле лексичке базе почев од правилних синтаксичких и семантичких података.

4.1. План: од глосара до двојезичног речника, <dictScrap>, <sense>

Описивање састава једне одреднице Glossarium-а почиње набрајањем негација да би се спречила разочарења читаоца: глосар није речник, ништа у њему није савршено систематично. У њему не налазимо дефиниције у правом смислу речи, већ помало разнородна објашњења, често кратка, понекад прави есеји, увек писани на латинском. Француске речи које тамо препознајемо су ретко преводи, а чешће етимолошко порекло. У ствари, известан број речи средњевековног латинског потиче из старофранцуског, из италијанског, германских језика, из говорних језика уопште. „ 1. CARCER SUB TERRAM [...] Nostris Cul-de-bassefosse.“, „HEUÇA, Heusa, a veteri Gallico Heuce vel Heus et Heuse [...]“ (метални шраф), „ PIZZA, Placenta, ex Italico Pinza“. За дигитализацију, садржај одреднице, <entry>, нема више правилну и сегментирану структуру већ се састоји од низа пасуса. Право али хетерогено богатство одредница Glossarium-а не делује подложно редоследу неког плана. TEI предвиђа овај тип „лабаве“ организације елементом <dictScrap>.35

Корисник савременог речника француског језика је више навикао на хијерархијски план одредница. Две фазе су уследиле од Ди Канжа. Џонсон (1755) уводи нумерацију употреба у свом Речнику енглеског језика (Dictionary of the English language). Феро (Féraud) (1787) уводи нумерисани списак у француску лексикографију, Литре (Littré) (1840) је одвео процес до својих крајњих граница, тражећи за сваку реч линеарни разлог који би објаснио развој њених значења кроз историју.

Што се тиче грчке лексикографије, она је већ следила план хијерархије који се заснивао на историјском развоју значења речи, почев од Франца Пасоуа (Franz Passow), Handwörterbuch der griechischen Sprache (1831), и даље са Лидлом и Скотом (Liddell & Scott) (1843). Хијерархијска организација коју можемо приметити у плану одредница DGE-а је у великој мери плод овог наслеђа, али је оно било прерађено и прилагођено у складу са значајним лингвистичким теоријским позицијама које леже у основи овог пројекта, усредсређеним на дистрибуционалистичку концепцију значења.36 Тако, није било потребно само обезбедити, у односу на своје претходнике, већу прецизност описаних морфолошких чињеница и повећати број лема и цитата, већ такође и побољшати семантичку обраду проучаване лексике. DGE се тако може сматрати такође резултатом скоријег наслеђа, и применом, на старогрчку лингвистику, сосировске теорије синтагматских и парадигматских димензија значења. Стога су напуштени принципи хронолошке и логичке класификације. Примарна амбиција уредника DGE-а је да направе „семантичку мапу“37 сваке грчке речи, и „да следе и доведу до савршенства разгранату организацију значења засновану на семантичкој бази“.38

Ако је Ди Канж само низ пасуса, свака одредница DGE-а је стриктно и потврђено стабло значења, односно стабло рекурзивно убачених елемената <sense>.

4.2. Значења: циљни језик као принцип организације полазишног језика, <def>

Glossarium не садржи преводе. Савремени превод производи много погрешних интерпретација. Узмите на пример реч sensualitas. Под одредницом „SENSUALITÉ“, Годфруа (Godefroy 1901) нуди објашњење: «l’ensemble de nos sens » („скуп наших чула“). Изгледа да лексикограф каже да средњевековна сензуалност тачно покрива нашу савремену употребу речи. Он даје овај пример: « Et il soit ainsi que ledit Pierre depuis un an en ça, par impatience, fragilité ou diminution de son corps et de sa sensualité, soit devenu tout ydiote. (1376, Arch. JJ 110, pièce 208.) ». Превести sensualité са sensualité (сензуалност) чини ову реченицу неразумљивом, или чудно визионарском. Савремена психологија би могла у ствари да подржи идеју да недостатак физичког контакта чини дете аутистичним, ydiot (идиотом), « qui a l’esprit très borné » („који има врло ограничен ум“); али да ли ово тумачење одговара правном документу из 1376. године? У Glossarium-у, Карпентије (Carpentier) (1766) цитира исти пасус са следећим објашњењем: «Sensus, intellectus». Ако се sensualité схвати као способност да се буде смислен, онда се може боље замислити шта се догодило том Пјеру. Читалац ових средњевековних докумената се стално суочава са овим ризицима погрешног разумевања, који сведоче о једном језику и једном друштву, обликованом другим категоријама. Чувајући полазишни језик као метајезик, класични филолози су избегли грешке до којих може довести систематски превод без свести о структури.

Погрешно разумевање старогрчког је такође могуће, али бављење овим језиком има дужу традицију, значајније је, тако да је одговорност лексикографа мања. Истраживач ће консултовати више од једног извора, што омогућава DGE-у да заузме чврст став. Он је био прво неспецијализовано дело грчке лексикографије систематично изграђено по компоненцијалном семантичком моделу. Писањем описа одредница управљају неки фундаментални семантички принципи:

  • реч нема аутономно значење, њена значења су у функцији њених дистрибуција, које се разликују од једног до другог језика;
  • једна иста реч може ући у различите системе опозиције унутар једног или више семантичких поља;
  • релевантне семе немају ништа универзално: сваки језик има своје семе и структуре на јединствен начин („анизоморфизам“ језика).

Теорија налази своју примену у писању овог двојезичног речника. Одреднице DGE-а следе организацију према циљном језику, шпанском: „превод омогућава да се групишу чињенице и да се означе линије организације“.39 Из тога произилази једна хијерархијска структура, „разграната“, са циљем да се што је могуће мање изгубе специфичности грчког. Значења, <sense>+, су структурисана према значењима, <def>+, која остају на истом нивоу, што је лингвистички прихватљиво. Следећи пример описује један глагол чији су понуђени преводни еквиваленти дистрибуирани почев од синтаксичко-семантичких образаца:

διακλέπτω
<sense>I
  <sense>1 <usg>c. ac. de cosa</usg>
    <def>robar</def>
  </sense>
  <sense>2 <usg>c. ac. de pers.</usg>
    <def>salvar la vida</def>, <def>sustraera un peligro</def>
  </sense>
  <sense>3 <usg>c. ac. de abstr.</usg>
    <def>eludir</def>, <def>esquivar</def>
  </sense>
</sense>
<sense>II <usg>intr. en v. med.</usg>
  <def>esconderse</def>, <def>ocultarse</def>
</sense>

Примећујемо да је типографска прецизност, контролисана полуаутоматски напредним коришћењем обраде текста, у великој мери допринела прецизности означавања: поље превода садржи један или више преводних еквивалената у курзиву, <def>, одвојених зарезом или другим сегментом текста („o“ („или“) , „y“ („и“), итд.) латиничним словима. Опет, истраживањем дела на интернету добиће се на тачности и финесама, а истраживачи који се баве рачунарском лингвистиком ће моћи да користе нијансе које шпански открива о грчким речима.

4.3. Ознаке: Семантичко означавање дистрибутивне схеме, <usg>

Како би се осигурао што бољи приступ систему описаног језика, и смањила што је више могуће искривљавања својствена транспозицији у други језик, преводи у DGE-у су врло често допуњени парафразама, објашњењима и другим типовима информација које ћемо квалификовати као ознаке употребе. Уредници су уложили значајан напор како би их користили са већом систематичношћу него њихови претходници. Њихово информатичко кодирање може тако допринети истраживањима у правцу семантичке анотације старогрчких корпуса. Зна се да речници могу стварно помоћи у успостављању семантичких класа и дистрибутивних схема.40 Ови лингвистички ресурси се додају на лематизацију како би се истраживали корпуси. Они омогућавају укрштање породица речи, иако се користе као кључеви за сортирање у ширим конкорданцијама. Ако, на пример, погледамо структуру одреднице διακλέπτω која је горе приказана, задатак се састоји, са једне стране, од коришћења шпанског вокабулара из превода како би се свакој леми приписала семантичка класа (људско биће, предмет, животиња, бог). DGE са друге стране указује на бројне моделе синтаксичке конструкције, употребе коју диктира рекција а биће могуће извући мрежу глаголских допуна налажењем правилних образаца као што су: « c. (con, са) + acc., dat., etc. (акузатив, датив, итд.), de pers., de cosa (о особи, о ствари) », « intr. », « abs. ». Занимљиво је на пример посматрати семантичке промене које се дешавају код комбинације глагола διακλέπτω са допуном у акузативу која означава ствар (robar, „красти“), људско биће („спасити живот, побећи од опасности“), апстрактни ентитет (eludir, esquivar „избећи, ескивирати“) или у средњем глаголском стању без допуне (esconderse, „крити се“). Такви пројекти оправдавају у сваком случају пажљиво означавање DGE-а које превазилази пуки типографски приказ: ове информације могу бити извучене и стандардизоване, и речник може помоћи у обогаћивању лексичке базе семантичким особинама које компјутер може да користи.

Изгледа немогуће формално идентификовати такве дискурзивне елементе из текста Ди Канжа. Ипак, X том садржи 45 индекса на 100 страна (CXVII-CCXVI). Ове листе речи имају наслове као што су « Corpus; corporis humani et animalium partes. », « Pisces, piscatura. », или « Dignitates civiles, palatine, militares, honores, officia, etc. » Дигитализација ових индекса је у току. Ове чудно несређене класификације одраз су настојања да потичу из саме лексике а не из савремених онтологија. Искуства у оквиру корпуса пресудиће о релевантности ових категорија.

5. Закључак

Поређење једног старог глосара, Ди Канжа, са новијим речником као што је DGE показује са једне стране, докле је лексикографија структурирала свој текст током три века, напредујући до граница информатичке тачности. Оно показује са друге стране да је један такав сусрет сада могућ и релевантан захваљујући заједничком коришћењу истог стандарда кодирања (у овом случају TEI), где јединствени вокабулар омогућава да изведемо поређења.

Поред бољег упознавања, овакав систем такође омогућава програм акције. Означавање штампаног речника се може тако продубити тежећи прогресивно да оствари три циља:

  1. Приказивање на екрану — Оно може да почне сликама, затим текстом, затим типографијом, и у сваком случају, захтева идентификацију лема, омогућавајући навигацију упутницама.
  2. Образац напредне претраге — Индексација информационих поља захтева да типографија буде преведена на лексикографске функције, као што су цитати, референце, врста, домени… Приказ на екрану допушта разне непрецизности којих не би смело бити у претраживачу. Цитат у курзиву који није препознат неће бити приметан за људско око, али неће бити ни дат у резултатима претраге. Поузданост има своју цену ако зависи од аутоматизованог или асистираног проверавања.
  3. Лингвистички ресурси — Аутоматско извлачење употребљивих података намеће један степен додатне захтевности, изнад онога што се види и што се претражује, јер они проверавају речник примењујући га на корпус: кодови врсте речи и флексије морају бити стандардизовани, ознаке домена не служе више само за разумевање већ за аутоматску класификацију, обратни преводи ризикују некохерентност, синтаксичке индикације се више не само осмишљавају већ и тестирају.

Узимање у обзир ових циљева продубљује захтеве научне лексикографије. Информатика је до сада омогућавала уштеду времена, обрадом текстова која поједностављује типографију, или текстуалним базама података, али она није модификовала циљ: дати тачну страну за читање. Са речником замишљеним као лингвистичким ресурсом који се може аутоматизовати, информатика није више користан додатак, она модификује пројекат, и повећава радну норму а да се она не може мерити тако јасно као новим објављивањем тома књиге.

Дигитализацијом ова два дела, коначно је у игри обнављање улоге „традиционалних“ лексикографских података у квалитативном унапређивању истраживања и анотације античких корпуса: они су извори лема чију аутентичност гарантује анализа лексикографа, валидни извори – чак понекад јединствени у случају Ди Канжа – референци према корпусима, као и модели структурирања лексике према синтаксички и семантички употребљивим особинама и категоријама.

[Чланак је објављен у Bulletin Du Cange: Archivum latinitatis medii aevi, t.68, pp.161-181. Са француског превела: Ирена Марински]

6. Библиографија

Adrados, F.R. – Gangutia, E. – López Facal, J. – Serrano Aybar, C. (1977), Introducción a la lexicografía griega, Madrid, CSIC.

[DGE] Adrados, F.R. dir. (1980-), Diccionario Griego-Español, Madrid, Consejo Superior de Investigaciones Científicas, 6 vol. parus + rééd. vol. I en 2008.

Adrados, F.R. – Rodríguez Somolinos, J., (eds.) (2005), La lexicografía griega y el Diccionario Griego-Español, DGE. Anejo VI, Madrid, CSIC.

Bon, B. – Guerreau-Jalabert, A. (2002), « Pietas : réflexions sur l’analyse sémantique et le traitement lexicographique d’un vocable médiéval », Médiévales, n° 42, p. 73-88. http://www.persee.fr/web/revues/home/prescript/article/medi_0751-2708_2002_num_21_42_1540

[Du Cange] du Cange, Charles du Fresne (sieur) et al. (1678-1887), Glossarium mediae et infimae latinitatis, éd. augm., Niort, L. Favre, 1883‑1887, 10 vol. in-quarto.

Ide, N – Véronis J. (1996), « Codage TEI des dictionnaires électroniques », Cahiers GUTenberg, 24, Rennes, p.170-176.

[LMPG] Muñoz Delgado, L. (2001), Léxico de magia y religión en los papiros griegos, Madrid, Consejo Superior de Investigaciones Científicas.

[LSJ] Liddell, H.G. – Scott, R., A Greek-English Lexicon, [1e éd.1843], 9e éd. revue par Jones H.S. assisté de McKenzie R., 1940, Revised Supplement, Glare P.G.W. éd., Oxford, Clarendon Press, 1996.

Merrilees, B. (1996), The Shape of the Medieval Dictionary Entry, Toronto. <http://www.chass.utoronto.ca/epc/chwp/merrily2/>

[TEI] TEI Consortium (1999, 2002, 2007), Guidelines for Electronic Text Encoding and Interchange. Oxford — Providence — Charlottesville — Nancy, C.M. Sperberg-McQueen and Lou Burnard. http://www.tei-c.org/release/doc/tei-p5-doc/html/

Tutin, A.- Véronis, J. (1998), Electronic Dictionary Encoding : Customizing the TEI Guidelines, Eighth Euralex International Congress (EURALEX’98), Liège, p.4-8.

http://www.up.univ-mrs.fr/veronis/pdf/1998euralex.pdf

Valette, Mathieu et al. (2006), « Éléments pour la génération de classes sémantiques à partir de définitions lexicographiques. Pour une approche sémique du sens. », Verbum ex machina, Actes de la 13ème conférence sur le traitement automatique des langues naturelles (TALN 06). http://www.revue-texto.net/Corpus/Publications/Valette_Estacio.pdf

Wooldridge, R. (1977, 1997), Les Débuts de la lexicographie française : Estienne, Nicot, et le Thresor de la langue françoyse (1606).
http://www.chass.utoronto.ca/~wulfric/edicta/wooldridge/

  1. http://ducange.enc.sorbonne.fr/. Од сада на даље Ди Канж или Glossarium []
  2. http://www.filol.csic.es/dge/index.htm. Од сада на даље DGE []
  3. Niermeyer, Mediae latinitatis lexicon minus, Lexique latin médiéval français-anglais; a Medieval Latin French-English Dictionary, Leyde, E.J. Brill, 1954-… []
  4. http://www.irht.cnrs.fr/recherche/lexico.htm []
  5. http://omnia.enc.sorbonne.fr/ []
  6. Универзитет Тафтс, Дигитална библиотека Персеј http://www.Perseus.tufts.edu/. []
  7. Од своје SGML дигитализације 1994. године у оквиру пројекта Персеј, LSJ, издање из 1940., је на интернету бесплатно. Персеј нуди своје ресурсе под слободном лиценцом, а и други сајтови нуде LSJ на интернету, посебно Универзитет у Чикагу са својим софтвером Philologic Марка Олсена, http://www.lib.uchicago.edu/efts/PERSEUS/Reference/lsj.html, као и једна врло једноставна и практична верзија: http://philolog.us/ []
  8. http://dge.cchs.csic.es/lmpg/ []
  9. Уредници К. Прајзенданц, односно Р. Даниел – Ф. Малтомини []
  10. http://www.w3.org/XML []
  11. У вези са овим скрећемо пажњу да се за DGE користи комерцијални софтвер WordPerfect (Корел) од деведесетих година прошлог века. Овај производ се истиче својим макро језиком, PerfectScript, који омогућава аутоматизацију бројних типографских исправки. Резултат тога је што је „видљива“ интерпункција строго проверена, што је потврдила конверзија у XML (такође спроведена макроима WordPerfect). Један пример овог метода конверзије: све одреднице су биле означене скриптом који формулише отприлике ово: „равнање од почетка пасуса са повлачењем (табулација), затим масним словима и грчким алфабетом, главна лема, којој може претходити: 1) арапски број за разликовање хомографа, 2) обелус (†) за реч на коју се указује као искварену, 3) астериск за реч која је реконструисана из микенског слоговног писма“. Ово искуство омогућава да подсетимо да продукција XML-а не захтева ретке информатичке вештине, чак и пословни софтвер може генерисати структурирани документ, под условом да има прецизну интелектуалну дефиницију, схему. []
  12. http://www.tei-c.org/ []
  13. http://www.tei-c.org/release/doc/tei-p5-doc/en/html/DI.html. Видети такође Ide, N – Véronis J. (1996). []
  14. За детаљан опис ових елемената, упућујемо читаоце на документацију објављену на сајту TEI, http://www.tei-c.org/release/doc/tei-p5-doc/en/html/REF-ELEMENTS.html. []
  15. У вези са овим питањем морфолошког груписања, скрећемо пажњу да је LSJ ишао у ствари до окупљања под истим пасусом више или мање деривационих лексичких породица – распореда од ког су одустале електронске верзије, понекад помало непромишљено: погрешно акцентоване леме су биле поново састављене од стране машина са сувише мало проверавања. Ова поновна груписања нису имала истинске лингвистичке основе, научна вредност ових класификација је била мала: радило се пре свега о уштеди простора на папиру, скраћивањем почетка одређених лема, а не о систематичној и хијерархијској организацији лексичких породица, одакле и немогућност да се из њих извуку подаци који се могу користити за творбу речи у грчком. []
  16. Cf. H. Rodríguez Somolinos, «El DGE y epigrafia griega: el problema de las palabras fantasma (ejemplificación y tipología)», Miscelánea léxica en memoria de Conchita Serrano, Manuales y Ansejos de Emerita 41, Madrid, CSIC, 1999, 187-198, et J. Rodríguez Somolinos – J.A.Berenguer, « Lexicographie grecque et papyrologie. Le Diccionario Griego-Español », Akten des 21. Internationalen Papyrologenkongresses- Berlin, 13.-19.9.1995, Archiv für Papyrusforschung Beiheft 3, Stuttgart – Leipzig, Teubner, 1997, pp.858-866. Ова два чланка су преузета у Adrados, F.R. – Rodríguez Somolinos J. (eds) (2005). []
  17. Ова псеудосинтакса је инспирисана језиком DTD и Relax-NG Compact []
  18. http://www.Perseus.tufts.edu/hopper/ []
  19. http://www.tlg.uci.edu/. TLG је спровео пројекат лематизације, и тренутно најављује аутоматско препознавање 93,2% свог корпуса. Поменимо такође и Аутоматски речник грчког језика (Dicctionnaire Automatique Grec) (DAG) развијен у оквиру Истраживачког пројекта у грчкој лексикологији (Католички универзитет у Лувену). Ова лексичка база доступна истраживачима и развијена почев од лематизованих конкорданција патристичког и византијског корпуса броји 306814 облика повезаних са 62229 лема. []
  20. Два примера: 1. ὲπέμφθ’: елидиран облик пасивног аориста επέμφθη (πέμπω). Индекс сајта TLG-а га помиње, анализатор не упућује на πέμπω, али тумачи ὲπέμφθ’ као активни аорист две фантомске леме *ὲπεμφθνω и *ὲπεμπέτομαι. 2. βούκολον, ου, τό: именица средњег рода, пописана у DGE-у и непостојећа у LSJ-у, потврђена са два појављивања у Oxyrhynchus Papyri, који постоје у библиотеци Персеј, али које Morpheus не познаје []
  21. Наиме, «Bellus, a, um», образац као –us, -a, -um несумњиво означава придев и омогућава стварање програма који генерише све облике деклинације. Иако је велики део лексике правилан, постоје бројни изузеци, као и грешке, или једноставно људске варијације: «edo, edis или es, edere или esse, edi, esum». []
  22. Нарочито захваљујући значајним банкама записа и папируса на интернету, и TLG-у, чија последња верзија (на интернету) садржи 3800 аутора, 12000 дела и око 99 милиона речи. Грчка колекција Персеја их саджи „само“ око 8 милиона, али она је слободно доступна. []
  23. Предвиђено је да ће број цитата у DGE-у бити троструко већи у односу на LSJ. Што се тиче материјала на папирусу и епиграфског материјала, обогаћивање библиографије је још значајније. []
  24. Спискови аутора и дела које цитира DGE као и коришћене литературе могу се наћи на сајту пројекта: http://www.filol.csic.es/dge/1st/31st-int.htm. []
  25. Wionet Chantal, Tutin Agnès, Informatisation du Dictionnaire universel de Furetière revu par Basnage (1702): premier bilan, Paris, Champion, 2001. []
  26. URI: Unique Resource Identifier, идентификатори на интернету који омогућавају да се успоставе линкови. []
  27. Референце за изворе на папирусу, које пажљиво прати DGE, редовно ажурира Америчко удружење папиролога, http://scriptorium.lib.duke.edu/papyrus/texts/clist.html. []
  28. На пример за референцу “E.Hel.1453“, цитирану и означену идентично у LSJ–у и DGE–у, радиће се о преузимању преко ознаке <bibl> из LSJ Персеја, URI који указује на Еурипидов текст. []
  29. http://www.stoa.org/sol/ []
  30. Обе се могу погледати на сајту http://papyri.info/ []
  31. http://epigraphy.packhum.org/inscriptions/ []
  32. http://epidoc.sourceforge.net/index.shtml []
  33. Прве грубе цифре достижу 400000 различитих облика за 6000000 појављивања []
  34. Bon, B. – Guerreau-Jalabert, A. (2002), p.74 []
  35. «<dictScrap> (dictionary scrap) encloses a part of a dictionary entry in which other phrase-level dictionary elements are freely combined.» — „обухвата део речничке одреднице у којем су други елементи речника на нивоу фразе слободно комбиновани.” []
  36. Овај семантички приступ је онај који има и последњи Додатак LSJ–а (1996), а биће још систематизованији у врло занимљивом пројекту Greek Lexicon Project који је тренутно у току на Кембриџу, http://www.classics.cam.ac.uk/faculty/research_groups_and_societies/greek_lexicon/ []
  37. «mapa semántico», Adrados – Gangutia – López Facal – Serrano Aybar (1977), p.265 []
  38. Adrados – Rodriguez Somolinos (2005), p.290 []
  39. Adrados – Gangutia – López Facal – Serrano Aybar (1977), p.267 []
  40. О овој теми, видети на пример Valette, Mathieu et al. (2006). []