To e-Laborate homepage   Login   Huygens Instituut
e-laborate (nl) >

Over e-laborate

Show printer-friendly view Print View          
De evolutie van een filologisch instrument


door Joris van Zundert
 
Het 'Collaboratory'


Toen eLaborate in 2003 startte was de doelstelling van het project om een collaboratory op te leveren voor de geesteswetenschappen. Wat een collaboratory precies behelst, wordt nu nog steeds net als toen stevig bediscussieerd. Relatief onbetwist is dat een collaboratory in ieder geval een online applicatie is die onderzoekers in staat stelt om wetenschappelijk materiaal met elkaar te delen. De eerste versie van eLaborate die in 2005 werd opgeleverd, bood deze mogelijkheid. Het was (en is) sindsdien mogelijk om individuele onderzoekers, maar ook onderzoeksgroepen toegang te geven tot een eigen plek binnen eLaborate, waar ze hun onderzoeksmateriaal zelf kunnen neerzetten en indelen. Belangrijk hierbij is dat de onderzoekers nauwkeurig kunnen bepalen welke gebruikers van eLaborate het materiaal kunnen zien en welke niet.
 
Een content management systeem voor de geesteswetenschappen


De eerste eLaborate-versie die in 2005 werd opgeleverd door het toenmalige NIWI (Nederlands Instituut voor Wetenschappelijke Informatiediensten) was in IT-termen te omschrijven als een Open Source content-managementsysteem. Content management is inmiddels een commercieel 'containerbegrip' geworden, maar in een digitale context betekent het vrijwel altijd het op internet plaatsen en beheren van digitaal materiaal (teksten, documenten, databestanden, afbeeldingen etc.) en het visueel aantrekkelijk kunnen presenteren van dat materiaal. Deze mogelijkheden vormden in 2005 het fundament van eLaborate.

eLaborate moest een online platform bieden voor samenwerkingsverbanden in de geesteswetenschappen. Het idee hierachter was, en is overigens nog steeds, dat geografische belemmeringen vruchtbare wetenschappelijke samenwerking niet meer in de weg mogen staan als ook geesteswetenschappers er inmiddels aan gewend zijn om met achteloos gemak een mailtje te verzenden dat na een paar seconden belandt op de computer van een collega een continent verderop. De sleutel tot het mogelijk maken van dergelijke samenwerking ligt in de ontwikkeling van het world wide web, waardoor dezelfde informatie eenvoudig beschikbaar gemaakt kan worden op elke plek waar een computer is aangesloten op het internet. Het probleem in 2003 was dat er geen eenvoudig bruikbare digitale werkbank bestond waar geesteswetenschappers gebruik van konden maken om informatie op het internet te zetten en voor elkaar zichtbaar te maken. Weliswaar was het de tijd waarin de eerste grote 'corporate content management systemen' op de markt kwamen, maar die software was onbetaalbaar en meestal veel te ingewikkeld voor de meeste geesteswetenschappers om te bedienen. Bovendien waren die systemen vooral bedoeld om bijvoorbeeld krantenartikelen of reclamebrochures on line te zetten, en ze waren bijna zonder uitzondering ongeschikt om teksten wetenschappelijk te editeren.

De eerste versie van eLaborate voorzag in oplossingen voor veel van deze beperkingen. Elaborate bood het op het internet zetten en online creëren van materiaal aan in een grafische interface (d.i. de visuele vormgeving van de werkomgeving) die begrijpelijker was voor onderzoekers dan die van bestaande content management systemen, die eigenlijk alleen hanteerbaar waren voor internetredacteuren die een gedegen ervaring hadden op het gebied van online publiceren. Voor het eerst kon hierdoor een grote groep geesteswetenschappers hun materiaal eenvoudig online brengen en delen. Een werkgroep sociale geografie kan nu op eenvoudige wijze een bestand met statistische gegevens delen via het daarvoor internationaal afgesproken technische protocol onder de naam OAI. Kennis van hoe dat protocol werkt is daarvoor niet nodig, eLaborate zorgt voor de juiste techniek. Kunsthistorici kunnen bijvoorbeeld foto's van kunstwerken op internet zetten en samen bediscussiëren, al zit de één in Rome in het museum en de ander in Groningen in een werkkamer aan de universiteit.


 
Open Source


Naast de eenvoudig bedienbare interface onderscheidt eLaborate zich van veel andere systemen doordat het Open Source is. Open Source wil zeggen dat de broncode (d.i. de gezamelijke softwarecode die het systeem vormt) vrij beschikbaar is. Een ontwikkelaar die de computertaal Java 'spreekt' is hierdoor altijd in staat de code van programmatuur te begrijpen en aan te passen aan eventuele nieuwe wensen, en – wellicht belangrijker – mag dit ook doen. Dit in tegenstelling tot bijvoorbeeld de softwarecode van een programma als Microsoft Word™, waarvan de code bewust onleesbaar en onbekend wordt gehouden en waarvan bij wet is geregeld dat programmeurs er niets aan mogen veranderen. Voor wetenschappelijk doeleinden, en daarmee voor eLaborate, was dit Open Source karakter belangrijk: alleen als je de werking van je instrument goed kent en kunt controleren, kun je garanderen dat je wetenschappelijk controleerbaar en verifieerbaar bezig bent. Elaborate draagt ook zorg voor de wetenschappelijke controleerbaarheid en houdbaarheid van de gegevens door alleen gebruik te maken van open standaarden. Dat wil zeggen dat data wordt opgeslagen en bewaard in een formaat dat formeel gedefinieerd is in het publieke domein en leesbaar is voor ontwikkelaars en gebruikers. Dat dit geen triviale kwestie is, toont het volgende. Een Word™-document lijkt leesbaar, zolang je het opent in Word™. Maar stel nu dat Word™ om welke reden dan ook het document niet meer opent – bijvoorbeeld omdat het met de versie van een paar jaar geleden(!) is gemaakt. Dan kun je het bestand proberen te lezen met een ander tekst-editor, alleen ziet het er dan zo uit:

ÐÏ#ࡱ#á > # þÿ # #/ # 1 # þÿÿÿ .ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿÿ ÿÿÿÿÿÿì¥Á #`## ð#¿ # # ¼# # bjbjËsËs ### .$ ©## ©## ¼# ÿÿ# ÿÿ# ÿÿ# ¤ ¼# ¼# ¼# ¼# ¼# ¼# ¼# # Ð# 4# 4# 4# 4# # H# # Ð# 7# ¶ h# h# h# h# h# h# h# h# ¶# # ¸# ¸# ¸# ¸# ¸# ¸# $ í# h# U# – Ü# # ¼# h# h# h# h# h# Ü# ¼# ¼# h# h# ñ# # F# F# F# h# î# ¼# h# ¼# h# ¶# F# h# ¶# F# F# ¼# ¼# F# h# \# # ÞÈKüÇ# 4# V# ¾ F# ¶# ## 0 7# F# ë# ## ( ë# R# ë# ¼# R# d h# h# F# h# h# h# h# h# Ü# Ü# <# h# h# h# 7# h# h# h# h# Ð# Ð# Ð# d# 4# Ð# Ð# Ð# 4# Ð# Ð# Ð# ¼# ¼# ¼# ¼# ¼# ¼# ÿÿÿÿ # # (etc...)

Helaas is alleen bij Microsoft™ bekend -en die kennis wordt goed afgeschermd- hoe deze codes gelezen moeten worden om er de oorspronkelijke tekst uit terug te genereren. Elaborate bewaart tekst echter gewoon als tekst, waardoor de data altijd leesbaar blijft.

Het eigenlijke gebruik van eLaborate is door het Open Source karakter overigens ook vrij: een onderzoeker hoeft in principe dus niet te betalen voor het gebruik van eLaborate. Hoewel dat natuurlijk niet wegneemt dat het online toegankelijk maken van duizenden pagina´s tekst natuurlijk wel tot hoge productiekosten kan leiden.


 

Elaborate als editie- en annotatie-instrument


eLaborate werd bedoeld als een online samenwerkingsplatform dat sterk interdisciplinair onderzoek zou bevorderen. Op zichzelf is eLaborate wel een platform dat die grote ambitie technisch zou kunnen waarmaken. Maar interdisciplinariteit is vooral een organisatorische kwestie, het is niet zo dat als de techniek voorhanden is, de interdisciplinariteit ook optreedt als een natuurlijke wetmatigheid. Als organisatorische doelstelling is die bevordering van interdisciplinariteit met de kracht van terugblik dan ook te ambitieus of veelbelovend geweest.

In 2005 werd het NIWI formeel opgeheven omdat de functies van een aantal onderdelen ervan als niet meer relevant werden ervaren. Een aantal onderdelen en producten van het NIWI werden echter als zeer waardevol beschouwd, waaronder eLaborate. De best passende institutionele omgeving voor eLaborate was op dat moment het Huygens Instituut dat het project sindsdien beheert en verder ontwikkelt.

Sinds het onderbrengen van eLaborate binnen het Huygens Instituut zijn in de ontwikkeling ervan bepaalde onderdelen meer benadrukt in overeenstemming met de doelstellingen en ambities van het Huygens Instituut. Dit betekent met name dat eLaborate zich de laatste jaren meer ontwikkeld en gespecialiseerd heeft als editie- en annotatie-instrument. Wat dit functioneel precies betekent staat in de projectbeschrijvingen voor eLaborate en de nieuwe versie daarvan die ontwikkeld wordt onder de codenaam 'Editiemachine'.
 

Elektronisch editeren


De ontwikkeling van eLaborate is bij het Huygens Institute met name in het licht van elektronisch editeren komen te staan. De vraag die daarbij rijst, is wat elektronisch editeren inhoudt. Het debat daarover is al zo'n drie decennia in volle gang en heeft noch nationaal, noch internationaal een algemene consensus opgeleverd. Grofweg zijn er twee dimensies van het elektronisch editeren waarop zich in de discussie een diametrale tegenstelling lijkt voor te doen. Ten einde de huidige vorm van eLaborate te verklaren, ontkomen we er niet aan kort in te gaan op deze tegenstellingen.
 
Structureren en visualizeren


Vanuit de editiewetenschap, en meer speciaal vanuit de diverse hoeken waarin werd geëxperimenteerd met de digitale mogelijkheden voor editietechniek, is veel gewerkt aan het wetenschappelijk editeren van letterkundig materiaal in de vorm van XML. De onderzoekers die deze methode gebruikten, waren vrijwel zonder uitzondering 'native speakers' van XML. XML (Extensible Markup Language) is een tekstformaat waarbij met zogenaamde tags onderdelen van een tekst gemarkeerd kunnen worden. De naam van een tag is daarbij arbitrair. In het algemeen en meer in het bijzonder in het geval van de TEI (Text Encoding Initiative) wordt er vanuit gegaan dat de markering de tekstuele functie en/of betekenis van de omspannen tekst beschrijft. Om het concreter te maken, in XML zou je op de volgende wijze kunnen aangeven dat een reeks woorden de naam van een auteur weergeeft:

"Op 19 oktober 2007 overleed de Nederlandse
 auteur <auteur><voornaam>Jan</voornaam> <achternaam>Wolkers</achternaam></auteur> in 
zijn woning te Texel."

De tag "auteur" omspant met een begintag "<auteur>" en eindtag "</auteur>" het tekstgedeelte waarin we een naam vinden. Omdat de tag "auteur" heet, nemen we aan dat de informatie binnen de tag een auteur betreft. In de tag staan weer twee specificerende tags die op dezelfde wijze markeren welk deel van de tekst de voornaam en welk deel de achternaam geeft van de auteur.

Door tekst op deze manier te markeren of te 'taggen' ontstaat een gestructureerde en betekenis- of functiebeschrijvende vorm van de eigenlijke tekst. Dat is een uitstekend principe dat eigenlijk door niemand in domein van elektronisch publiceren bestreden wordt. Een groeiende groep van pioniers in het elektronisch editeren begint er echter van overtuigd te raken dat XML 'sec' niet hanteerbaar is als werkinstrument voor tekstwetenschappers. De reden die aangevoerd wordt is dat XML in zijn directe of ruwe vorm nogal onhandelbaar wordt (zelfs voor mensen die er dagelijks mee werken). Om een eenvoudig(!) voorbeeld te geven:


<teiHeader>
        <fileDesc>
                <titleStmt>
                        <title type="245">The Wade-Davis manifesto. A last appeal to the democracy. By Caspar Butz.</title>
                        <author> Butz, Caspar, 1825-1885.</author>
                </titleStmt>
                <extent>4 600 dpi G4 TIFF images</extent>
                <publicationStmt>
                        <publisher>University of Michigan Library</publisher>
                        <pubPlace>Ann Arbor, Michigan</pubPlace>
                        <date>2005</date>
                        <idno type="dlps">ADG9061.0001.001</idno>
                        <idno type="lccallno">E458.4 .B99</idno>
                        <availability>
                                <p>These pages may be freely searched and displayed. Permission must be received for 
subsequent distribution in print or electronically. Please go to http://www.umdl.umich.edu/ for more information.</p>
                        </availability>
                </publicationStmt>
                <sourceDesc>
                        <biblFull>
                          <titleStmt>
                                <title type="245">The Wade-Davis manifesto. A last appeal to the democracy. By Caspar Butz.</title>
                                <author> Butz, Caspar, 1825-1885.</author>
                          </titleStmt>


Het relatief beperkte enthousiasme waarmee XML onthaald is in de traditionele tekst- en literatuurwetenschappen, doet niets af aan de principiële toegevoegde waarde van XML (namelijk dat XML het mogelijk maakt de structuur en betekenis van tekst formeel, controleerbaar en machineleesbaar vast te leggen). Het geeft wel aan dat de meeste literatuuronderzoekers niet graag met deze ruwe vorm van XML werken en veelal niet in staat zijn dergelijke constructies als hierboven zelfstandig te produceren.

Bij sommige literatuuronderzoekers die wel overtuigd zijn van het nut van ontsluiting van tekst via internet, maar niet overtuigd zijn van het nut van XML, heeft er bepaald een antireactie plaatsgevonden op XML. Deze literatuuronderzoekers zijn er van overtuigd dat publicatie van tekst en onderzoeksmateriaal, en de analyse ervan niet gebaat zijn bij het gebruik van geformaliseerde standaards (zoals TEI/XML). De toepassing van dergelijke standaards is in hun bevinding zo tijdrovend en zo bezijden het directe onderzoeksdoel van het editeren dat zij in wezen alleen maar afleidt van wetenschappelijke interpretatie. Die onderzoekers en editeurs kiezen er vaak voor om via een standaard content management systeem hun materiaal op het internet te plaatsen ongeacht de achterliggende vorm waarin de data wordt opgeslagen en bewaard. Dit komt de beschikbaarheid van de data zonder meer ten goede en ook de leesbaarheid, maar de controleerbaarheid en houdbaarheid van de data wordt (ons inziens) daarmee wel in gevaar gebracht, of op zijn minst kunnen er vraagtekens gezet worden bij de wetenschappelijke controleerbaarheid en archiveerbaarheid van het materiaal.

Het project eLaborate betrekt bewust een middenpositie in deze technisch/methodologische discussie. Elaborate als instrument zoekt naar een consensus tussen de betekenisgeving en tekststructurering die de wegbereiders van de TEI voorstaan en de wens tot werkbaarheid en productietempo die veel gebruikers en onderzoekers eisen van een digitale werkomgeving. Methodologisch en instrumenttechnisch interpreteert eLaborate de situatie als volgt: er bestaat een medium (internet) en er bestaat ook een adequate taal (TEI/XML), maar er ontbreekt een eenvoudig bedienbaar middel om teksten in de juiste vorm in het medium te brengen. Of, misschien wat beeldender: we beschikken over papier en inkt, maar we hebben geen pen. De middelen die er wel zijn, lijken meer op vreselijk ingewikkelde zakmessen waarmee, mits op de juiste manier opengevouwen en gebruikt, zelfs op een bepaalde manier wel geschreven kan worden. Er zijn computertalen en -programma's die enorm gecompliceerd ogen en zíjn. Programmeurs en software-architecten kunnen met dat soort techniek mooie dingen doen op het internet, maar digitaal niet ingevoerde filologen en editeurs ontberen begrijpelijkerwijs de technische kennis om er mee te werken.

Elaborate wil dit gapende gat tussen filoloog en internet overbruggen. De projectgroep had niet de illusie alle problemen en moeilijkheden in één keer te kunnen oplossen, maar in ieder geval kon geprobeerd worden een gereedschap te maken dat de tekstwetenschapper niet zou afschrikken door alle technische moeilijkheden, en dat hem of haar toch in staat zou stellen een tekst op het web te plaatsen – hoe ruw dan ook.


 
Metatagging en Information Retrieval


Een andere discussie die zich regelmatig in verschillende vermomming voordoet in de wereld van elektronisch editeren en publiceren, betreft de mogelijkheden en onmogelijkheden van metatagging en information retrieval. Vaak wordt er een schijnbare tegenstelling gesuggereerd tussen de twee varianten van interpretatief omgaan met digitaal materiaal. Metatagging voegt gestructureerde informatie toe aan ongestructureerde data, tekst of afbeeldingen etc. Dit doet men om de ongestructureerde informatie zo beter vindbaar te maken, te kunnen interpreteren of semiautomatisch te analyseren. Het toekennen van trefwoorden aan een romaneditie is in wezen een vorm van metatagging. In veel gevallen is XML het middel waarmee metatagging uitgevoerd wordt. Maar er bestaan honderden, zo niet duizenden andere technische manieren waarop metatagging kan plaatsvinden. Metatagging is populair daar waar onderzoekers materiaal willen analyseren en interpreteren. Om een simpel voorbeeld te geven: door wellicht heel verschillende documenten categorisch te taggen met een trefwoord 'roman', kan een computer in een digitaal corpus exact tellen hoeveel procent van de documenten romans zijn. Metatagging kan dus toegepast worden om grip te krijgen op ongestructureerd materiaal.

Onderzoekers uit de information retrieval hoek zullen deze meerwaarde van metatagging nooit bestrijden. Wel zullen zij zich afvragen of je met metatagging de 'information overload' te lijf kunt gaan in een digitaal tijdperk dat inmiddels meer dan miljarden openbare documenten oplevert. Het probleem is dat metatagging in verreweg de meeste gevallen een deels handmatig proces is. De groei van het aantal documenten dat getagd zal moeten worden is echter vele malen groter dan het aantal documenten dat getagd kán worden met de deels handmatige inspanning. Om de mogelijkheden in perspectief te plaatsen: de redactie van de Bibliografie van de Nederlandse Taal- en Literatuurwetenschap is in staat om met deels handmatige middelen zo'n 5.000 documenten bibliografisch te beschrijven, per jaar; en de maximale omvang van het aantal documenten dat op enigerlei tijd door handmatige metatagging door de Library of Congress in de VS ontsloten zal kunnen worden, beloopt in de orde van de 10 miljoen documenten. Dat lijkt veel, maar de huidige schatting van het aantal tekstdocumenten op het internet bedraagt een getal in de tientallen miljarden en de snelheid waarmee dat aantal documenten groeit bedraagt méér dan 10 miljoen documenten per maand. Oftewel: elke maand komen er meer tekstdocumenten beschikbaar op het internet dan de Library of Congres ooit zal kunnen beschrijven, gegeven de huidige menselijke capaciteit daar beschikbaar. (Wie meer wil weten over dergelijke cijfers luistert naar de lezing hierover door William Arms.) Veel onderzoekers hebben uit deze cijfers de conclusie getrokken dat zinvolle interpretatieve digitale ontsluiting van tekstdocumenten alleen kan plaatsvinden door steeds vaker volledig geautomatiseerde processen te hanteren. En zelfs dan – zo redeneren zij – zal het nog de vraag zijn of al het beschikbare materiaal wel vindbaar en analyseerbaar zal zijn.

Impliciet gaat eLaborate er vanuit dat handmatige markup of metatagging gegeven de groeicijfers van digitale publicaties op de langere termijn niet houdbaar is als instrument voor het extensief ontsluiten van tekstueel materiaal uit literatuuronderzoek. Zelfs de misschien relatief klein te noemen wetenschappelijke vakgebieden die zich met tekst- en literatuurstudie bezig houden, zullen op termijn méér digitale data genereren dan met semi-automatische markup ontsloten kan worden. Waarschijnlijk is die situatie al een feit, maar harde gegevens voor die conclusie ontbreken. In tegenstelling tot veel andere systemen en werkwijzen voor de productie van elektronische edities, staat eLaborate daarom toe dat ook niet-gestructureerd materiaal onderdeel kan zijn van een digitale editie of als basis kan dienen voor een elektronische publicatie. Het project 'De Vaderlandsche Letteroefeningen' is daar een voorbeeld van. Dit artikel van Karina van Dalen-Oskam geeft een aantal overwegingen waarom er bij dit omvangrijke project gekozen is voor technieken uit de information retrieval.

Naast deze information retrieval-achtige benadering maakt eLaborate het echter ook mogelijk dat onderzoekers en editeurs specifieke (handmatige) tagging toepassen op de digitale teksten. Zo kunnen zij die documenten ontsluiten volgens de regels die door groepen van specialistische gebruikers zijn opgesteld. Een project binnen eLaborate als de 'Lancelotcompilatie' (pagina's niet openbaar beschikbaar) waarbij via de annotatiefunctie een structurering of metatagging in een editietekst wordt aangebracht, is daarvan een voorbeeld.


 
De huidige werkomgeving


Binnen de twee beschreven methodologische discussies wil eLaborate een middenpositie innemen. De huidige werkomgeving van eLaborate beantwoordt aan die wens. Als software is eLaborate het best te omschrijven als een filologisch gespecialiseerd content management systeem. Een content management systeem wordt over het algemeen gezien als een stuk software dat het gemakkelijk maakt om tekst en visuele informatie op het internet te zetten. Daarbij moet het maken of invoeren van tekst eigenlijk net zo makkelijk zijn als het schrijven van een tekst met een programma als Word™. Alleen moet het resultaat dan niet een bestand ergens op een harde schijf zijn, maar een tekst die direct beschikbaar is op het internet. Met eLaborate in de huidige versie zijn dit soort dingen mogelijk. Maar daarin is eLaborate op zichzelf niet bijzonder, dat soort systemen zijn er tegenwoordig wel meer. Wat wel bijzonder is aan eLaborate is dat het tekstwetenschappers tekst laat editeren op een wijze die voor hen makkelijk en herkenbaar is. Binnen de werkomgeving van eLaborate op internet kan een editeur daartoe herkenbare concepten gebruiken als facsimilé, transcriptie, annotatie, commentaar etc. In IT-termen heet het dat deze concepten gemodelleerd zijn binnen het systeem. Dat betekent dat onderzoekers en editeurs in nauwe samenwerking met de software-ontwikkelaars het gedrag en functies van de virtuele omgeving zo gedefinieerd hebben dat deze zich zoveel mogelijk gedragen zoals editeur en onderzoeker de werkelijkheid van het onderzoek ervaren. In de virtuele omgeving vinden onderzoeker en editeur daardoor zoveel mogelijk de middelen en methoden die zij ook in de werkelijkheid toepassen.

Het meest concrete voorbeeld van deze modellering is het annotatiemodel dat eLaborate gebruikt. Grofweg gedefinieerd zijn annotaties in het 'werkelijke leven' (dat wil zeggen in de praktijk van het literatuuronderzoek met het boek op tafel) de aantekeningen die een onderzoeker neerschrijft in een notitieblok, op systeemkaarten of desnoods in de marges van de kopieën die hij gebruikt. In alle gevallen betekent dat dat hij of zij metatekst genereert die behoort bij een bepaald deel van de tekst die bestudeerd wordt. De online werkomgeving van eLaborate biedt juist die mogelijkheid van aantekeningen maken op een zeer eenvoudige wijze aan. Het geannoteerde voorbeeld van de gebruikersinterface geeft misschien inzichtelijker weer wat daarmee bedoeld wordt. Het werken in de virtuele omgeving is daarnaast niet alleen een soort getrouwe kopie van het werken in de werkelijkheid maar voegt er een belangrijk voordeel aan toe: het expliciete verband tussen annotatie en geannoteerd object. Bij het onderzoek in de werkelijke wereld wordt dat verband ook geëxpliciteerd. Tenminste, als de onderzoeker zijn huiswerk fatsoenlijk doet, noteert hij bij een aantekening op zijn minst op welke pagina van welk drukwerk die betrekking heeft en waar dat specifieke exemplaar van dat drukwerk is te vinden. Dat biedt het nut van controleerbaarheid en daarmee van wetenschappelijke betrouwbaarheid. Het nadeel is dat de op deze manier in de werkelijke wereld gelegde link tussen eigenlijk werk en aantekening kwetsbaar is. Op het moment dat het fysieke exemplaar niet voorhanden is (verdwenen, beschadigd, uitgeleend, uit den lande, of om welke andere mogelijke reden dan ook), is het verband weliswaar nog steeds beschreven, maar in wezen is dat verband oncontroleerbaar geworden. Omdat in eLaborate zowel het geannoteerde object als de annotatie aanwezig zijn, wordt dit gebrek ondervangen, waar men zich ook bevindt. Bovendien is de link robuust: het digitale systeem 'weet' op welk deel van de eigenlijke tekst de annotatie betrekking heeft en bovendien zorgt het systeem ervoor dat de link behouden blijft waar de tekst ook wordt neergezet of waar de annotatie ook naar toe wordt verplaatst binnen het systeem.

Daar bovenop biedt de digitale omgeving een aantal andere voordelen. Er is nog geen expliciet objectief onderzoek gedaan naar het gebruik van eLaborate, maar uit de beschikbare gebruikersinformatie lijkt het beeld voort te komen dat de eindgebruikers (d.i. de onderzoekers) een aantal voordelen van eLaborate het meest waardeert. Dit zijn achtereenvolgens:

  • Materiaal overal ten alle tijden beschikbaar
    Doordat het materiaal digitaal wordt ondergebracht of gecreëerd in eLaborate is het ten alle tijden waar een internettoegang is, beschikbaar.
  • Overal werken met hetzelfde systeem
    Doordat eLaborate een online systeem is, is het overal in dezelfde vorm en kwaliteit beschikbaar daar waar er een internettoegang is. Werken vanuit een bibliotheek is dus even goed mogelijk als vanachter de PC thuis en de software reageert op beide plekken precies hetzelfde.
  • Geen versieproblemen
    Doordat alle materiaal op één plek staat en alle bewerkingen daar plaatsvinden, wordt een probleem van andere systemen ondervangen. Waar men vroeger soms met drie verschillende versies van hetzelfde Word™-document aan het steggelen was, ziet men op elke plek nu alleen de recentste versie van één document.
  • Beveiliging
    Het materiaal kan goed afgeschermd worden van ongewenste pottenkijkers. Wanneer nodig, kan een onderzoeker zelfs zorgen dat alleen hij of zij toegang heeft tot bepaald materiaal. Maar andersom kan later ook eenvoudig gezorgd worden dat de hele wereld toegang heeft tot het eindresultaat.
  • Doorzoekbaarheid
    Waar het vinden van een bepaalde passage uit een tekst vaak een enorm karwei was, is dat binnen eLaborate een erg eenvoudige klus geworden door de zoekfunctie die ál het materiaal ontsluit. Erg gewaardeerd wordt dat bij een zoekactie ook de aantekeningen (annotaties) worden doorzocht, omdat zich daar vaak de informatie bevindt waarnaar men op zoek was.
  • CMS-functionaliteit
    Naast de ontwikkelde specifiek filologisch functionaliteiten biedt eLaborate ook 'standaard' content-managementfunctionaliteit. Dit geeft gebruikers de mogelijkheid om 'standaard' digitaal materiaal in te bedden in elektronische edities. Binnen een editie kan een gebruiker dus ook illustraties, geluids- en videofragmenten, databestanden, commentaarteksten etc. aanbieden. Andersom kunnen (delen) van elektronische edities functioneren in gedeelten van de site die niet specifiek één editie vormen.
  • Gebruikseenvoud
    Het blijkt dat gebruikers het waarderen dat ze niet met de 'rauwe' XML aan de slag hoeven. Elaborate gebruikt een interface die de feitelijke XML verbergt voor de onderzoeker en/of editeur, maar wel de ruimte biedt om structurerende concepten (bijvoorbeeld de tekststructuren die de TEI definieert) toe te passen op een tekst. Het lijkt erop dat eLaborate daarmee het midden vindt tussen een begrijpelijke, relatief prettige werkomgeving en de interactie met het materiaal op een conceptueel betekenisvol niveau. De techniek 'onder de motorkap' draagt onderwijl zorg voor een correcte technische representatie van het materiaal


 
Het (bescheiden) succes van eLaborate


Met eLaborate heeft het Huygens Instituut een eerste gereedschap geproduceerd dat een brug probeert te slaan tussen de geavanceerde techniek en methodologie van de pioniers in elektronisch editeren en de onderzoeker/editeur van teksten die wel geïnteresseerd is in digitaal editeren/publiceren maar die niet op de hoogte hoeft te zijn van alle technische details. De vraag is hoe succesvol eLaborate is in het vormen van die brug. De grafiek in figuur (1) geeft hierin wellicht inzicht. Het gebruik van eLaborate en het aantal ermee ondersteunde projecten groeit gestaag. Inmiddels telt eLaborate negenennegentig professionele gebruikers en vierentwintig projecten binnen wat we gemakshalve het Nederlands filologisch vakgebied zullen noemen. Het feitelijk gebruik van eLaborate is groter, maar hier is alleen het gebruik geturfd dat gekenmerkt kan worden als filologisch. Voor een relatief klein vakgebied dat nog niet ver gevorderd is met het toepassen van digitale middelen en voor een instrument dat relatief kort bestaat, lijkt dit een bescheiden succes af te tekenen.
 
<Image:gebruik_elaborate>

Fig 1.: Gebruik eLaborate (klik om te vergroten)

 

De toekomst van eLaborate


personalisatie


Elaborate wordt op dit moment actief ondersteund en ontwikkeld door het IT Research & Development Team van het Huygens Instituut. Daarnaast werkt dit team in nauw overleg met een aantal onderzoekers, editeurs en filologen aan de opvolger van eLaborate onder de codenaam 'De Editiemachine'. Het doel van de nieuwe versie is om een flexibeler publicatieplatform voor de edities te bieden die in eLaborate voorbereid worden. Op dit moment kunnen editeurs niet kiezen hoe hun editie zich toont aan een groter publiek op het internet. In de nieuwe versie moet een editeur in staat worden gesteld een editie net zo mooi of functioneel op te maken als een tekst in een tekstverwerkingsprogramma. Uiteindelijk is het zelfs de bedoeling dat niet (alleen) de editeur beslist over die vorm, maar dat de eigenlijke eindgebruikers van de editie in zekere mate kunnen bepalen hoe de editie zich aan hen toont. Bovendien moet een editie mediumonafhankelijk worden. Dat wil zeggen dat er een vorm beschikbaar moet zijn van de editie die ook geschikt is om aan een drukker aan te bieden. Op die manier sluiten fysieke en virtuele publicatie elkaar niet uit, maar versterken elkaar.

 
Gelaagde edities


Verder moeten edities meer gelaagd kunnen zijn. Op dit moment biedt eLaborate een vrij 'plat' concept aan voor een digitale editie: naast een facsimile, kan een transcriptie worden gemaakt, en daarop kunnen annotaties worden aangebracht. Maar wat als iemand naast een diplomatische transcriptie ook een kritisch afschrift wil maken? Wat als een mede-onderzoeker commentaar wil leveren op de annotatie van een editeur? Wat als twee verschillende onderzoekers allebei apart dezelfde tekst willen annoteren? Ervaringen in het werken binnen eLaborate hebben voor dit soort vragen al wel tal van tijdelijke oplossingen opgeleverd. Maar dat blijven 'work arounds'. Dat wil zeggen, oplossingen die niet direct de gevraagde functie ondersteunen, maar waarbij de bedoelde functie met behulp van wat kunstgrepen door de gebruikers zelf nagebootst wordt. Een voorbeeld is het bestempelen van een annotatie als paleografisch commentaar. Elaborate kent hiervoor niet het idee van categorieën van annotaties. Daarom nemen gebruikers de beoogde categorie op in de tekst van een annotatie in een onderling afgesproken vorm, zoals bijvoorbeeld “{vlo:pc}”. Zo'n aantekening betekent dan zoveel als: “Deze annotatie is een paleografisch commentaar op de hier geselecteerde tekst uit de Vaderlandsche Letteroefeningen.” Het systeem heeft hiervan in feite geen notie, de betrouwbaarheid van de metadata bestaat bij gratie van de onderlinge afspraak tussen de onderzoekers die hem gebruiken. In een nieuwe versie van eLaborate kan deze categorie uiteindelijk netjes gemodelleerd worden. De tijdelijke aantekeningen worden daarbij automatisch op de juiste manier overgenomen in de nieuwe versie van het systeem. Een meer definitieve oplossing moet gezocht worden in een volgende versie van eLaborate waarin het mogelijk moet zijn om een annotatie op een annotatie te maken (vandaar “meer gelaagd”). Door dit mogelijk te maken kan de categorie van een annotatie opgenomen worden als annotatie bij (of van) de annotatie. De functie van 'annotatie op annotatie' maakt het ook mogelijk dat onderzoekers op elkaars annotaties kunnen reageren en elkaar zo verder helpen. Maar een onderzoeker die geen behoefte heeft aan dergelijk commentaar, kan met evenveel gemak ervoor kiezen zulke annotaties niet te zien.
 
Analyse


Een andere belangrijk richting die de nieuwe versie van eLaborate inslaat, is die van analyse. De eerste versie van eLaborate was wat betreft het bieden van analysegereedschappen onambitieus. Dit was een bewuste keus in verband met het doel interdisciplinaire samenwerking te stimuleren. Voor dat doel was het vooral belangrijk dat onderzoekers uit verschillende disciplines elkaars materiaal konden delen. Over de gewenste analyses op het materiaal was op dat moment nog niets te zeggen. Nu eLaborate zich meer en meer lijkt te ontwikkelen als een filologisch specialistisch gereedschap, wordt het ook opportuun om computerondersteunde analyses op het tekstmateriaal mogelijk te maken. Er wordt daarbij gedacht aan een breed spectrum van mogelijke analyses, van eenvoudige woordfrequentiegrafieken tot latent semantic indexing (LSA). Overigens betekent dit dat eLaborate een minder ambitieuze doelstelling op interdisciplinair vlak zal hebben. Desondanks blijft eLaborate een interdisciplinaire component houden. De eisen die eLaborate stelt aan de informatietechologie zijn namelijk zo geavanceerd dat de verdere ontwikkeling van eLaborate het onderzoek in dat vakgebied aanvult en uitbreidt.
 
Internationalisering


De veelheid aan geavanceerde eisen en wensen die gesteld worden aan een nieuwe versie van eLaborate kunnen eigenlijk niet meer gerealiseerd worden in een enkele institutionele of nationale context. Inmiddels is het Huygens Instituut daarom meerdere internationale samenwerkingsverbanden aangegaan om gebruik te kunnen maken van het werk en de ideeën van een aantal internationaal belangrijke voortrekkers op het gebied van elektronisch publiceren. Het Huygens Instituut hoopt die capaciteit en kennis ondermeer te bundelen in een initiatief onder de naam 'Interedition' (eveneens als 'De Editiemachine' een werktitel). Deze samenwerking moet ertoe leiden dat de volgende versie van eLaborate een internationale coproductie wordt, waarbij verschillende internationale partners verschillende componenten van het systeem bouwen, zodat de capaciteit van alle partners optimaal benut wordt en er geen dubbel ontwikkelwerk plaatsvindt – wat in het verleden vrij regelmatig het geval is geweest.

Uiteindelijk moet de internationale setting waarin de techniek voor eLaborate ontwikkeld wordt ook leiden tot een meer internationaal karakter van elektronische editiewerk. Hierbij wordt gedacht aan het gedistribueerd opzetten van elektronische edities. Dat wil zeggen dat de verschillende onderdelen van een editie zich niet allemaal meer in hetzelfde systeem hoeven te bevinden. Een editie kan dan ook bestaan uit een collectie van onderdelen die zich als een eenheid aan de onderzoeker/gebruiker toont maar waarvan de onderdelen in feite op ver van elkaar verwijderde systemen zijn vervaardigd. Een gebruiker ziet dan bijvoorbeeld nog steeds een facsimile met daaronder een transcriptie en een vertaling. En in de vertaling en transcripties zijn annotaties aangebracht. Dat alles oogt als een eenheid voor de lezer, maar in werkelijkheid is de facsimile beschikbaar gemaakt op een server van de Bibliothèque national de France in Parijs, de transcriptie is vervaardigd door een Engelse editeur en 'leeft' op een server van het Oxford Text Archive. De vertaling is van de hand van een editeur aan de Universiteit Utrecht en 'draait' op een computer aldaar. De annotaties zijn door verschillende onderzoekers aan verschillende instellingen aangebracht via de nieuwe versie van eLaborate die draait op een server van het Huygens Instituut. En al die verschillende onderdelen worden 'just in time' zoals dat heet, voor de eindgebruiker in de laatste versie voorhanden samengesteld en via diens internetverbinding ter beschikking gesteld in een geïntegreerde grafische interface.


 
Besluit


Dit artikel schetst in wat toch al flink wat tekst is geworden een globaal overzicht van een aantal belangrijke pricipes en ontwikkelingen waarop de huidige vorm en functioneren van eLaborate is gebaseerd. Dit artikel heeft niet de pretentie volledig te kunnen zijn. Noch in de beschrijving van alle technische en inhoudelijke discussies die gevoerd zijn tijdens het ontwikkelen van eLaborate, noch in de beschrijving van alle technische en inhoudelijke discussie elders die de ontwikkeling van eLaborate heeft beïnvloed. Toch hopen we op deze manier een inzicht te hebben gegeven in de herkomst, de achterliggende principes en de verwachte toekomst van eLaborate. Eén belangrijk principe is tot nog toe onbesproken gebleven: we zien de ontwikkeling van eLaborate als een evolutionaire ontwikkeling. We pretenderen weldegelijk zinvolle ideeën te hebben over hoe elektronisch editeren in zijn werk zou moeten gaan, maar we willen die principes niet eigenmachtig opleggen aan de vorm en functie die eLaborate aanneemt. Uiteindelijk zijn het de gebruikers en onderzoekers die bepalen hoe eLaborate zich toont en hoe het functioneert. Wij gebruiken voortdurend de feedback van de eindgebruikers om eLaborate (en de opvolger ervan) aan te passen aan zijn omgeving die bestaat uit die gebruikers. Daardoor hopen we eLaborate fit te houden voor de toekomstige digitale context. En zo hopen we ook op een organisch-empirische wijze te ontdekken wat elektronisch editeren volgens de Nederlandse filologische gemeenschap is.

Dit is de eerste versie van dit artikel. Omdat het hier een online artikel betreft, hebben we gemeend de evolutionaire principes van software-ontwikkeling ook op dit artikel toe te moeten passen. Wij houden ons dan ook aanbevolen voor alle commentaar, aanbevelingen, historische correcties etc., en zullen alle voorgestelde wijzigingen in overweging nemen voor een volgende versie. Die volgende versie zal overigens uitgebreid worden met een notenapparaat en een literatuurlijst ter verhoging van de verifieerbaarheid van wat hier beweerd is.

Utrecht/Den Haag, oktober 2007, Joris van Zundert

 


Last modified: 02-04-2013 12:12