Jornades DiXiT d’edició digital

He estat un parell de dies en les jornades DiXiT de març (#dixit2). Ha estat la cinquena trobada d’aquest magnífic programa europeu, i la segona en forma de col·loqui.

Han estat dos dies intensos per a mi; però el col·loqui sencer s’ha estés des de dilluns passat a avui mateix. Només puc reportar, doncs, el que he escoltat d’aquests dos dies, a través dels apunts que he pres, als quals afegisc algunes piulades d’assistents. Per a més informació, recomane seguir en Twitter el hashtag #dixit2 per a fer-se’n una idea de conjunt. Al web de les jornades es té previst penjar les presentacions dels ponents.

Dimecres 16. Primera sessió: Critical Editing I

Andreas Speer | Blind Spots of Digital Editions: The Case of Huge Text Corpora in Philosophy, Theology and the History of Sciences

Speer (que forma part de l’equip amfitrió en Köln) explica les dificultats específiques a l’hora de plantejar-se elaborar edicions digitals de grans corpus, com el Corpus Aristotelicum, o totes les variants de l’obra de Pere Llombard, o l’obra i les variants de Ptolomeu, etc. Speer assenyala alguns dels principals obstacles per treballar amb corpus tan enormes. Per exemple: qui les vol pagar? Són útils tant a filòlegs com a filòsofs, però no són econòmicament viables. Aquestes tasques són tan grans que es perllongaran per molts molts anys, i és precís, per exemple, establir una terminologia d’història científica que siga estable i puga sobreviure als canvis de perspectives teòriques que es puguen anar donant en el temps. Speer és editor d’Averrois, i està ben familiaritzat amb l’obra d’Avicenna.

Què cal, doncs, tenir en compte, quan hom es planteja un projecte així?

·El tamany del corpus

·La complexitat de la transmissió

·L’objectiu específic de l’edició

·El pressupost (limitat)

·Les eines digitals que no tenim (missing)

Un altre exemple: les diferents traduccions al llatí medievals de la Metafísica d’Aristòtil, cada una amb la seua àmplia tradició de variants i comentaris.

@ariciula: Andreas Speer on study of peciae (petia-system) as clue to transmission history (eg. Aristotle edited by Guillelmi de Moerbeke) #dixit2

Ara Speer parla dels nivells multilinguístics hermenèutics de l’obra d’Averrois, que és ben complexa perquè té tants comentaris, en part coneguts però en part desconeguts. Els stemmes que ofereix com a exemples dels diferents corpus que va exposant al llarg de la seua xarrada són dels més complexos que haja vist jo mai. (“We should stop blaming Lachmann”, bromeja.)

Speer pertany al Thomas-Institut de Köln, i és el cap de l’Averroes-project, que s’ocupa de la recepció aràbiga, hebrea i llatina de la Història Natural d’Aristòtil. També del Digital Averroes Research Environment DARE, i altres.

Remarques: Maneres d’aproximar-se a aquests texts, que són totes vàlides (i probablement complementàries): filologia medieval; eines digitals; imprés vs digital; fer ciència. “Només fan filosofia els humans”, recorda Speer. I els humans són complexos.

Per a Speer, l’edició impresa és encara la benchmark, el centre, de l’estudi filològic.

@ariciula: Andreas Speer on printed edition as benchmark rather than side-product #dixit2

@ellibleeker: “We should stop blaming Lachmann” The model of print editions is useful when developing DSE of large scientific text corpora, ASpeer #dixit2

Mehdy Sedaghat Payam | Digital Editions and Materiality: A Media-specific Analysis of the First and the Last Edition of Michael Joyce’s Afternoon

Aquest ponent, iranià, ha fallat perquè el seu país no li ha concedit el visat de viatge a temps. Una llàstima.

Raffaella Afferni / Alice Borgna / Maurizio Lana / Paolo Monella / Timothy Tambassi | “… But What Should I Put in a Digital Apparatus?” A Not-So-Obvious Choice: New Types of Digital Scholarly Editions

Passem ara a Maurizio Lana i Alice Borgna, representant el seu grup: què inclouse en un aparat digital. Alice Borgna explica com fins ara una edició filològica digital es veia simplement com a edició filològica de variorum, perquè pot incloure un més gran nombre de variants. Però hi ha d’altres possibilitats, a més, que busquen marcar altres tipus de coneixement contingut en el text: edició geogràfica (topònims), prosopogràfica (noms de persones), històrica (registraria elements esdeveniments registrats al text), etc.

De moment no hi ha edicions digitals definitives filològiques de Ciceró, de Tàcit, ni d’altres autors capdals. Mentre n’esperem, poden anar fentse’n edicions digitals centrades en aquests punts: edició geogràfica per exemple (que podria ser també una variorum geogràfica). En això necessitem ontologies per a descriure formalment el coneixement geogràfic. El cas és construir representacions formals de coneixement. En el nostre cas, diu, emprem l’ontologia per augmentar el coneixement geogràfic.

Què és una ontologia, en humanitats digitals? Una estructura dirigida a analitzar la jerarquia categòrica d’un domini específic, amb un llenguatge capaç de ser emprar per màquines. Això evita inconsistències conceptuals i terminològiques. Les ontologies són com conjunts de paraules clau; per exemple, una ontologia prosopogràfica (es busca marcar els noms de persona), o una de geogràfica (els noms de lloc), o una que els sume els dos, etc.

El projecte dels ponents es diu Geolat: Geography for Latin Literature. La seua ontologia té quatre mòduls: GO geodata ontology): GO-TOP (top-level concepts in geography) GO-HUM (anthropic) GO-PHY (physical geography) GO-FAR (ancient geography).

Lana explica que escriure els mòduls de les ontologies dels seu projecte va ser difícil: es va realitzar de nit per part d’un grup de tres dones interessades en el tema, que de dia treballaven en altres coses.

El seu anglés és dubitatiu, i no és gaire fàcil seguir-lo (Borgna parla molt més fluidament). Ara ens diu com codifiquen ells les diferències entre topònims similars (Alexandria en Egipte o Alexandria Eschate?). L’objectiu de la tasca serà també la representació en mapa.

L’equip de Birmingham al qual pertany Fiona McGuire, que és amb mi en aquestes jornades, està fent una cosa similar, però jo diria que més complexa. Fiona treballa en la part de prosopografia (identificació i etiquetatge de persones).

En el diàleg s’esmenta també la geografia imaginària (“avernus”, per exemple, que també s’hi etiqueta). També se’ls pregunta quan estarà el seu projecte a disposició del públic. Expliquen que tardarà una mica; encara no tenen res online. Tenen un equip de col·laboradors que treballen dur, però encara falta, diuen. Ho anunciaran pels canals habituals, quan ho tinguen.

Acaba la primera sessió del matí. En la pausa salude Elena Spadini, Magdalena Turska i Clara Martínez, una jove investigadora de LINDH-UNED, que treballa editant en TEI obres de teoria poètica medieval castellana, fent un treball similar al meu de teoria trobadoresca.

Dimecres 16. Segona sessió: Building Communities

Monica Berti | Beyond Academia and Beyond the First World: Editing as Shared Discourse on the Human Past

Monica Berti (Leipzig) ens conta la seua experiència treballant amb diferents grups (investigadors, estudiants…) per a sumar expertises (habilitats) digitals i filològiques

Ella està treballant ara mateix per produir en versió digital certs índexs d’edicions crítiques en paper, que contenen moltes referències a cites, etc. Sobre la fotocòpia es fa un OCR en què naturalment apareixen moltes errates que cal rectificar. A més cal marcar l’idioma en cada entrada (grec, llatí).

Els cal també desambiguar, etc. El que remarca és el fet que, tot i que els programes per netejar textos passats per OCR són importantíssims, el que més cal, i del que menys n’hi ha, són col·laboradors humans, que revisen i comproven el resultat d’aquests processos automàtics.

Ens parla del gran projecte que mantenen: SunoikisisDC és un consorci internacional de programes per a l’ensenyament de Clàssiques en formats digitals: 12 països i 18 institucions (entre els quals no està Espanya). SunoikisisDC ofereixen el seu material online, i tot és públic, incloses les actes de les seues reunions.

En el diàleg, Berti esmenta també el projecte Ancient Lives, crowdsourcing que ofereix la tasca de transcriure de més de mig milió de documents provinents d’Oxyrhynchus.

Timothy L. Stinson | The Advanced Research Consortium: Federated Resources for the Production and Dissemination of Scholarly Editions

Timothy L. Stinson (U. North Carolina) participa en molt variats projectes des de l’Advanced Research Consortium: Federated Resources for the Production and Dissemination of Scholarly Editions.

L’ARC és una metafederació de cinc nodes orientats per períodes històrics. Ja en tenen tres en marxa, i dos n’estan en construcció.

En marxa:

·MESA (Medieval Electronic Scholarly Alliance)

·Nines (Nineteenth-century Scholarship Online)

·18thConnect (Eighteenth-century Scholarship Online)

En construcció:

·Modnets (Modernist Networks)

·Renaissance English Knowledgebase ReKN)

A més de tota aquesta tremenda estructura, ens mostra també un altre projecte que tenen en proves: SIRO (Studies in Radicalism Online).

En la plataforma base es poden fer cerques en el conjunt de tots eixos projectes, o sols en un. L’accés pot ser Free Culture Only, Full text Only, i Typewright Enabled Only.

En mostra una llista de categories de gènere (genre).

Ara parla del software open source que suporta totes aquestes iniciatives: Collex i BigDIVA

BigDIVA trau estadístiques en gràfics de diferents aspectes de les dades que hi ha en aquests projectes. Visualment és fantàstic.

Utilitat: emprat en recerca, i per a localitzar materials prinaris; els editors poden presentar-hi projectes per a peer review; el software, en codi obert (open source) està a disposició dels usuaris: Collex i BigDIVA.

Aodhán Kelly | Digital Editing in Society: Valorization and Diverse Audiences

Kelly se centra en la qüestió de qui edita en línia, dels diferents projectes en crowdsourcing, per exemple, i de com aquests s’orienten a diferents audiències. Tanmateix, diu, la cosa no és tan simple com separar en dos grups els investigadors i els no investigadors. Hi ha projectes dirigits a no investigadors que poden produir molt de coneixement.

Esmenta, per exemple, el projecte irlandés Letters of 1916, en què gent normal i corrent transcriu (i afegeix) cartes de gent normal i corrent. El mateix pel que fa a Genocide Archive Rwanda, en què tothom pot aportar. O Digital Thoreau.

Kelly discuteix el ben conegut concepte de digital divide (tall social entre els que tenen accés a ordinadors i internet, i els que no). Per al digital divide hi ha també altres factors: el grau d’analfabetisme, els factors socioeconòmics, l’accés a tecnologies diverses, per exemple. Kelly esmenta que cal plantejar-se les tauletes com a mijtans de difusió d’edicions crítiques. Jo complementaré això en el debat aportant informació derivada de les jornades The Academic Book in the South (que vaig ressenyar en l’entrada anterior d’aquest blog), fent constar que la valoració del digital divide ha de prendre en consideració ara no l’accés a ordinadors o no, sinó l’accés a telèfons intel·ligents o no (dels quals, segons es deia allà, tothom en té a l’Àfrica, i a bona part de l’Índia). Kelly esmenta el concepte “minimal computing”.

Dine amb Fiona a l’aire lliure; ens mengem un tros de pizza d’una paradeta i parlem del seu projecte. Donat que fa prosopografia (etiquetatge de noms de persona en les cròniques d’Alfons el Savi), voldria preparar un paper sobre les dones en aquests textos, ja que, havent etiquetat les persones que hi apareixen també d’acord al seu sexe i al seu estatus social, podrà, quan acabe el procés, recuperar-les totes i fer-ne un estudi.

Dimecres 16. Tercera sessió: Cultural Heritage

Hilde Bøe | Edvard Munch’s Writings: Experiences from Digitising the Museum

Aquest projecte intenta posar a l’abast de tothom els moltíssims documents que tenen al museu, cartes de o a Edvard Munch. Hi ha cartes en diferents idiomes; en noruec, per començar, però també en alemany, anglés, etc. Aquesta poliglòssia ha fet difícil atraure prou col·laboradors en línia, via crowdsourcing.

El que més apareix en la seua sessió són els problemes derivats del dret a la intimitat i de les lleis de copyright. Per exemple, han decidit no oferir en línia els textos en què és esmentat algú, fins a dos anys després de la seua mort.

El seu és un treball en procés, que ha d’anar lent perquè ha de presentar transcripcions que siguen fiables des del punt de vista acadèmic.

També s’inclouen en línia els objectes del museu (uns 24.000), que es projecta enllaçar als textos i viceversa.

La veu de Bøe, que llig just després del dinar, sona monòtona, i hi ha un sopor general a la sala. Però el treball que presenta és, sense dubte, impressionant.

Torsten Schaßan | The Influence of Cultural Heritage Institutions on Scholarly Editing in the Digital Age

Schaßan fa una presentació energètica que ens espavila del tot. Clar, concís, dóna molta informació i va directe al cor de molts dels problemes comuns en l’edició digital en Text Encoding Initiative. Divideix la seua xarrada en quatre parts: Què són edicions? Quants tipus d’edicions hi ha? Com consolidar les edicions? Influència de les edicions en les institucions.

Schaßan treballa a la magnífica Herzog August Bibliothek Wolfenbüttel, una biblioteca de recerca enfocada al període medieval i de principi de l’edat moderna. Aquesta biblioteca té vuitanta persones treballant-hi, incloent-hi personal dedicat a edicions digitals.

Què constitueix una edició? Per decidir-ho, haurem de mirar-hi les dades i la funcionalitat: Edicions, o part d’edicions? Edició, o sols transcripció? Siga com siga, les edicions haurien de poder ser reutilitzades per altres. Nosaltres, diu, oferim accés a totes les sourcefiles, que es poden descarregar, així com a l’arquitectura: a com els elements estan enllaçats els uns amb els altres. Ells treballen en documents en TEI.

Una edició se sol considerar quelcom més que no una pura transcripció. Però si és pura transcripció, també és faena: no hauríem de donar-li un nom especial?

La interoperabilitat: caldrà reconéixer que hi ha diferents tipus d’edicions.

Contestant, doncs, a la pregunta “Què és una edició?”, conclou: “Si declara ser una edició digital, ho és”. L’audiència riu.

Cal ser selectius a l’hora de planejar la nostra edició digital. No codifiques allò en què no estàs interessat, perquè cada element prendrà dels teus recursos. Si no esteu interessats en lingüística, no codifiques elements lingüístics, avisa.

No existeix EL text, sinó vistes o comprensions dels texts. Els elements correspondran al tipus de text que es veu.

Els editors cofifiquen amb un propòsit (i a propòsit, a posta, on purpose). Aquest propòsit s’esbrina examinant-ne el codi (que ha d’estar accessible: ha de ser codi obert).

Exemple: com s’empra, en una determinada edició, l’atribut @type? Importància, per ordre descendent: <div>, <note>, <rs>, <ref/ptr>, <idno>, <title>, <bibliScope>, i altres.

Els valors de @type dins de <div> hauran de ser definits. Segueix una value list amb namespaces.

Si s’hi han emprat altres valors, caldrà distingir:

·Equivalència semàntica.

·Remarcar (enhancing) la llista de valors permesos (allowed values).

·Ordenacio jeràrquica dels valors: @subtype.

·Prevenir el tag-abuse: s’haurien haver emprat altres elements en comptes de l’elegit.

Com es mantenen les edicions? Les dades són més sostenibles, més útils, com més emprades són, més reusades. Cal fomentar aquest procés, doncs.

Un treball està en progrés fins que l’obra és publicada en línia; això és el que se sol fer. Però, indica, algun material podria posar-se abans en línia, sense retenir-ho tot fins a l’acabament total.

Les Editiones Electronicae Guelferbytanae. Publicar exigeix no sols inventariar, sinó catalogar. S’esmenten els nivells de preservació: Bitstream, aspecte, entorn i funcionalitat

Revisions: fa distinció entre revisions del contingut i revisions tècniques (no de contingut): errates, typing mistakes, errors de transcripció, etc. Les revisions de contingut s’han de documentant emprant <revisionStmt> / <change>, i han de ser aprovades pels autors. Això no cal en les revisions tècniques (que no afecten el contingut), ja que queden emmagatzemades en el text versioning.

Institucions i projectes: cal que les institucions cooperen amb els projectes des del principi, per a administrar el procés d’edicions; per exemple per documentació, proporcionant schemes (TEI) i espais de col·laboració.

Les institucions estan començant a funcionar també com a editorials: nosaltres, diu, com a biblioteca som també una editorial.

Esmenta, entre els consells en aquest punt, el tipus de llicències que empren: CC-BY-SA.

El paper de les institucions hauria de ser estimular el procés d’harmonització i de normalització: ODD, schema, normdata. Han de pressionar els investigadors individuals cap a l’accuracy, la precisió en els mètodes i la nomenclatura.

Maneres d’emmagatzemar, mantenir i publicar edicions digitals. La seua biblioteca, per exemple, només adquireix ebooks si se’ls autoritza a posar-los en línia per a consulta. Si no, simplement no els compren.

Dinara Gagarina / Sergey Kornienko | Digital Editions of Russia: Provincial Periodicals for Scholarly Usage

Comença Dinara Gagarina, de Perm State University. Perm és una província de la federació russa. El seu projecte consisteix a digitalitzar publicacions periòdiques provincials del període 1914-1919, com a font històrica per a l’estudi de la primera guerra mundial i de la revolució russa.

Aquestes publicacions cobreixen diferents moviments ideològics i polítics, i estan materialment deteriorades. Ens ensenya el seu sistema de classificació, a través d’una sèrie d’exemples de visualitzacions. Es veu que treballen molt bé, i amb una voluntat d’estandardització considerable.

El segon dia em perd la primera sessió, perquè no puc anar-me’n sense veure la tremenda catedral de Köln. Fiona me’n fa un resum ràpid. Tot sembla ben interessant, i lamente no haver-hi estat present.

Dijous 17. Segona sessió: Publishing

Michael Pidd | Scholarly Digital Editing by Machines

Pidd té molta experiència en edicions digitals, i el que ens ensenya és valuós, sobretot per als més avançats. Bàsicament ve a dir-nos que la via d’edició futura és, en comptes d’etiquetar-ho tot manualment, crear algoritmes perquè la màquina etiquete automàticament grans quantitats de textos, de dades. Editar digitalment és una forma d’enginyeria (engineering), centrada a crear algoritmes digitals que la màquina puga aprendre.

La tasca de les persones que hi intervenen, doncs, haurà de ser supervisar que el treball de l’ordinador siga correcte, repassar l’etiquetatge previ que haurà fet la màquina. Com més s’avança, les màquines prenen decisions més complexes. Pidd es refereix ara a The Digital Panopticon, iniciat per la Universitat de Sheffield. Treballen en la transcripció i marcat de casos legals de 90.000 persones processades i deportades a Austràlia.

El factor humà és necessari: una cosa que la màquina no pot fer, per exemple, és distingir si el John Smith d’un document és el mateix John Smith d’un altre. Però passada eixa fase, l’ordinador serà capaç d’emprar aquest material per a escriure biografies de tota eixa gent.

Com més gran la quantitat de dades, més calen els ordinadors. Però llavors apareixen altre problemes en processar la informació, també. Els ordinadors han d’emprar-se per a realitzar accions simples i repetitives de manera ràpida.

Certament, diu, les edicions mecàniques poden contenir detalls inacurats. Però, avisa, li ha moltes males edicions fetes a mà, també. Però quan es va una mala edició digital, aquesta és rectificable, amb més o menys dificultat. Posa l’exemple de John Foxe’s Acts and Monuments Online: elaborar el projecte va durar vint anys, i va caler rectificar errors de concepte inicials. Però finalment la qualitat final del text ha estat un complet èxit, diu.

Pidd adverteix que alguns petites edicions digitals són poc més que ebooks. És millor, diu, aprofitar els ordinadors per realitzar accions més complexes.

Passa ara a parlar del seu projecte Linguistic DNA: Modelling concepts and semantic change in English 1500-1800. És difícil per a mi concretar en detall del que es tracta. Té en compte algoritmes complexos referits a freqüència, proximitat a una distància n, sintaxi, distància semàntica…

Em costa seguir-lo perquè dóna moltíssimes informacions, però m’adone que Pidd és una persona especial en el ram, igual que ahir Schaßan: molt clar, molt específic, amb molta experiència, i baixant als detalls amb què cal encarar-se, es faça el que es faça. Fiona, que treballa amb ell, me’l va presentar ahir, i se la veia ben pagada de col·laborar-hi.

El debat se centra sobretot en la qüestió de què entenem per “concepte”. A propòsit d’açò, jo li demane opinió sobre The Concept Lab, projecte que es realitza ací a Cambridge, dins de CRASSH. Pidd diu que és molt vàlid, però que ells se centren en questions estadístiques al voltant d’un sol concepte: com apareix eixe concepte; com creix en el seu ús, i com decau després; mentre que l’equip de Linguistic DNA busca altres factors també, per sota del valor estadístic.

Anna-Maria Sichani | Beyond Open Access: (Re)use, Impact and the Ethos of Openness in Digital Editing

Els punts que presenta Sichani són vitals per a qualsevol aspecte de la investigació digital. Comença exposant que la idea d’accés obert indica manca de barreres; i que, per tant, té dues vessants: es refereix a no pagar per la informació acadèmica; però també a llicències en obert, a tenir el permís legal d’accedir-hi. D’acord amb aquestes barreres, hi apareixen diferents variables.

Aquest moviment parteix d’un concepte molt nou: busca fer un determinat contingut (informació, text) valuós no per escassesa, sinó al revés, per posar-lo massivament a l’abast, tant per al seu ús com per al seu reús. Com més creix la quantitat de consultes i d’ús, més en creix el valor.

Hi ha vegades, per exemple, que tenim accés gratuït al text, però no tenim permís per reproduir-lo (potser ni tan sols en fragment) en la nostra pròpia investigació: no podem reusar-lo, per falta de permís.

Per això, l’àrea d’ús i content assessment (avaluació del contingut?) és aquella que atrau més atenció ara, en el tema d’accés obert. D’acord amb açò, és un bon pas afavorir l’ús, còpia, distribució i modificació del nostre contingut.

Ara empra dades provinents del Catalogue of Digital Editions de Greta Franzini. Hi veiem que el 55% d’aquestes edicions, tot i poder ser catalogat com a accés obert, no permet accedir al codi font (sourcecode). Sols un 12’7% és a la vegada accés obert i codi font obert.

Les barreres que queden, ara com ara, giren al voltant d’aquests punts:

Contingut a través de diferents dominis (cross-domain content) i copyright diferent.

Dades i contingut més enllà de l’accés.

Qui és el propietari de què? Cal tenir control sobre les dades pròpies, i saber quina llicència hem d’elegir.

La majoria de productes estan encarats a la impressió, de manera que són tancats a la reutilització.

Hi ha com una por de perdre control sobre les dades per part dels organismes que publiquen contingut en accés obert: “Mireu, però no toqueu”. La ponent diu que mereixem alguna cosa millor.

Reusar per evolucionar és una idea vital: en l’època de la impremta, d’un document se’n fan molts, però no el podem modificar. Amb un producte digital també es pot fer això; i de fet és el que s’està fent en bona part. Però també s’hauria de poder actuar sobre el codi font. (No es refereix a canviar-lo en el lloc que consultes, sinó a poder-lo descarregar i refer-lo per aplicar-ne el mètode, modificat, a la teua investigació.) Per a això cal transparència crítica.

James Cummings ha suggerit “Agile editions”: obertura i distribució dels arxius base XML. Això implica treballar en comú per distingir i superar els errors. S’han fet també altres propostes; totes les que s’han fet vénen a confluir en la necessitat de poder compartir el codi, a l’estil GitHub.

Regles de la proposta de Cummings:

·Atribució clara de qui edita què

·Respectar l’elecció de llicència dels creadors del codi

·Establir estàndards

·Mecanisme de versionat

·Mantenir un registre (d’origen i modificacions) i establir bones comunicacions

Una mostra de projecte que no sols és open-accessed sinó també open-ended: el Jonathan Swift Archive ho ofereix i ho ensenya tot: les guidelines, el sourcecode, etc. En principi es va crear un prototipus de codi, i d’ací s’ha emprat el codi per a d’altres projectes posteriors, adaptat a cada necessitat, cosa que beneficia tothom. Això passa també amb Transcribe Bentham. En tots els casos, les transcripcions textuals en XML poden ser reusades.

Reuse it or lose it!, acaba Sichani: la reutilització dels arxius en XML i del codi font assegura la sostenibilitat del contingut.

Alexander Czmiel | Sustainable Publishing: Standardization Possibilities For Digital Scholarly Edition Technology

Czmiel ve de la Berlin-Brandenburg Academy of Sciences and Humanities. Advoca una estandardització de les tecnologies amb què es realitzen les edicions digitals o, avisa, tot el que s’està fent es perdrà.

La dita acadèmia té molts fons i és molt antiga. Tenen inscripcions de textos egipcis, grecs, cartes antigues, etc. I per a manejar tot això, l’acadèmia va fundar TELOTA (The Electronic Life of the Academy) en 2001. Han desenvolupat més de 40 projectes fins ara, amb un equip de sis membres, i estudiants ajudants. Es dediquen a desenvolupar eines digitals, i entre els seus projectes hi ha vint-i-nou edicions acadèmiques digitals.

Tres d’aquests projectes han tancat, i uns altres s’han anat modificant respecte del pla inicial; la gran majoria, tanmateix, semblen haver tingut èxit.

Czmiel ens va donat informacions ràpides; aquesta ponència guanyarà molt amb les filmines. Per exemple, s’esmenta un Digital Schol Edit Layer model que no sé ben bé a què fa referència. Sota el markup de les anotacions i metadata, de les digitized images i full text, i a sota de tot, hi ha el codi font. Per damunt, aquelles àrees constitueixen l’storage & index level; per damunt del qual hi ha el nivell de la presentació; per damunt del qual, el de la interacció i l’anàlisi.

Recorda que tot açò depén del sistema operatiu i del hardware, la màquina.

Llavors com podem descriure, harmonitzar i estandarditzar la tecnologia de les fonts? Declara que el codi font a emprar ha de ser: simple, pragmàtic, extensible, de baix cap amunt, i per a casos d’usos definits. La seua solució: tecnologies XML, XML database (eXistDB), XSLT, Xquery, etc. Cal que al projecte acompanye una documentació normalitzada (project description standard: ProDeSt), que legible per la màquina.

En aquest propòsit d’adjuntar documentació al projecte, què s’ha de documentar? Per començar, les llicències (CC-BY? CC-BY-SA?), les interfícies també. I l’empaquetat (packaging). Ací em perd.

Ells empren eXPath packaging system amb eXistDB 2.0.

Cal donar suport a eines de codi obert, diu (el tema és important, i ix ara altra vegada). I cal més comunicació entre els humanistes digitals i la comunitat de desenvolupadors. Recorda que cal contribuir econòmicament a projectes open source, perquè aquella gent han de viure d’alguna cosa.

Dijous 17. Tercera sessió: Licenses

Walter Scholger | Intellectual Property Rights vs. Freedom of Research: Tripping Stones in International IPR Law

Aquest ponent també falla, per desgràcia, perquè el tema de què havia de parlar és molt important en qüestió de drets i copyright.

Wout Dillen | Editing Copyrighted Materials: On Sharing What You Can

@WoutDLN, University of Antwerp & Högskolan Borås

Ens explica que en l’actualitat tot el que es refereix a infracció de copyright és un risc importantíssim per a qualsevol investigador. Esmenta com a exemple el cas de les disputes per la propietat del diari d’Anna Frank.

Dillen comença recordant que tots els actes d’edició haurien de ser atribuïts (és a dir, que cal que quede constància de qui ha editat què, especialment en treballs digitals en equip). Les llicències Creative Commons ixen de seguida. Dillen indica que la CC-BY-NC (non-commercial) és massa restrictiva, i no soluciona problemes, sinó que en crea molts més (altres especialistes de l’audiència ho remarcaran també, després). Quan s’opta per llicències restrictives com la NC, les negociacions per a edició, elaboració, publicació, esdevenen molt delicades, i hi apareixen els advocats, es demana la participació dels inversors, etc. Dillen recomana, com a alternativa, CC-BY-SA (share alike).

Això (la qüestió de l’opció per NC o no, si he entés bé) va despertar un fort debat la primera vegada que es va enunciar en un congrés en 2013 (les piulades es poden buscar en Twitter, #DH2013). Però ara, amb l’experiència dels últims anys, es veu que el SA és molt preferible al NC.

Dillen ho exemplifica amb casos literaris diversos, que inclouen els manuscrits de Proust. Horrors a què porten les actuals i abusives lleis de copyright: les obres inèdites de Samuel Beckett (mort en 1989) no podran passar a domini públic fins 2040 en el Regne Unit i Canada, i fins 2060 als USA.

Woolf Online, amb un altre tipus de llicència, permet la consulta directa de manuscrits i extractes de Virginia Woolf. Però el contingut el web no es pot reproduir, modificar, ni mostrar en altres webs, etc. Els nous editors no podran fer públic el seu material fins que no passen molts anys.

Les metadades són tema important a tenir en compte en escollir llicència: compartir, aprofitar i fer créixer el coneixement pot resultar difícil, si no. Per a això, cita l’exemple novedós de The Advanced Research Consortium (ARC), un consorci d’acadèmics compromesos en l’avançament de la recerca en les humanitats, a través de comunitats en línia especificades per períodes, construïdes al voltant de revisions per pars, de l’agregació, i de la cerca de dades digitals.

Esmenta també l’eina ODD de la Text Encoding Initiative, que és important per compartir metadades i criteris. I també, la norma Fair use de la legislació americana, que estableix que les cites per a estudis, investigació i comentari textual, per exemple, són excepció a les lleis de copyright. Però en la pràctica, el fair use pot ser contestat davant un tribunal pels detentadors del copyright (que sovint no és ni el propi autor, sinó els seus hereus), i dependirà de com ho veja cada jutge en particular. És, realment, molt complicat.

Hi ha, també, el problema de nomenclatures divergents: què és un editor, per exemple? I què és col·lació? De quantes menes n’hi ha? A Antwerp han creat una interessant iniciativa: el Lexicon of Scholarly Editing. Se centra en descripció i fixació de nomenclatura.

Tornant a la doctrina del fair use, en la pràctica podria resumir-se en:

·Que siga amb propòsit de recerca

·Que només presente fragments

·Que queda clara l’atribució a l’autor

·Que presente objectius nous i originals

·Que siga un entorn de recerca transparent i no comercial

Totes aquestes característiques es compleixen al peu de la lletra en l’exemple que ens presenta a continuació: el Finnegans Wake Extensible Elucidation Treasury. És un projecte col·laboratiu en què els investigadors presenten, per a cada frase o sintagma, fonts, variants, etc. Com que el web presenta el text tan breu i atomitzat, aquest és un dels pocs webs que no ha estat obligat a tancar per la pressió dels hereus de James Joyce.

El debat d’aquesta ponència té moltes intervencions i és molt viu, i molts dels assistents presenten els seus propis casos d’horrors derivats de qüestions de copyright, i comenten les limitacions a la investigació per aquesta causa. Speers remarca que la cosa ha arribat al punt que els professors d’universitat no poden oferir als seus alumnes fotocòpies de fragments de textos literaris a classe. Bé, oficialment això mateix passa a l’estat espanyol.

Merisa Martinez / Melissa Terras | Orphan Works Databases and Memory Institutions: A Critical Review of Current Legislation

Terras està recuperant-se d’una lesió i no ha vingut; és Martínez qui presenta la ponència.

Les obres òrfenes, en termes de copyright, són aquelles de les quals no se sap qui n’ostenta la propietat intel·lectual. Les lleis relatives al tema són complicadíssimes i, en comptes de declarar que tothom pot emprar aquestes obres fins que no es demostre de qui són, exigeixen que no es puguen emprar de cap manera fins que no es demostre, amb proves, que s’ha fet tot el possible per localitzar-ne el propietari o els seus hereus.

Per indicar que la propietat intel·lectual no és un tema menor, i que importa deixar clar qui és el propietari de què en el present món, Martínez comença presentant-nos una fotografia, bellíssima, d’un congost verd amb una cascada, quasi a contrallum. Una fotografia excel·lent que va fer ella, amb molt de treball perquè el lloc era quasi inaccessible. La va mostrar a uns pocs amics, i un d’ells la va posar en Facebook sense cap marca d’atribució. A partir d’ací, la foto va començar a rodar anònimament, i amb el pas del temps diverses persones van declarar que en posseïen els drets. Un altre exemple és el d’una artista que se sol fotografiar amb una nova, vestides ella i la nina de la mateixa manera. Bé, les fotos es difonien, ben atribuïdes, a través de les xarxes socials. Però més tard, un altre pressumpte artista va penjar una d’aquestes fotos en una de les seues exposicions, i la va vendre per 9.000 dòlars. Tenia dret a fer-ho aquest últim? Molt discutible.

Martínez configura la seua exposició al voltant d’unes quantes preguntes. En el tema de la propietat intel·lectual:

·Cap a on anem?

·Per què ens ha d’importar?

·Quins són els temes clau?

·Qui se n’ocupa?

·Com se n’estan ocupant?

·Què caldria fer a continuació?

La qüestió de què podem fer quan no sabem qui és el propietari de materials que ens interessen, s’agreuja amb els materials degradats: fotogrames tant com manuscrits. La manca d’accés a molts d’aquests materials més degradats n’impedeix en la pràctica les possibilitats de recerca.

Hi ha un munt de factors que en fan difícil la cerca: sovint, el propietari dels drets és desconegut o no pot ser localitzat. Per exemple dones que es casen i canvien de nom, i se’ls perd la pista.

El tema de les obres òrfenes hauria d’important, perquè constitueix el 5-10% dels fons de biblioteques, arxius i museus. Al Regne Unit se n’ha inventariat cinc milions, entre GLAMs, Universitats i individus privats.

Tipus de materials: Impresos de tota mena; material audiovisual; obres onèdites, i still images (fotos, negatius, etc.)

Quins organismes se n’ocupen? Al Regne Unit hom es basa en l’informe de JISC “In from the cold” (2009), i el posterior informe Hargreaves (2011). Existeix també una directiva de la Unió Europea:

2012/28/EU.

Com se n’ocupen? El cas de la Unió Europea. La UE va decidir impulsar una base de dades comuna, a la manera de la d’Europeana: l’Orphan Works Database. Martínez veu, però, que no s’està emprant tan eficaçment com es podria pensar. Fins ara, hi ha vint països que no han emprat gens la base de dades (entre ells Espanya, França i Bèlgica); d’altres països l’empren ben poc.

En canvi, per exemple des d’Hungria hi ha molta activitat, i cada dia s’hi consulta, especialment sobre films. Martínez ens mostra ara la versió d’aquesta base de dades en la interfície del Regne Unit, començada en 2014: sols hi ha 312 resultats de gent que haja pujat materials per a consulta; i això que és l’únic estat membre que permet individus particulars (no sols institucions) pujar-hi coses. El que és més polèmic és la pujada de fotografies, ja que algunes associacions de fotògrafs s’oposen que la fotografia sobre la qual es consulta es visualitze.

En summa, les institucions europees no estan traient partit de la plataforma en qüestió, fins ara.

Per què? Per diversos motius, però cal tenir presnet el fet que algunes cerques són enormement difícils. Una good faith search és molt lenta i cara. L’equip que representa Martínez estan treballant en un informe: la principal queixa dels usuaris és precisament la lentitud de les cerques.

Suggeriments per canviar la situació:

1: Guiar-se per la lley USA safe harbor/fair use for educational purposes: Safe harbor és la llei que protegeix Youtube (s’hi penja el vídeo, i si l’amo reclama, el lleven). Es podria fer el mateix en aquests temes.

2: Diligent search guidelines: que la cerca fos més ràpida; no morir-se buscant qui té els drets d’una foto, per exemple

2: Els estats membres EU haurien de donar feedback de com va la plataforma.

4: Per al Regne Unit, que ara ofereix llicències de set anys de non-commercial works: revisar eixa estructura i canviar la llei.

5: Incorporar still images (fotos, etc.) a la base de dades en vista. Mentre això no passe, es poden deteriorar definitivament moltissimes fotos i altres materials per tota Europa, que no es cuiden perquè romanen en aquest buit legal.

I ací acaba la meua crònica. Les jornades van seguir un dia més, i ací hi ha els abstracts de totes les ponències.

Aquests temes són vitals per al futur de les cultures. I no per al futur remot, sinó per a l’immediat. Cal actuar i incorporar aquests coneixements, també en la nostra cultura.



Comments are closed.