Apuntes sobre una revolución digital:la construcción de bases de datos para la investigación humanística

Luis Alberto Alcántara Chávez
Proyecto ArqueoData^[1]

Ilustración de Ichan Tecolotl.

Introducción

La denominación humanidades digitales siempre ha sido difícil de definir, y hasta hace relativamente poco no se había presionado para una definición, ya que carece de los intereses que se insisten por las demarcaciones exactas. Grosso modo, hasta la reciente boga del tema, o al menos del concepto, en el pasado se usaba al menos en tres sentidos que en ocasiones coincidían unos con otros. En primer lugar, el concepto puede ser referido como Computational History y se utilizaba entre las décadas de 1950 y 1970 para referirse al uso de la computadora en tareas de aceleración de procesamientos de información. Esta perspectiva, al menos en la historia, se trataba de procesar datos en las primeras versiones de hojas de cálculo, y eran tarea recurrente en las investigaciones de historia intelectual centradas en aspectos económicos o demográficos (Pons, 2018).

Por otro lado, estaba la arqueología, que en la década de 1950 vio la llegada de la datación por radiocarbono, y ya desde antes empleaba técnicas muy específicas de análisis de materiales, que recibieron el nombre de “ciencias auxiliares de la arqueología”. De la misma forma que la historia intelectual, la arqueología propició los estudios económicos o demográficos. Este ímpetu, desde la teoría arqueológica, lo podemos reconocer en los trabajos de David Clarke (1973), Lewis Binford (1965) o Michael Schiffer (1975), una arqueología estadounidense e inglesa que se etiquetó como procesual y que llego a México, de cierta forma maquillada, pues la tradición arqueológica mexicana seguía en los modos de excavación y descripción con presupuestos antropológicos, como el proyecto de Manuel Gamio de la década de 1920. Aun así, otro grupo como los investigadores del Departamento de Prehistoria del INAH, por ejemplo José Luis Lorenzo y Pedro Bosh Gimpera, sostenía la bandera de las ciencias auxiliares, las ideas estratigráficas y los datos como fuentes fiables de información al estilo de la escuela procesual, pero ellos del lado ambientalista, herederos de las ideas de Gordon Childe (Villaruel, 2009). En segundo lugar, otro grupo adquirió este sentido en la práctica bibliográfica y bibliotecológica. Desde mediados del siglo XX surgieron iniciativas de catalogación de libros y archivos, para los primeros uno de los más famosos y con más años de reconocimiento era el estándar de catalogación MARC, que servía para identificar los atributos de un libro (Gilliland, 2016). Las computadoras y en especial las bases de datos hicieron que la catalogación de estos estándares se comenzara a realizar en este ambiente, por ejemplo, incluyendo el estándar MARC21 en un lenguaje de etiquetado web como el XML (Gill, 2016).

El tercer significado ha sido el más reciente y se define como Digital Humanities. Este concepto es actualmente identificado como un conjunto de prácticas, más que una disciplina de conocimiento en sí. La primera definición de este campo la podemos encontrar en publicaciones como A companion to Digital Humanities (Schreibman et al., 2004). En este libro electrónico se resalta el trabajo entrecruzado entre disciplinas y la necesidad de que un campo como el que están presentando no sólo sea una herramienta sino también un lugar de cuestionamiento y problematización para cada disciplina que llega a trabajar en él. En México y Latinoamérica se fue adoptando por diferentes grupos, e incluso se ha llegado a discutir la definición para diferenciarse de la corriente Digital Humanities “del norte” estableciendo claras diferencias políticas, ideológicas y sociales de cada latitud (Del Río Riande, 2016; Del Río Riande y Fiormonte, 2021).

Estas tres denominaciones las presenté como momentos, pero también como respuestas de las comunidades académicas al aspecto digital en las ciencias sociales y humanidades. Actualmente, podríamos explorar otras conceptualizaciones como la de Computational Archaeology que incluso tiene una comunidad internacional dedicada a este tema y organizan el congreso Computer Applications in Archaeology, CAA, cada dos años (Huggett, 2015).

Las HD como campo actualmente se clasifican como una serie de prácticas compartidas por ciertas comunidades académicas y con un lenguaje común. Esto es lo que establece la formación de una tradición académica en el aspecto digital. Sin embargo, en el plano de las ciencias o disciplinas sociales —historia, arqueología, antropología— no podemos ser investigadores con la mera práctica. Por lo tanto, si pensamos en la existencia de unas humanidades digitales, estas tendrán que ver con definir determinados objetos de estudio y problematizarlos, llevarlos a un campo de estudio con herramientas digitales, para posteriormente estudiarlas histórica, arqueológica o antropológicamente.

Teniendo estas conceptualizaciones del quehacer de las HD, me gustaría llevar este artículo hacia los puntos de encuentro entre la creación de una base de datos y el cruce que hay con ese conjunto de prácticas y diversas academias. El principal objetivo de este artículo es brindar al lector una guía rápida de una serie de pasos que se puede seguir para la construcción y puesta en marcha de un proyecto que integre una base de datos, y su importancia para la buena práctica y obtención de resultados esperados por los investigadores.

A lo largo del texto el lector se podrá encontrar con algunas sugerencias bibliográficas para ahondar más en la temática que estoy exponiendo, y también me gustaría que se considerara que esto forma parte de las experiencias aprendidas en la realización de un proyecto de bases de datos sobre radiocarbono llamado ArqueoData (www.arqueodata.com).

La digitalización de materiales

Al embarcarnos en un proyecto de humanidades digitales, la primera palabra que se nos viene a la mente es “digitalización”, pero ¿qué entendemos por este concepto? De manera sencilla, se puede hacer hincapié en el proceso de conversión de un objeto físico a uno digital. Pero las implicaciones que ese proceso conlleva superan el mero acto técnico. Desde la década de 1980, historiadores como Roger Chartier dedicaron gran parte de sus reflexiones a pensar en el cambio de soporte —del análogo al digital—, con el foco de la imprenta y específicamente del libro (Chartier, 1995). Actualmente, nos enfrentamos a una extensa variedad de objetos, más allá de los hipervínculos y los dilemas del cambio de soporte: por un lado tenemos los materiales que son físicos y pasan a digital; por el otro, los que nacen en el mundo digital (Eiroa, 2018).

El punto de partida es pensar cómo vamos a procesar dicha información de acuerdo con los objetivos e hipótesis de investigación con las que partamos. En el caso de ArqueoData, partí del problema de la ausencia. La inexistencia de un recurso que me contabilizara las dataciones radiocarbono en publicaciones académicas, el problema de tener toda esta información acumulada en tesis, artículos y libros, aunque varios de ellos estuvieran a mi disposición a través de la web. En este caso no se tuvo que realizar un proceso de digitalización técnico, se trabajó con materiales ya digitales —aunque provenientes de materiales físicos para el caso de publicaciones anteriores al año 2000—, y a partir de ahí se hizo una “cosecha de información” manual para cada datación que me encontraba en las publicaciones. Lo anterior resulta pesado y un arduo trabajo de alimentación a una base de datos, lo que nos lleva al segundo punto de la digitalización: planear el modelado de dichos datos.

El modelado de datos

El asignar datos a un objeto digital también forma parte del amplio concepto de la digitalización. Algunos autores como Pedro Ángeles y Claudio Molina Salinas del Instituto de Investigaciones Estéticas de la UNAM llamarían a este largo proceso como la “cultura de la documentación” (Molina Salinas, 2018; Morales et al., 2021). En este paso nos encontramos con el concepto tan famoso y referenciado “metadatos”, que significa “los datos de los datos” (Baca, 2016). Otros autores, principalmente la corriente estadounidense, han llamado a este proceso datificación (Mayer-Schönberger y Cukier, 2013). Por otro lado, también se utiliza el concepto de ontología, muy diferente a su concepción filosófica. Este tiene más que ver con las relaciones semánticas que guardan los conceptos y los alcances dentro de la web (Fensel, 2007; Gómez-Pérez y Corcho, 2002).

Uno de los objetivos principales de las actuales investigaciones y desarrollos por parte de la comunidad académica es la libre consulta de la información, principalmente siguiendo los principios fair: Rastreable, Accesible, Interoperable, y Reusable —Findable, Accesible, Interoperable, Reusable— (Wilkinson et al., 2016). Por lo tanto, al planear el modelo de datos que se usará se debe pensar que debe contener al menos estas cuatro características, principalmente, pensando en un trabajo que tendrá su plataforma en la web.

El modelado se basa también en tener estándares y estos ya han sido trabajados durante años por diversos grupos académicos. Los estándares de catalogación pueden clasificarse en vocabularios controlados, modelos de metadatos y reglas de catalogación. Los primeros hacen referencia a identificar y unificar lo que se denomina una ontología, que se compone de conceptos y sus relaciones. Su creación necesita de expertos en la materia y no puede ser creada solamente por especialistas en informática, lo que obliga a un constante trabajo de transdisciplinariedad. Los modelos de metadatos son estructuras, casi siempre en XML, que permiten estandarizar etiquetados, uno de los más empleados es Dublin Core. Por último, existen reglas de catalogación que pueden ser modelos como el Cataloging Cultural Objects (CCO), Conceptual Reference Model (CIDOC CRM) y Object ID.

En el caso de ArqueoData se optó por revisar los campos que otras bases de datos radiocarbono tenían, por ejemplo CARD (Martindale et al., 2016), IDEArq (2019), IntChron (Bronk Ramsey 2010), AndesC14 (Ziólkowski et al., 2015) y p3k14c (Bird et al., 2022). Lo anterior tuvo como consecuencia no usar un estándar de catalogación internacional —ideado más para objetos digitales como fotos, videos, obras, libros, hemerografía, archivos—, pues los metadatos de una datación radiocarbono tienen peculiaridades entre sus variables.

La base de datos

Ahora sí hemos llegado al punto de la construcción de la base de datos, que si bien es el tema central de este ensayo, se basa en todo el proceso previo que conlleva la digitalización. Si no se trabajó en un buen modelado de datos, la construcción de la base de datos puede traer ciertos entorpecimientos.

En un mundo utópico podríamos seguir cada una de estas fases como una receta. Sin embargo, la realidad dista mucho de eso. Casi todos los proyectos de humanidades digitales han pasado por meses, o en ocasiones años, de trabajo, casi siempre enfocados en vaciar la información en hojas de cálculo, lo que implica además dinámicas específicas al pasar de dicha hoja a una base de datos relacional.

Un sistema de manejo de bases de datos (DBMS, Database Management System) sirve, en las tecnologías de la información, para guardar registros y relacionarlos entre sí. Una base de datos se compone de tablas, y estas a su vez se pueden relacionar unas con otras. A este de tipo de bases se les ha denominado “diseños lógicos” con el Modelo de Entidad-Relación (MER). Este modelo permite crear una serie de rutinas y funciones para acceder a los datos, crearlos, actualizarlos y eliminarlos. El MER representa una percepción del mundo real contenida en conjuntos de datos, “una entidad es un objeto que existe y puede distinguirse de otros, dado que cada uno posee ciertos atributos que le identifican. Una relación es una asociación entre varias entidades” (Osorio Rivera, 2008, p. 17).

Usando la definición anterior, supongamos que tenemos una ficha bibliográfica que se va a componer de un autor, un título de ese trabajo y una revista. Nuestros atributos serían “autor”, “título” y “revista”. Cada uno de estos atributos se alojarán en la base de datos en una tabla diferente para después poder relacionarlos entre sí. Por ejemplo, un autor puede relacionarse con uno o muchos trabajos y ese trabajo puede relacionarse con uno o muchos autores. A su vez, el trabajo puede relacionarse solo con una revista y la revista puede relacionarse con uno o muchos trabajos. Gracias a las relaciones en una base de datos podemos acceder a la información relacionada de un registro específico y visualizar sus relaciones con todas las tablas que componen nuestro diseño lógico de datos.

Desde la década de 1960 estas bases funcionaban de forma local, en muchas ocasiones solamente en el mismo software que se había diseñado para tal función. Un ejemplo pionero en el trabajo arqueológico mexicano fue el software local para gestionar información de las excavaciones de Templo Mayor (Jiménez Badillo, 1997). En el contexto internacional fue a partir de 1990, con el comienzo del uso masivo de la World Wide Web, que las bases de datos comenzaron su incursión en el mundo interconectado (Hendler y Berners-Lee, 2010). El uso de Internet nos da una visibilidad pública global, por lo que no tenemos la limitante espacial para la consulta de los datos; nuestro límite es del acceso al recurso Internet, llamado por algunos autores la “brecha digital” (Serrano y Martínez, 2003).

En el caso de una comunidad académica que se dedica a la investigación, tener una base de datos pública en la web, que puede ser consultada y alimentada desde el mismo Internet sin necesidad de descargar archivos y tener que actualizar cada cierto tiempo, representa un gran avance en las herramientas digitales para la investigación en comunidad.

En el caso de ArqueoData, esta se inició como una hoja de cálculo, para apoyar un proyecto de tesis de licenciatura. Sin embargo, al percatarme de los alcances que podría tener esta información, tomé la decisión de convertirla en una base de datos y después seguir alimentándola, pero ya desde un sistema dedicado a eso. Recientemente, intenté integrarla con una base de datos global de radiocarbono llamada p3k14c (Bird et al., 2022). Sin embargo, esta base de datos, que se puede descargar en formato CSV, contiene campos muy reducidos; uno de los más importantes, la referencia bibliográfica, resultó sólo una cita incompleta de un trabajo, y es muy difícil dar con el trabajo citado. Este es un ejemplo de falta de interoperabilidad entre datos, dado que aún no hay una estandarización para este tipo de modelos.

Hacia nuevas rutas de trabajo

La ruta de trabajo más utilizada para este tipo de proyectos ha sido la investigación interdisciplinaria, presente en la academia humanística al menos desde la segunda década del siglo XX, y, en años más recientes, la investigación transdisciplinaria, y hemos aprendido que en el trabajo digital hay un constante diálogo entre humanistas e informáticos, aunque en ocasiones no considera grandes interacciones por parte de estos últimos.

Aunque la salida principal es el trabajo inter y transdisciplinario, me parece importante también considerar la visión de Leonardo Barleta respecto a la relación historia-computación cuando argumenta lo siguiente:

La falta de involucramiento de los historiadores en las llamadas cuestiones técnicas ha limitado la capacidad de estas herramientas para auxiliar en la investigación histórica, ya que, al tercerizar el servicio, los recursos informáticos acaban siendo subutilizados. Los historiadores se limitan a buscar aplicaciones fácilmente disponibles, ya sea por la facilidad de uso o por la provisión de alguien cercano (un becario, un hijo), recursos que raramente se adecuan a las demandas específicas del trabajo del historiador. La reflexión sobre los principios de organización de las bases de datos, tal como se propone este texto, es un intento por llamar la atención de los historiadores sobre un debate que se halla en el centro de su profesión: las formas de organizar la información histórica y sus consecuencias metodológicas (Barleta, 2015).

Ante lo anterior, es una realidad que los historiadores —u otros científicos sociales— no nos formamos como programadores, para ello acudimos a la interdisciplina, sin embargo, debemos tener nociones del mundo digital para construir teorías y metodologías desde una perspectiva transdisciplinaria, y al mismo tiempo es necesario también formar a programadores interesados en las necesidades históricas y propias de los proyectos, lo que en ocasiones resulta una tarea ardua.

Finalmente, me gustaría resaltar que este pequeño artículo no es una serie de pasos para la construcción de una base de datos, más bien es una reflexión sobre mi corta experiencia en este campo de conocimiento y práctica. La investigación a través de la web y las bases de datos debe contemplar, más allá del acto técnico, esta cultura de la documentación y este largo proceso de digitalización, porque a pesar de que partimos de preguntas y problemas de investigación particulares, hay que tener en cuenta que estas herramientas pueden servir al trabajo de comunidad con mayor altura de miras.

Bibliografía

Barleta, Leonardo
2015 “Bases de datos y organización de la información histórica: Por un modelo (supuestamente) universal”, en Juan Andrés Bresciano y Tiago Gil (comps.), La Historiografía ante el Giro Digital. Reflexiones teóricas y prácticas metodológicas, Montevideo, Cruz del Sur, pp. 111–134.

Binford, Lewis
1965 “Archaeological Systematics and the Study of Culture Process”, American Antiquity, vol. 31, pp. 203–210.

Bird, Darcy, Lux Miranda, Marc Vander Linden, Erick Robinson, Kyle Bocinsky, Chris Nicholson, José Capriles, Judson Byrd Finley, Eugenia Gayo, Adolfo Gil, Jade d’Alpoim Guedes, Julie Hoggarth, Andrea Kay, Emma Loftus, Umberto Lombardo, Madeline Mackie, Alessio Palmisano, Steinar Solheim, Robert Kelly, y Jacob Freeman
2022 “P3k14c, a synthetic global database of archaeological radiocarbon dates”, Scientific Data, vol. 9, art. 27, https://doi.org/10.1038/s41597-022-01118-7.

Bronk Ramsey, Christopher
2010 IntChron, software en línea, https://intchron.org.

Chartier, Roger
1995 Sociedad y escritura en la edad moderna: La cultura como apropiación, Ciudad de México, Instituto Mora.

Clarke, David
1973 “Archaeology: The loss of Innocence”, Antiquity, vol. 47, pp. 6–18.

Del Río Riande, Gimena
2016 “De todo lo visible y lo invisible o volver a pensar la investigación en humanidades digitales”, Signa: Revista de la Asociación Española de Semiótica, vol. 25, pp. 95–108.

Del Río Riande, Gimena y Domenico Fiormonte
2021 “Una vez más sobre los sures de las ‘digital humanities’”, Acervo, vol. 35, núm. 1, pp. 1-15.

Eiroa, Matilde
2018 “El pasado en el presente: El conocimiento historiográfico en las fuentes digitales”, Ayer, vol. 110, núm. 2, pp. 83–109.

Fensel, Dieter (ed.)
2007 Enabling semantic web services: The web service modeling ontology, Heidelberg, Springer Berlin.

Gill, Tony
2016 “Metadata and the Web”, en Murtha Baca (ed.), Introduction to Metadata, 3^a ed., Los Ángeles, Getty Publications, https://www.getty.edu/publications/intrometadata/metadata-and-the-web/.

Gilliland, Anne
2016 “Setting the stage”, en Murtha Baca (ed.), Introduction to Metadata, 3^a ed., Los Ángeles, Getty Publications, https://www.getty.edu/publications/intrometadata/setting-the-stage/.

Gómez-Pérez, Asunción, y Oscar Corcho
2002 “Ontology languages for the Semantic Web”, IEEE Intelligent Systems, vol. 17, pp. 54–60.

Hendler, Jim, y Tim Berners-Lee
2010 “From the Semantic Web to social machines: A research challenge for AI on the World Wide Web”, Artificial Intelligence, vol. 174, pp. 156–161.

Huggett, Jeremy
2015 “Challenging Digital Archaeology”, Open Archaeology, vol. 1, pp. 79-85.

IDEArq
2019, IDEArq: Infraestructura de Datos Espaciales de Investigación Arqueológica, software en línea, Madrid, CSIC, http://www.idearqueologia.org/.

Jiménez Badillo, Diego
1997 OFRENDATA Aplicación de un sistema de base de datos para controlar una colección arqueológica, Ciudad de México, INAH.

Mayer-Schönberger, Viktor y Kenneth Cukier
2013 Big data: La revolución de los datos masivos, Madrid, Turner.

Martindale, Andrew, Richard Morlan, Matthew Betts, Michael Blake, Konrad Gajewski, Michelle Chaput, Andrew Mason, y Pierre Vermeersch
2015 Canadian Archaeological Radiocarbon Database (CARD 2.1), software en línea, https://www.canadianarchaeology.ca/.

Molina Salinas, Claudio
2018 “El lenguaje sobre el patrimonio. Estándares documentales para la descripción y gestión de colecciones”, Anales del Instituto de Investigaciones Estéticas, vol. 40, núm. 113, pp. 219–226.

Morales, José, Pedro Ángeles Jiménez, Claudio Molina Salinas, Ernesto Miranda y Vania Ramírez
2021 “Apretando el paso. Un modelo de datos para el Repositorio Digital del Patrimonio Cultural de México”, en Diego Jiménez Badillo (ed.), Métodos computacionales y medios interactivos para estudiar y divulgar el patrimonio cultural, Ciudad de México, INAH, pp. 203-212.

Osorio Rivera, Fray León
2008 Bases de datos relacionales: Teoría y práctica, Medellín, Fondo Editorial ITM.

Pons, Anaclet
2018 “El pasado fue analógico, el futuro es digital. Nuevas formas de escritura histórica”, Ayer, vol. 110, núm. 2, pp. 19–50.

Serrano Santoyo, Arturo y Evelio Martínez
2003 La brecha digital: Mitos y realidades, Mexicali, UABC.

Schiffer, Michael
1975 “Archaeology as Behavioral Science”, American Anthropologist, vol. 77, pp. 836–848.

Schreibman, Susan, Ray Siemens y John Unsworth (eds.)
2004 A Companion to Digital Humanities, Oxford, Blackwell, https://companions.digitalhumanities.org/DH.

Villaruel, Rebeca del Carmen
2009 Un acercamiento a la historia de la arqueología prehistórica en México. Primera década del Departamento de Prehistoria, tesis de maestría en Arqueología, ENAH, Ciudad de México.

Ziólkowski, Mariusz S., Mieczyslaw F. Pazdur, Andrzej Krzanowski y Adam Michczyński
2015 Andes: Radiocarbon Database for Central Andes, software en línea, https://andesc14.pl/en/.

[1] Maestrante en Historia, Universidad Iberoamericana | correo: albertoac@arqueodata.com www.arqueodata.com