Proyecto de investigación

Explorando el México colonial temprano. Análisis computacional a gran escala de fuentes históricas del siglo XVI [2020]

OBJETIVO GENERAL

Revolucionar el análisis de documentos históricos mediante el desarrollo de un nuevo método para extraer información arqueológica, histórica y antropológica utilizando herramientas computacionales derivadas de técnicas de procesamiento de lenguaje natural, lingüística de corpus y aprendizaje automatizado, las cuales son complementadas con métodos de análisis espacial.

ANTECEDENTES

Durante el 2018 y 2019 este proyecto tuvo el número de folio 22271 La línea de investigación corresponde a las Humanidades Digitales, la cual abarca diversas disciplinas como la arqueología, la historia, el procesamiento de textos por medio de técnicas de lingüística computacional y la aplicación de Sistemas de Información Geográfica. El proyecto opera con fondos otorgados por un consorcio internacional llamado Transatlantic Partnership for the Social Sciences and Humanities (T-AP), del cual forma parte el Conocí. Incluye investigadores de México, Gran Bretaña y Portugal. A la fecha se han completado dos de las tres etapas proyectadas. Los logros obtenidos a la fecha son: 1. Preparación del corpus de documentos para hacerlo legible por computadora (terminado durante la Etapa I) 2. Extracción y desambiguación de los topónimos y nombres de lugar mencionados en las Relaciones Geográficas del siglo XVI (80 % de avance). 3. Identificación automática o semi-automática de entidades mencionadas en el corpus, específicamente personajes, objetos, instituciones, fechas, etc. (50 % de avance). 4. Anotación del corpus de documentos sobre la base de un modelo ontológico diseñado ex profeso (40% de avance). El grado de avance de los rubros 1 al 4 se ajusta a lo programado y durante el presente año (Etapa III) se espera llegar al 100 % de avance en los mismos. Asimismo, durante la presente etapa realizaremos lo siguiente: Hasta ahora, el único problema que se ha presentado ha sido la tardanza en la ministración de fondos, lo cual ha impedido que se pague a los asistentes de investigación en tiempo y forma.

DESCRIPCIÓN

Como caso de estudio, el proyecto se centra en el corpus de las Relaciones Geográficas de la Nueva España. Este grupo de documentos describe la situación de las poblaciones indígenas en los territorios conquistados por la corona española. Por ello, constituye una invaluable fuente de conocimientos acerca de la historia, geografía, cultura, religión, economía, e interacción social entre diversos grupos nativos, así como las relaciones de éstos con los oficiales españoles a finales del siglo XVI. Desafortunadamente, este corpus ha sido subutilizado por muchos historiadores, quienes lo consultan más como un recurso complementario que como una fuente principal. Lo anterior se debe a la dificultad para identificar patrones en los datos a causa de la extensión y complejidad de los textos (el corpus cuenta con más de 2.8 millones de palabras). El proyecto busca remediar esta situación mediante la implementación de un novedoso método de análisis computacional y lectura automatizada denominado Análisis Geográfico de Textos (Geographical Text Analysis o GTA, en inglés). Con las herramientas desarrolladas, académicos de diversos campos podrán extraer la información deseada de manera automática para responder preguntas de investigación relevantes como: ¿dónde ocurrían ciertos fenómenos con mayor frecuencia? ¿Quién fue el responsable de ciertos eventos? ¿Qué sucedía en lugares específicos en ciertos momentos? Tanto la metodología como las herramientas producidas representan un avance significativo de la investigación histórica. Durante el presente ejercicio continuaremos avanzando en las tareas 1 a 4 (mencionadas en los antecedentes) hasta alcanzar el 100%. Al mismo tiempo, realizaremos dos nuevas tareas, a saber: 5. Análisis geográfico de colocación. 6. Indagación histórica y arqueológica mediante la aplicación de técnicas de análisis espacial. ¿Qué ocurriría si el proyecto no se lleva a cabo? El INAH ha firmado un acuerdo legal con el Conocí, en el cual se especifican los resultados del proyecto. De no concluir en tiempo y forma, nos veríamos en la necesidad de devolver los fondos recibidos. Hasta ahora, los únicos retrasos del proyecto se han debido a la tardía ministración de recursos por parte del INAH.

IMPACTO

La creación y desarrollo de una nueva metodología computacional para analizar fuentes históricas permitirá identificar patrones de información automáticamente, así como correlacionar datos dispersos o difíciles de encontrar en grandes corpus documentales, lo cual beneficiará a historiadores, arqueólogos y estudiosos de diversos campos de las Humanidades.

NOTAS

  1. Descripción de actividades: 1. Extracción y desambiguación de topónimos y nombres de lugar (80 % de avance). 2. Identificación automática o semi-automática de entidades mencionadas en el corpus, específicamente personajes, objetos, instituciones, fechas, etc. (50 % de avance). 3. Anotación del corpus sobre la base de un modelo ontológico diseñado ex profeso (40 % de avance). 4. Implementación de algoritmos de lingüística de corpus y análisis espacial. 5. Análisis geográfico de colocación. 6. Indagación histórica mediante la aplicación de modelos históricos y técnicas de análisis espacial. 7. Desarrollo de sitio web para acceder a la información del proyecto. 8. Difusión de resultados mediante la redacción de artículos científicos y presentación de ponencias en congresos académicos.
  2. Vinculación del proyecto: Este proyecto tiene vinculación directa con la Secretaría Técnica del INAH, ya que la Dra. Aida Castilleja es la Responsable Administrativa ante el Conocí. Además, el proyecto tiene vinculación con investigadores del Instituto de Investigaciones Antropológicas de la UNAM, quienes contribuyen con asesoría en el campo de la Historia. Asimismo, tiene vinculación con el Instituto Potosino de Investigación en Ciencia y Tecnología, específicamente en el desarrollo de la plataforma web que hará públicas las herramientas computacionales desarrolladas. A nivel Internacional, tenemos vinculación con la Universidad de Lancaster, cuyos investigadores se encargan de los métodos de análisis espacial y de Sistemas de Información Geográfica. Finalmente, tenemos vinculación directa con investigadores de la Universidad de Lisboa, quienes se encargan de desarrollar los algoritmos de lingüística computacional y lingüística de corpus. De tal forma, que este proyecto multidisciplinario reúne a especialistas en Historia y Arqueología, así como expertos en Ciencias de la Información Geográfica y Lingüística Computacional. La lingüística computacional hace posible la lectura automatizada de documentos escritos en español del siglo XVI; las ciencias de información geográfica se encargan de proveer nuevos métodos de análisis espacial de la información contenida en los documentos y los historiadores y arqueólogos emprenden las tareas de análisis e interpretación de los patrones de datos recuperados con el proyecto.
Folio SIP
30430
Fecha de inicio
2018-01-01
Fecha de término
2020-12-31
Unidad Administrativa

TITULAR DEL PROYECTO

PARTICIPANTES

Colaborador (ctb): Bruno Martins, Director de proyecto (pdr): Diego Jiménez Badillo, Colaborador (ctb): Emilio Ernesto Hernández Huérfano, Colaborador (ctb): Ian Gregory, Colaborador (ctb): Katherine Bellamy, Colaborador (ctb): Leonardo Álvarez Rivera, Colaborador (ctb): María Castañeda de la Paz, Colaborador (ctb): Mariana Favila Vázquez, Colaborador (ctb): Patricia Murrieta Flores, Colaborador (ctb): Raquel Liceras Garrido, Colaborador (ctb): Ricardo Valadez Vázquez, Colaborador (ctb): Salvador Ruiz Correa

APORTANTES

Financiador (fnd): Consejo Nacional de Humanidades, Ciencias y Tecnologías