Explorando el México colonial temprano. Análisis computacional a gran escala de fuentes históricas del siglo XVI [2019]
OBJETIVO GENERAL
Desarrollando las técnicas propuestas en este proyecto, y utilizando la combinación de métodos de Procesamiento de Lenguaje Natural, Lingüística de Corpus, Aprendizaje Automatizado (i.e. Machine Learning), humanidades digitales y ciencias de la información geográfica nos proponemos contestar las siguientes preguntas y llevar a cabo los siguientes objetivos: ¿Qué personas e instituciones estuvieron encargadas de compilar la información de las Relaciones Geográficas? Identificando y extrayendo por técnicas computacionales los datos sobre las personas, sus roles, e instituciones administrativas encargadas de compilar las descripciones de todos los pueblos mencionados en los documentos, se pretende reconstruir la posible red de relaciones personales que facilitaba (o impedía) la administración de las comunidades conquistadas. ¿Cuál fue la infraestructura colonial de la Nueva España? Extrayendo información del corpus histórico, ofreceremos una imagen completa de las instituciones educativas, religiosas y económicas de los territorios mexicanos de Nueva España. ¿Cuáles son las geografías mencionadas en estas colecciones textuales? En un esfuerzo sin precedente para localizar los lugares mencionados en el corpus, el proyecto utilizará técnicas avanzadas computacionales para la desambiguación de los nombres de lugares, facilitando la localización e investigación de las geografías contenidas en las Relaciones Geográficas. Esto incluye revelar las diversas percepciones que los oficiales e indígenas tenían sobre los pueblos y regiones donde habitaban. Con dicha información se creara un recurso digital geográfico con Sistemas de Información Geográfica (SIG). Esto constituye una de las aportaciones más valiosas y originales del proyecto. ¿Cuáles fueron los recursos naturales disponibles en el siglo XVI descritos en las Relaciones Geográficas? El proyecto creará un inventario de los recursos naturales (animales, plantas, minerales, etc.) disponibles en el siglo XVI, según lo descrito en las Relaciones Geográficas, con lo cual podrá generarse una base de datos útil para futuras investigaciones. ¿Cuáles fueron las características demográficas de la región durante el siglo XVI? Utilizando la información disponible, crearemos un censo demográfico digital del Siglo XVI, conectado con el SIG del proyecto. El proyecto trazará las redes de intercambio económico en los territorios de Nueva España. Extraeremos información sobre las actitudes y opiniones de los oficiales españoles sobre las costumbres indígenas y creencias religiosas. Analizaremos cambios en las costumbres de región en región para mapear, en lo posible, dicha información. Toda la información extraída se conectará a un SIG.
ANTECEDENTES
Este es un proyecto que ganó financiamiento del Conocí a través de la convocatoria de la Trans-Atlantic Plataform for the Social Sciences and Humanities, un consorcio de 16 países de Europa, Norteamérica y América Latina. La misión de dicho consorcio es fomentar alianzas entre investigadores de alto nivel situados en diversos países, con el fin de resolver problemas complejos de ciencias sociales o humanidades a partir del desarrollo de nuevas metodologías computacionales. El proyecto del INAH ganó una de las catorce becas otorgadas este año a nivel mundial, en medio de una fuerte competencia entre 105 de grupos de investigación afiliados a universidades o centros de investigación de Europa, Norteamérica y América Latina. El INAH participa como miembros de un consorcio internacional, formado por la Universidad de Chester (Gran Bretaña), la Universidad de Lancaster (Gran Bretaña) y la Universidad de Lisboa (Portugal). Cada institución gestiona sus propios objetivos y administra sus propios fondos. La duración del proyecto es de 3 años.
DESCRIPCIÓN
Este proyecto propone la implementación de herramientas computacionales avanzadas para facilitar el análisis de documentos históricos. Involucra la participación de arqueólogos, historiadores, geógrafos, lingüistas y especialistas en computación, coordinados por cuatro líderes de investigación ubicados en México, Gran Bretaña y Portugal. Como caso de estudio, se centra en el corpus de las Relaciones Geográficas compiladas durante el siglo XVI. Este grupo de documentos describe la situación de las poblaciones indígenas en los territorios recién conquistados por la corona española. Por ello, constituye una invaluable fuente de conocimientos acerca de la historia, geografía, cultura, religión, economía, e interacción social entre diversos grupos étnicos, así como las relaciones entre éstos y los oficiales españoles, a finales del siglo XVI. Desarrollos recientes en los campos de Lingüística Computacional, Aprendizaje Automatizado (i.e. machine learning) y Ciencias de la Información Geográfica permiten procesar grandes cantidades de textos para extraer conocimiento sobre su contenido de manera más rápida y eficiente de lo que sería posible con métodos de lectura tradicionales. El análisis computarizado de textos a gran escala permite además identificar patrones en los datos que el cerebro humano pasa por alto normalmente. En la práctica, esto se traduce en el descubrimiento de nuevos tipos de relaciones entre las personas, lugares y eventos mencionados en los documentos, permitiendo además cruzar información sobre diferentes tópicos para la generación de conocimientos no previstos. En otros proyectos se han utilizado técnicas computacionales para analizar textos históricos. No obstante, la mayoría se ha enfocado a analizar aspectos estilísticos del lenguaje. Otros quipos de investigación han centrado sus esfuerzos sólo en textos escritos en inglés o han aplicado técnicas relativamente simples de procesamiento computarizado en vez de utilizar los avances más recientes en lingüística computacional. En cambio, el novedoso enfoque de éste proyecto no sólo aprovecha técnicas de Procesamiento de Lenguaje Natural y Aprendizaje Automatizado, sino que las combina con poderosos métodos de análisis espacial -desarrollados en las Ciencias de la Información Geográfica- para ponerlas al servicio de la indagación histórica. Esta combinación es una de las proposiciones más significativas del proyecto, porque agrega inteligencia espacial y geográfica a la lectura automatizada de textos. Gracias a esta aproximación interdisciplinaria, los historiadores podrán contestar preguntas tales como: ¿Dónde ocurrió más a menudo un fenómeno particular? ¿Quién o quienes fueron responsables de ciertos eventos? ¿Qué ocurría en ciertos lugares en ciertos períodos? Y muchas otras más. Este tipo de aproximación a las fuentes realmente lleva el análisis histórico un paso adelante.
NOTAS
- Descripción de actividades: Durante la segunda etapa, nos proponemos identificar, clasificar y anotar palabras nominales encontradas en los textos, tales como nombres personales, o nombres de lugar, de instituciones, de organizaciones, etc. Para lograrlo, se aplicarán un conjunto de técnicas de Procesamiento de Lenguaje Natural, tales como Reconocimiento y Clasificación de Entidades Nombradas (i.e. Named Entity Recognition and Classification NERC), Desambiguación de Entidades Nombradas (Name Entity Disambiguation NED), y Resolución de Co-referencias (Co-Reference Resolution). El procesamiento de los textos se centrará especialmente en lograr una primera anotación de nombres de lugar, ya que para la tercera etapa se prevé lograr la geo-referenciación de los nombres geográficos, con lo cual será posible mapear y analizar tanto los textos como los cartografía antigua de las Relaciones Geográficas por medio de Sistemas de Información Geográfica. Asimismo, comenzaremos a aplicar un método de Lingüística de Corpus, llamado Análisis de Colocación, el cual permite identificar ciertos términos que se encuentran cerca de palabras o de frases significativas dentro del corpus, es decir, que co-ocurren de manera repetitiva y que por lo tanto pueden describir información histórica y cultural estadísticamente significativa. El análisis de colocación permite extraer automática o semi-automáticamente información histórica y cultural contenida en todo el corpus de documentos, pero además planeamos aplicar un análisis sintáctico denominado en inglés "syntatic parsing", el cual analiza el uso de palabras particulares y su relación con algunos tópicos identificados en los documentos, por ejemplo, la relación de ciertos personajes con ciertos eventos, la relación de un lugar con ciertos recursos naturales, flora, fauna, etc.
- Vinculación del proyecto: Este consorcio ha surgido del deseo de aprovechar las habilidades complementarias de los miembros del proyecto como ingredientes principales para avanzar el estudio de la historia colonial temprana de México. Las experiencias previas de colaboración entre los líderes de cada grupo de trabajo han revelado el enorme potencial de diversas técnicas computacionales para la extracción de conocimientos a partir de documentos antiguos como las Relaciones Geográficas del siglo XVI. Por tanto, la creación de este consorcio busca explotar la sinergia entre expertos dedicados a las humanidades espaciales, ciencias de la información geográfica, lingüística computacional, historia y arqueología. El consorcio incluye cuatro líderes ubicados en tres países: México, Gran Bretaña y Portugal. Los líderes de cada equipo son: Diego Jiménez Badillo, Director del Programa Desarrollo de Aplicaciones de Computación en Arqueología, Instituto Nacional de Antropología e Historia. Patricia Murrieta Flores, Directora del Centro de Investigación en Humanidades Digitales, Universidad de Chester, Gran Bretaña. Ian Gregory, Profesor del Departamento de Historia de la Universidad de Lancaster, Gran Bretaña. Bruno Martins. Investigador del Departamento de Ciencias e Ingeniería en Computación (INESC-ID), Universidad de Lisboa. La Dra. Murrieta Flores fungirá como líder y coordinadora general del proyecto (PI) 3.1. Equipo de México El equipo mexicano será coordinado por el Dr. Diego Jiménez Badillo, quien dirige desde hace varios años del proyecto "Desarrollo de aplicaciones de computación en arqueología" en el Museo del Templo Mayor del INAH. Dicha institución se ubica a la vanguardia de estudios prehispánicos, especialmente en lo referente a la cultura Mexica y a las primeras décadas del México Colonial. Gracias a su larga trayectoria en dicha institución, el Dr. Jiménez combina sus conocimientos en culturas prehispánicas con una larga experiencia profesional en ciencias de la computación. Sus áreas de investigación abarcan diversos campos de la computación aplicada al patrimonio cultural, entre los cuales destacan: aprendizaje automatizado, análisis espacial, sistemas de información geográfica, implementación de bases de datos y minería de datos, desarrollo de métodos cuantitativos para análisis arqueológico y visión por computadora. Además, cuenta con una probada experiencia en posiciones de liderazgo, destacando su papel como Representante Técnico de la Red Temática de Tecnologías Digitales para la Difusión del Patrimonio Cultural (Conocí), y su nombramiento de co-director "junto con la Dra. Murrieta Flores- del capítulo mexicano de la asociación Computer Applications and Quantitative Methods in Archaeology. Entre sus logros más recientes se cuentan el desarrollo de un sistema computarizado de reconocimiento de formas y clasificación automática de objetos arqueológicos en 3D, proyecto en el que funge como líder de un equipo de investigación que incluye matemáticos, ingenieros en computación y arqueólogos. Otro proyecto reciente es la creación de un nuevo método de análisis espacial basado en teoría de gráficas. Además, cuenta con gran experiencia en sistemas de información geográfica gracias a su doctorado en éste campo. Así pues, una de las funciones principales del Dr. Jiménez será comunicar los requerimientos de la investigación histórica a los expertos en computación y viceversa, actuando como una interfaz que traduzca conceptos, términos, opiniones y estrategias de un lenguaje histórico a un lenguaje técnico especializado. Lo anterior ayudará a integrar las tecnologías digitales a la investigación histórica. Además, el Dr. Jiménez estará a cargo de un grupo de trabajo que formulará y resolverá "a todo lo largo del proyecto- las preguntas de tipo historiográfico que deberán investigarse con los métodos de lingüística computacional, procesamiento de lenguaje natural, aprendizaje automatizado y análisis espacial. Por tanto, supervisará el cumplimiento de las metas del área de investigación 4 (Formulación de Investigación Histórica utilizando los nuevos conjuntos de datos y las herramientas generadas por el proyecto). El equipo mexicano incluye a un grupo de historiadores de reconocido prestigio, especialistas en documentos coloniales del siglo XVI, que actuarán como asesores del proyecto. Entre éstos destacan: Dra. María Castañeda (Instituto de Investigaciones Antropológicas, UNAM); Dr. Michel Oudijk (Instituto de Investigaciones Filológicas, UNAM); Mtra. Carmen Herrera (Dirección de Etnohistoria, INAH); y Dr. Tomas Jalpa (Biblioteca del Museo Nacional de Antropología, INAH). Asimismo, se planea el reclutamiento de dos asistentes de investigación a lo largo de todo el proyecto. Preferentemente ambos asistentes contarán con nivel de posgrado y tendrán experiencia en fuentes coloniales tempranas. Ambos ayudarán a plantear las preguntas de interés histórico en términos computacionales, pero uno se concentrará en los aspectos geográficos de las fuentes "principalmente en el análisis de la información contenida en la cartografía antigua de algunas Relaciones Geográficas; mientras que el segundo se concentrará en los aspectos lingüístico-historiográfico de la investigación. En conjunto, el equipo mexicano estará a cargo de la revisión y validación cotidiana "desde un punto de vista historiográfico- de los resultados obtenidos mediante el procesamiento computacional realizado en Gran Bretaña y Portugal. Por tanto, participará en todas las etapas de la investigación. 3.2. Equipo de Gran Bretaña Como directora del Centro de Investigación en Humanidades Digitales de la Universidad de Chester, la Dra. Murrieta Flores cuenta con el liderazgo y la experiencia necesaria para fungir como coordinadora general del proyecto. Su investigación se ha enfocado a la aplicación de enfoques computacionales y tecnologías espaciales a diversas disciplinas humanistas, sobre todo la historia y la arqueología. Entre sus proyectos destacan la investigación sobre la industria del azúcar y el comercio de México con España durante la época virreinal. Dicha investigación fue desarrollada en México, cuando trabajaba para el Instituto Nacional de Antropología e Historia. En Gran Bretaña, la Dra. Murrieta Flores ha continuado sus investigaciones en Humanidades Espaciales, destacando el proyecto "Surgimiento del Folclore en el Imaginario Victoriano" y una investigación que analiza cerca de 200,000 registros históricos para entender los aspectos espaciales y geográficos de enfermedades en la Inglaterra del siglo XIX. Así pues, aporta al proyecto un profundo entendimiento de cómo combinar teoría y métodos procedentes de ciencias de la computación, investigación histórica, análisis literario y de textos en general con la historia colonial mexicana. Además de supervisar el resultado final de proyecto, la Dra. Murrieta Flores tendrá a su cargo, en colaboración con el Prof. Martins, el cumplimiento de las metas del Área de Investigación 2 (creación del corpus anotado de las Relaciones Geográficas), así como la primera meta del Área de Investigación 3 (Creación de la Gaceta Español/Náhuatl). Cabe aclarar que todas las actividades y metas de las cuatro áreas de investigación se describen detalladamente en la propuesta completa registrada en el sitio web T-AP, así como en la tabla Gantt anexada como documento complementario a esta propuesta. Por otra parte, el Profesor Ian Gregory fungirá también como líder del equipo de Gran Bretaña desde el Departamento de Historia de la Universidad de Lancaster y apoyará a la Dra. Murrieta Flores. El Profesor Gregory tiene gran experiencia en la conducción de proyectos interdisciplinarios. Como ejemplos pueden mencionarse: "Innovación geoespacial en las humanidades digitales: un mapa profundo del Lake District (UK)"; "Humanidades espaciales, SIGs, textos, lugares"; y "Periódicos, pobreza y cambio a largo plazo: Análisis de un corpus de cinco siglos de textos". Además, el Dr. Gregory ha publicado varios libros y artículos que abordan diferentes aspectos de las humanidades espaciales, especialmente los que aplican nuevas tecnologías de sistemas de información geográfica. Por tal motivo, definirá varias estrategias del análisis geográfico del proyecto. Específicamente, será responsable del cumplimiento de la segunda meta del Área de Investigación 3, es decir la geo-referenciación de nombres de lugar (i.e. "geoparsing") contenidos en las Relaciones Geográficas. También como parte del equipo de Gran Bretaña participará un Asistente Avanzado de Investigación (SRA) especializado en humanidades digitales o espaciales, quien estará involucrado en todos los aspectos del procesamiento de lenguaje natural y la investigación de corpus lingüístico. Además, colaborará en la creación y análisis de datos geográficos y conducirá investigaciones sobre el uso de tecnologías espaciales para analizar aspectos geográficos de los textos. Este asistente dedicará 100 % de su tiempo al proyecto. Habrá también un asistente de investigación con experiencia en ciencias de la computación o en humanidades digitales, quien colaborará con los equipos de Gran Bretaña y Portugal para la conversión de documentos al formato adecuado para procesamiento electrónico; en especial transformación a formato RDF y/o XML. Dicho asistente deberá dedicar 100 % de su tiempo al proyecto. 3.3. Equipo de Portugal El líder será el Profesor Bruno Martins, quien ha conducido números proyectos en las áreas de minería de textos, bibliotecas digitales, procesamiento de lenguaje geoespacial, aprendizaje automatizado y extracción de información. Su experiencia en campos como la lingüística de corpus y procesamiento de lenguaje natural, combinada con su habilidad en recuperación de información geográfica, le permitirán supervisar el diseño e implementación de la plataforma tecnológica y el marco interpretativo del proyecto. Específicamente, supervisará el cumplimiento de las metas en las áreas de investigación 1 y 2. Dichas metas son la estandarización del corpus en formato RDF/XML y la anotación del corpus (en colaboración con Murrieta Flores). El equipo portugués contará con dos personas más, financiadas parcialmente por el INESC-ID. Estas son la Dra. Paula Carvalho, experta en lingüística de corpus y lingüística computacional; y el Dr. Miguel Won, investigador postdoctoral enfocado a la aplicación de métodos de procesamiento de lenguaje natural, principalmente extracción de frases clave, en ciencias sociales computacionales. Además, un estudiante de doctorado será supervisado por el Dr. Martins (80 %) y por la Dra. Murrieta Flores (20 %) en una investigación original sobre métodos estadísticos de procesamiento de lenguaje natural (NLP) que apoyen la anotación de fuentes históricas. Como es usual en estos casos, el tema específico de la tesis doctoral será acordado entre los líderes del proyecto y el estudiante, quien deberá proceder del área de ciencias de la computación y debería tener experiencia en aprendizaje automatizado y/o NLP. El estudiante de doctorado también será apoyado por dos investigadores asociados (RA2 y RA3), que trabajarán en colaboración con todos los miembros del equipo portugués en (i) la anotación del corpus para facilitar la validación de los métodos de PNL, y (ir) la adaptación de las técnicas y herramientas de NLP/métodos para el análisis de las fuentes históricas. Estos investigadores asociados tendrán la experiencia de postgrado en Ciencias de la Computación y dedicarán 100 % de su tiempo durante 3 meses con el proyecto.
Folio SIP
22271
Fecha de inicio
2018-01-01
Fecha de término
2020-12-31
Categoría
Unidad Administrativa
Área normativa
TITULAR DEL PROYECTO
PARTICIPANTES
Director de proyecto (pdr): Diego Jiménez Badillo, Colaborador (ctb): Emilio Ernesto Hernández Huérfano, Colaborador (ctb): Jorge Cuauhtémoc Martínez Huerta, Colaborador (ctb): Leonardo Álvarez Rivera, Colaborador (ctb): Mariana Favila Vázquez, Colaborador (ctb): Salvador Ruiz CorreaAPORTANTES
Financiador (fnd): Consejo Nacional de Humanidades, Ciencias y TecnologíasCOBERTURA
Ubicación geográfica