Un nuevo sistema de IA extrae datos numéricos de textos académicos, liberando a los investigadores de tareas rutinarias
El marco Quinex estructura automáticamente los datos cuantitativos y está diseñado para ayudar a gestionar la creciente avalancha de datos
Anuncios
Los números son el lenguaje de la ciencia, pero en los artículos de investigación a menudo quedan enterrados en el texto y son difíciles de analizar. Los investigadores de Jülich han desarrollado un sistema de IA que identifica automáticamente estos números, los clasifica y los convierte en datos estructurados. El marco Quinex elimina así la necesidad de un trabajo manual que lleva mucho tiempo.
Ya sea en el campo de la energía, el clima o la investigación de materiales, los artículos científicos están llenos de cifras o, más exactamente, de datos cuantitativos: eficiencias, temperaturas, costes, emisiones. A menudo son cruciales para mejorar los modelos o identificar tendencias. Al mismo tiempo, el número de publicaciones científicas crece rápidamente. Para muchas cuestiones de investigación, resulta prácticamente imposible evaluar manualmente todas las publicaciones pertinentes: el tiempo y los recursos necesarios serían enormes.
El marco Quinex ("Quantitative Information Extraction"), desarrollado por investigadores de Jülich, se basa en modelos lingüísticos y automatiza este proceso: La inteligencia artificial identifica los valores numéricos, los asigna a las unidades apropiadas y reconoce qué se midió, cuándo, dónde y cómo. Así, una frase como "Se presuponen niveles de eficiencia del 63% al 71% para 2025" se transforma en un conjunto de datos estructurado que contiene toda la información contextual pertinente, desde el año y el método de medición hasta la fuente.
IA abierta y eficiente
A diferencia de muchas soluciones de IA propietaria, Quinex se basa por completo en modelos lingüísticos abiertos, relativamente pequeños y, por tanto, eficientes. Estos han sido entrenados específicamente para reconocer y clasificar información cuantitativa en textos científicos. En comparación con sistemas similares, Quinex ofrece resultados más precisos, capta la información contextual de forma más matizada y también tiene en cuenta las características implícitas.
A pesar de su tamaño compacto, Quinex alcanza una precisión de reconocimiento (F1) de alrededor del 98 por ciento para números y unidades asociadas, y de aproximadamente el 87 y el 82 por ciento para la clasificación de propiedades y entidades cuantificadas. Estos elevados índices de precisión se lograron mediante conjuntos de datos de entrenamiento creados especialmente y mejoras metodológicas.
"Queríamos desarrollar una herramienta que fuera potente, pero también transparente y eficiente en cuanto a recursos", explica el Dr. Jann Weinand, jefe del Departamento de Escenarios Integrados de Jülich System Analysis. "Quinex hace que la inteligencia artificial sea más accesible para el análisis de datos en la ciencia".
Prueba práctica con éxito
Para probar la idoneidad práctica de Quinex, el sistema se aplicó a miles de resúmenes científicos de diversos campos. Extrajo con éxito datos sobre los costes de producción de electricidad de varias tecnologías energéticas, sobre la absorción máxima de oxígeno en humanos, sobre las magnitudes y localizaciones de terremotos y sobre los huecos de banda de los materiales fotovoltaicos.
Los valores obtenidos automáticamente se ajustaron perfectamente a los datos de referencia correspondientes. Esto demuestra que Quinex es idóneo para analizar grandes volúmenes de literatura académica en una amplia gama de campos de investigación y deducir tendencias fiables a partir de ellos.
Nuevas perspectivas para la investigación
"Los modelos lingüísticos abren nuevas perspectivas para la ciencia y ayudan a mantener una visión de conjunto de campos de investigación enteros", afirma el autor principal Jan Göpfert. "Permiten búsquedas bibliográficas automatizadas, la creación de bases de datos de investigación uniformemente estructuradas y análisis de tendencias que revelan la evolución de la ciencia y la tecnología en una fase temprana".
"Nuestro objetivo es aliviar a los investigadores del trabajo rutinario", afirma el Dr. Patrick Kuckertz, responsable del Grupo de Gestión de Datos de Investigación. "Quinex está diseñado para ayudarles a llegar a ideas más rápidamente y gestionar la creciente avalancha de datos en la ciencia".
Limitaciones y futuras mejoras
Quinex tampoco está totalmente libre de errores, pero la transparencia forma parte de su diseño. "El sistema reconoce los números y las unidades con gran fiabilidad", afirma Jan Göpfert. "Como están tomados directamente del texto, no se pueden 'alucinar'. Sin embargo, a veces se producen interpretaciones erróneas, por ejemplo cuando hay referencias importantes dispersas por el texto."
Así pues, Quinex sigue siendo una herramienta que apoya a las personas, pero no las sustituye. "Recomendamos utilizar Quinex cuando informa y alivia a los investigadores, pero la responsabilidad de interpretar los resultados sigue siendo suya", afirma Göpfert. Cada número reconocido puede rastrearse hasta su fuente y, cuando es posible, se resalta en el texto original.
El equipo está trabajando para seguir desarrollando Quinex con otros conjuntos de datos y modelos específicos de cada ámbito, para que sea aún más eficaz y lo suficientemente flexible como para adaptarse a las distintas necesidades de la investigación.
Bienvenida a la colaboración abierta
Forschungszentrum Jülich ofrece Quinex como un proyecto de código abierto.
Con ello se pretende dar a los investigadores de todo el mundo la oportunidad de probar, ampliar y adaptar el sistema a sus propios campos, desde la investigación energética hasta la química y la biomedicina.
Nota: Este artículo ha sido traducido utilizando un sistema informático sin intervención humana. LUMITOS ofrece estas traducciones automáticas para presentar una gama más amplia de noticias de actualidad. Como este artículo ha sido traducido con traducción automática, es posible que contenga errores de vocabulario, sintaxis o gramática. El artículo original en Inglés se puede encontrar aquí.