Recuperación aumentada y búsqueda semántica en entidades reguladas: cómo estructurar el conocimiento normativo

Autor: Eduardo Castro Martínez, PhD

Tipo de trabajo: Informe técnico de divulgación

Línea temática: Uso de datos · Gestión del conocimiento institucional

Palabras clave: RAG, búsqueda semántica, conocimiento normativo, sector regulado, indexación documental

Publicación de divulgación técnica de acceso abierto.

Un cuerpo normativo mal organizado no se vuelve consultable por el solo hecho de añadirle inteligencia artificial; primero hay que reconciliarse con la estructura del propio conocimiento.

Las entidades reguladas, sean reguladores financieros, instituciones de seguridad social o ministerios, comparten un rasgo que rara vez se examina con detenimiento. Su funcionamiento descansa sobre cuerpos normativos extensos, redactados a lo largo de décadas por autores distintos, con criterios de organización heterogéneos. Cuando estas instituciones deciden incorporar sistemas de búsqueda semántica o de generación aumentada por recuperación, descubren que la dificultad no reside en la tecnología de recuperación, sino en la condición previa del conocimiento que pretenden hacer consultable. Este artículo recoge esa lección y propone un modo de pensar el problema.

Qué resuelve y qué no resuelve la recuperación aumentada

La generación aumentada por recuperación combina dos capacidades. Por un lado, un mecanismo de búsqueda que localiza, dentro de un corpus, los fragmentos más pertinentes para una consulta. Por otro, un modelo de lenguaje que redacta una respuesta a partir de esos fragmentos. La promesa es atractiva, porque permite que el sistema responda con información de la propia institución y no con conocimiento genérico. Sin embargo, conviene precisar lo que esta técnica no resuelve. No resuelve la ambigüedad de un texto mal redactado, no resuelve la contradicción entre dos normas vigentes, y no resuelve la ausencia de una estructura clara en el documento de origen. La recuperación aumentada amplifica la calidad del conocimiento subyacente, tanto en su virtud como en su defecto.

El problema de la fragmentación

El paso técnico más delicado es la fragmentación del corpus, es decir, la decisión sobre cómo dividir los documentos en unidades indexables. La práctica más difundida, que consiste en cortar el texto en bloques de longitud fija, resulta inadecuada para cuerpos normativos, porque rompe la unidad lógica de un artículo o de una regla. Cuando un usuario consulta sobre una disposición específica, el sistema debe poder recuperar esa disposición completa, no la mitad de ella seguida del inicio de la siguiente. La estrategia que la experiencia recomienda consiste en alinear la fragmentación con la estructura natural del documento, de modo que cada artículo constituya una unidad de recuperación íntegra.

Esta decisión tiene un efecto adicional que conviene subrayar. Cuando cada fragmento se acompaña de las etiquetas que lo contextualizan, como el título del capítulo, el tipo de norma y la materia que regula, el sistema de recuperación dispone de señales que mejoran de manera notable la pertinencia de los resultados. La indexación deja de ser un proceso mecánico y se convierte en un ejercicio de modelado del conocimiento.

Desambiguación en cuerpos normativos heterogéneos

Las entidades reguladas suelen administrar varios cuerpos normativos que conviven, se complementan y a veces se solapan. Un sistema de búsqueda semántica que no distinga entre tipos de documento corre el riesgo de mezclar, en una misma respuesta, una norma de rango superior con una directriz operativa. La solución que la experiencia aconseja consiste en incorporar, dentro del proceso de recuperación, una inferencia sobre el tipo de documento, de modo que el sistema pueda ponderar las fuentes según su jerarquía. Esta inferencia, combinada con un ordenamiento semántico de los resultados, permite que el sistema entregue respuestas que respetan la estructura normativa de la institución.

Una conclusión sobre el orden del conocimiento

La lección de fondo es que la búsqueda semántica obliga a las instituciones a hacer explícito el orden de su propio conocimiento. Una entidad que adopta esta tecnología y obtiene buenos resultados no lo logra por la potencia del modelo, sino porque el ejercicio la forzó a reconciliarse con la estructura de sus documentos. La modernización institucional, en este caso, no consiste en comprar tecnología, sino en aprovechar la introducción de la tecnología como ocasión para ordenar lo que estaba desordenado. Esa es, a mi juicio, la verdadera transformación.

Datos y analítica