Recuperación aumentada y búsqueda semántica en entidades reguladas: cómo estructurar el conocimiento normativo
Autor: Eduardo Castro Martínez, PhD
Tipo de trabajo: Informe técnico de divulgación
Línea temática: Uso de datos · Gestión del conocimiento
institucional
Palabras clave: RAG, búsqueda semántica, conocimiento
normativo, sector regulado, indexación documental
Publicación de divulgación técnica de acceso abierto.
Un cuerpo normativo
mal organizado no se vuelve consultable por el solo hecho de añadirle
inteligencia artificial; primero hay que reconciliarse con la estructura del
propio conocimiento.
Las entidades reguladas,
sean reguladores financieros, instituciones de seguridad social o ministerios,
comparten un rasgo que rara vez se examina con detenimiento. Su funcionamiento
descansa sobre cuerpos normativos extensos, redactados a lo largo de décadas
por autores distintos, con criterios de organización heterogéneos. Cuando estas
instituciones deciden incorporar sistemas de búsqueda semántica o de generación
aumentada por recuperación, descubren que la dificultad no reside en la
tecnología de recuperación, sino en la condición previa del conocimiento que
pretenden hacer consultable. Este artículo recoge esa lección y propone un modo
de pensar el problema.
Qué resuelve y qué no
resuelve la recuperación aumentada
La generación aumentada
por recuperación combina dos capacidades. Por un lado, un mecanismo de búsqueda
que localiza, dentro de un corpus, los fragmentos más pertinentes para una
consulta. Por otro, un modelo de lenguaje que redacta una respuesta a partir de
esos fragmentos. La promesa es atractiva, porque permite que el sistema
responda con información de la propia institución y no con conocimiento
genérico. Sin embargo, conviene precisar lo que esta técnica no resuelve. No
resuelve la ambigüedad de un texto mal redactado, no resuelve la contradicción
entre dos normas vigentes, y no resuelve la ausencia de una estructura clara en
el documento de origen. La recuperación aumentada amplifica la calidad del
conocimiento subyacente, tanto en su virtud como en su defecto.
El problema de la
fragmentación
El paso técnico más
delicado es la fragmentación del corpus, es decir, la decisión sobre cómo
dividir los documentos en unidades indexables. La práctica más difundida, que
consiste en cortar el texto en bloques de longitud fija, resulta inadecuada
para cuerpos normativos, porque rompe la unidad lógica de un artículo o de una
regla. Cuando un usuario consulta sobre una disposición específica, el sistema
debe poder recuperar esa disposición completa, no la mitad de ella seguida del
inicio de la siguiente. La estrategia que la experiencia recomienda consiste en
alinear la fragmentación con la estructura natural del documento, de modo que
cada artículo constituya una unidad de recuperación íntegra.
Esta decisión tiene un
efecto adicional que conviene subrayar. Cuando cada fragmento se acompaña de
las etiquetas que lo contextualizan, como el título del capítulo, el tipo de
norma y la materia que regula, el sistema de recuperación dispone de señales que
mejoran de manera notable la pertinencia de los resultados. La indexación deja
de ser un proceso mecánico y se convierte en un ejercicio de modelado del
conocimiento.
Desambiguación en cuerpos
normativos heterogéneos
Las entidades reguladas
suelen administrar varios cuerpos normativos que conviven, se complementan y a
veces se solapan. Un sistema de búsqueda semántica que no distinga entre tipos
de documento corre el riesgo de mezclar, en una misma respuesta, una norma de
rango superior con una directriz operativa. La solución que la experiencia
aconseja consiste en incorporar, dentro del proceso de recuperación, una
inferencia sobre el tipo de documento, de modo que el sistema pueda ponderar
las fuentes según su jerarquía. Esta inferencia, combinada con un ordenamiento
semántico de los resultados, permite que el sistema entregue respuestas que
respetan la estructura normativa de la institución.
Una conclusión sobre el
orden del conocimiento
La lección de fondo es
que la búsqueda semántica obliga a las instituciones a hacer explícito el orden
de su propio conocimiento. Una entidad que adopta esta tecnología y obtiene
buenos resultados no lo logra por la potencia del modelo, sino porque el ejercicio
la forzó a reconciliarse con la estructura de sus documentos. La modernización
institucional, en este caso, no consiste en comprar tecnología, sino en
aprovechar la introducción de la tecnología como ocasión para ordenar lo que
estaba desordenado. Esa es, a mi juicio, la verdadera transformación.
Comentarios