¿Cómo funciona RAG?
Un pipeline RAG tiene dos fases. Primero, ingesta (realizada con anticipación): divides tus documentos de origen en pasajes más pequeños (chunking), conviertes cada uno en un embedding — un vector numérico que captura su significado — y almacenas esos vectores en una base de datos.
Segundo, recuperación y generación (en tiempo de consulta): incrusta la pregunta del usuario, encuentra los pasajes más similares semánticamente mediante búsqueda vectorial, e inserta esos pasajes en el prompt junto con la pregunta. El modelo genera entonces una respuesta fundamentada en el texto suministrado, idealmente con citas que remitan a la fuente.
El objetivo es que el modelo responda desde evidencia que colocaste en su ventana de contexto, no desde lo que sucedió memorizar durante el entrenamiento. Esto hace que las respuestas sean rastreables — puedes mostrar de qué pasaje proviene una afirmación — y las mantiene actuales sin necesidad de reentrenamiento.