¿Qué es el prompting con cadena de pensamiento?
En su forma más simple, cadena de pensamiento (CoT) significa pedir al modelo que muestre su trabajo. En lugar de "¿Cuál es la respuesta?", preguntas "Razona paso a paso y luego da la respuesta." El modelo genera una secuencia de pasos intermedios, y la respuesta final surge de esa secuencia.
Hay dos formas comunes. CoT de cero ejemplos añade una frase disparadora como "Pensemos paso a paso" sin ejemplos. CoT con pocos ejemplos muestra al modelo uno o más ejemplos resueltos que incluyen el razonamiento, luego le pide que resuelva un nuevo problema de la misma manera. El trabajo original de Wei et al. 2022 demostró la forma con pocos ejemplos; el disparador de cero ejemplos vino poco después y ahora es el estándar cotidiano.
El mecanismo es sencillo: generar tokens intermedios le da al modelo más computación para asignar al problema y fuerza que cada conclusión esté condicionada a un paso anterior explícito. Los errores que se cuelan en una respuesta de un solo disparo a menudo salen a la luz — y se corrigen — cuando el razonamiento se detalla.