Por el equipo DDH · Digital Dashboard Hub

Cómo funcionan realmente los LLM — para redactores de prompts (2026)

Lo justo y necesario sobre cómo realmente funcionan los grandes modelos de lenguaje — tokens, ventanas de contexto, muestreo, entrenamiento vs inferencia y alucinaciones — para mejorar significativamente tu escritura de prompts.

By DDH Research Team at Digital Dashboard Hub·Updated June 15, 2026

Browse all 40+ free prompt tools

Un modelo grande de lenguaje es un predictor de siguiente token: dado el texto hasta ahora, produce una distribución de probabilidad sobre el siguiente token y muestrea uno, repetidamente, hasta que se detiene. Todo lo que parece comprensión — razonamiento, estilo, rechazo, alucinación — surge de ese único bucle más cómo se entrenó el modelo. No necesitas las matemáticas para escribir buenos prompts, pero sí necesitas la mecánica, porque cada una tiene una implicación práctica directa para cómo escribes tus prompts.

Esta guía explica tokens, ventanas de contexto, controles de muestreo (temperatura y top_p), la diferencia entre entrenamiento e inferencia, y por qué los modelos alucina — y después de cada sección, qué significa para tus prompts. Un punto de referencia útil: 1 token ≈ 4 caracteres ≈ 0,75 palabras en inglés (según documentación de tokenización de OpenAI y Anthropic). Para poner esto en práctica, nuestro Generador de Prompts ChatGPT y Constructor de Prompts de Código integran estas implicaciones.

Digital Dashboard Hub

Writing good prompts for ONE AI is hard. Writing them for GPT-5, Claude, Gemini, Perplexity, Midjourney and 6 more is a full-time job. DDH's AI Prompt Builder writes once, runs everywhere — locked to your niche, voice, and brand tone.

Free 14 days, no card. →

Mecánica de LLM y qué significa cada una para tus prompts

Feature	Qué es	Implicación para writing prompts
Token	Unidad sub-palabra; ~4 chars ≈ 0,75 palabras	Presupuesta en tokens; mantén contexto compacto
Ventana de contexto	Máx. tokens considerados a la vez	Instrucciones clave primero/último; recupera fragmentos relevantes
Bucle de predicción	Muestreo repetido de siguiente token	Razona antes de responder; arregla problemas antes
Temperatura	Aleatoriedad de elección de token	Baja para factual, mayor para creativo
Top_p	Núcleo: conjunto más pequeño sumando a p	Ajusta un control, no ambos
Entrenamiento vs inferencia	Pesos congelados en el momento de llamada	Suministra hechos actuales; few-shot es temporal
Alucinación	Salida confiada, sin apoyo	Fundamenta en fuentes; requiere 'No sé'

Mecánica resumida de investigación fundamental y documentación de proveedores: [Wei et al. 2022 (CoT)](https://arxiv.org/abs/2201.11903), [Brown et al. 2020 (few-shot)](https://arxiv.org/abs/2005.14165), [Yao et al. 2023 (ReAct)](https://arxiv.org/abs/2210.03629), y documentación de muestreo en la [referencia de API de OpenAI](https://platform.openai.com/docs/api-reference/chat). Regla general de tokens según documentación de tokenización de OpenAI/Anthropic. Actual a partir de junio de 2026.

Qué contiene esta guía

Cada sección explica un mecanismo y luego la conclusión para escribir prompts. Las secciones son:

1. Tokens — la unidad que realmente lee el modelo.

2. Ventanas de contexto — la memoria de trabajo del modelo.

3. El bucle de predicción — por qué los modelos son predictores de siguiente token.

4. Muestreo: temperatura y top_p — los controles de aleatoriedad.

5. Entrenamiento vs inferencia — qué sabe el modelo y cuándo.

6. Por qué suceden las alucinaciones — y cómo los prompts las reducen.

7. Qué significa todo esto para escribir prompts (el resumen).

8. Fuentes y lecturas complementarias.

Tokens: la unidad que realmente lee el modelo

Los modelos no ven palabras o caracteres — ven tokens, fragmentos sub-palabra producidos por un tokenizador. Las palabras comunes suelen ser un token; las palabras raras, largas y cadenas inusuales se dividen en varios. Como regla general, 1 token ≈ 4 caracteres ≈ 0,75 palabras en inglés (según documentación de OpenAI y Anthropic). Así que ~1.000 tokens son aproximadamente 750 palabras, y un documento de 10 páginas tiene aproximadamente 5.000-6.000 tokens.

Por qué nos importa a los redactores de prompts: (1) el costo y los límites se miden en tokens, no en palabras — ver nuestro Costo por Token en Todos los Modelos de IA Principales para el lado de precios. (2) La tokenización depende del idioma y contenido: el texto no inglés, código y formato inusual pueden costar muchos más tokens por 'palabra' que el inglés plano. (3) El sentido del modelo de la estructura es a nivel de token, por eso el formato consistente y los delimitadores claros ayudan — estás moldeando el flujo de tokens del que el modelo predice.

Conclusión práctica: presupuesta prompts en tokens, no palabras; mantén el contexto compacto porque cada token se lee (y se paga) en cada llamada; y no te sorprendas cuando un fragmento corto de código denso o un pasaje en idioma no inglés use más tokens de lo que su longitud sugiere. El desglose detallado — incluidos los descuentos que cambian la respuesta — está en nuestro calculadora de costo de prompt IA.

Ventanas de contexto: la memoria de trabajo del modelo

La ventana de contexto es el número máximo de tokens que el modelo puede considerar a la vez — tu prompt, el historial de conversación, cualquier documento adjunto y la salida que está generando comparten ese presupuesto. En 2026, las ventanas son grandes: Anthropic incluye una ventana de contexto de 1M de tokens a precios estándar en sus modelos Opus 4.6+, Sonnet 4.6 y Fable 5, por ejemplo.

Dos hechos importan para escribir prompts. Primero, todo lo fuera de la ventana efectivamente no existe para el modelo — en una conversación larga, los turnos tempranos pueden salir del contexto, y el modelo genuinamente no puede 'recordarlos'. Segundo, incluso dentro de la ventana, la posición importa: los modelos tienden a prestar atención más confiable al principio y final del contexto, así que enterrar una instrucción crítica en medio de un prompt enorme es arriesgado.

Conclusiones prácticas: pon tus instrucciones más importantes al inicio (y opcionalmente reafirma la restricción clave al final); para documentos largos, recupera e incluye solo los fragmentos relevantes en lugar de pegar todo; y en chats largos, reafirma el contexto crítico periódicamente porque los turnos antiguos pueden haber salido de la ventana. Una ventana más grande es una capacidad, no una razón para llenarla — el contexto compacto generalmente produce salida más clara y más barata.

El bucle de predicción: por qué los modelos son predictores de siguiente token

En inferencia, el modelo repite un paso: lee todos los tokens hasta ahora, calcula una distribución de probabilidad sobre el siguiente token, elige uno, lo añade, repite — hasta que emite un token de parada o alcanza un límite de longitud. No hay una fase separada de 'planificación'; el razonamiento aparente es el modelo generando tokens que, estadísticamente, tienden a seguir razonamiento sólido en sus datos de entrenamiento.

Esto explica varios comportamientos. Chain-of-thought funciona porque escribir los pasos de razonamiento como tokens condiciona los tokens de respuesta posteriores al razonamiento — el modelo literalmente lo hace mejor cuando 'piensa en voz alta', como se muestra en Wei et al., 2022 (arXiv:2201.11903). También explica por qué los modelos pueden meterse en un callejón sin salida: un token temprano incorrecto cambia las probabilidades para todo lo que viene después.

Conclusiones prácticas: solicita razonamiento antes de la respuesta en tareas difíciles (el orden importa — el razonamiento debe venir primero para condicionar la respuesta); y cuando la salida se va por mal camino, la solución a menudo está antes en el prompt, porque todo lo posterior está condicionado por lo que vino antes. Para bucles de agente que intercalan razonamiento con acciones, ver ReAct (Yao et al., 2023, arXiv:2210.03629).

Muestreo: temperatura y top_p

El modelo produce una distribución de probabilidad sobre el siguiente token, pero cómo elige de esa distribución está controlado por parámetros de muestreo — principalmente temperatura y top_p (documentados en la referencia de API de OpenAI).

La temperatura escala la agudeza de la distribución. Temperatura baja (cerca de 0) hace que el modelo elija tokens de alta probabilidad, produciendo salida más determinística, enfocada y repetible. Temperatura alta aplana la distribución, haciendo que tokens de menor probabilidad sean más probables — salida más variada, creativa e impredecible. Top_p (muestreo de núcleo) en su lugar restringe las opciones al conjunto más pequeño de tokens cuyas probabilidades suman a p; un top_p bajo mantiene solo las opciones más probables.

Conclusiones prácticas: para extracción de hechos, clasificación, salida estructurada y cualquier cosa que necesites sea repetible, usa temperatura baja (a menudo 0 o cercana). Para lluvia de ideas, copia creativa y alternativas variadas, auméntala. La orientación general es ajustar uno de temperatura o top_p, no ambos a la vez. Nota que temperatura baja reduce variabilidad — no hace que el modelo sea correcto, y no detiene la alucinación. Si un prompt solo funciona a temperatura 0, el prompt es frágil; arregla el prompt, no solo fijas el control.

Entrenamiento vs inferencia: qué sabe el modelo y cuándo

Hay dos fases distintas. El entrenamiento es cuando el modelo aprende sus pesos de grandes corpus de texto (preentrenamiento) y luego se alinea para ser útil y seguro (fine-tuning / RLHF). La inferencia es cuando llamas al modelo: los pesos están congelados, y el modelo usa solo esos pesos fijos más lo que hay en la ventana de contexto de tu prompt. Tu prompt no enseña al modelo nada permanente.

Esta distinción resuelve mucha confusión. El 'conocimiento' del modelo es lo que estaba en sus datos de entrenamiento hasta su fecha de corte — no tiene conciencia en vivo de eventos después de eso, y no puede buscar nada a menos que le des herramientas o contexto recuperado. El aprendizaje en contexto (ejemplos few-shot) no es entrenamiento; es el modelo acondicionándose en ejemplos dentro del prompt, como se describe en Brown et al., 2020 (arXiv:2005.14165). El efecto desaparece cuando el contexto termina.

Conclusiones prácticas: nunca asumas que el modelo conoce hechos actuales — suministra los en contexto o mediante recuperación/herramientas. Trata los ejemplos few-shot como instrucciones temporales, no como aprendizaje permanente. Y cuando necesitas información autoritaria y actualizada, fundamenta el modelo en fuentes que proporcionas en lugar de confiar en hechos recordados (la siguiente sección explica por qué).

Por qué suceden las alucinaciones

Una alucinación es salida fluida y confiada que es factualmente incorrecta o sin apoyo. Es una consecuencia directa del bucle de predicción: el modelo está optimizado para producir tokens siguientes que suenen plausibles, y plausibilidad no es lo mismo que verdad. Cuando al modelo le falta el hecho relevante, no sabe que lo falta — genera la continuación con mejor apariencia de probabilidad, que puede ser una fabricación confiada.

Factores contribuyentes: el hecho no estaba en datos de entrenamiento (o era raro/contradictorio); la pregunta está fuera de la fecha de corte de conocimiento del modelo; el prompt invita a especulación sin permitir 'No sé'; o el muestreo a temperatura alta expone un token de baja probabilidad e incorrecto. Crucialmente, el modelo no tiene una señal integrada que distinga 'Estoy recordando un hecho' de 'Estoy generando una adivinanza plausible' — ambos salen igualmente fluidos.

El prompt reduce la alucinación pero no puede eliminarla completamente. Los movimientos de alto apalancamiento: (1) fundamenta el modelo en contexto suministrado e instrúyelo para usar solo ese contexto; (2) permite explícitamente y requiere 'no especificado / No sé' en lugar de adivinar; (3) baja temperatura para tareas factales; y (4) para cualquier cosa de alto riesgo, mantén un humano en el bucle y cita fuentes reales. Los prompts fundamentados en recuperación con una regla de incertidumbre estricta son el patrón único más efectivo — ver el patrón de restricción negativa en nuestro 12 Patrones de Prompt Que Convierten.

Qué significa todo esto para escribir prompts

Uniendo la mecánica en reglas de escribir prompts:

**Tokens →** presupuesta en tokens; mantén contexto compacto; espera que código e idiomas no ingleses cuelten más por palabra.

**Ventana de contexto →** pon instrucciones clave al inicio, reafirma al final, recupera solo fragmentos relevantes, y refresca contexto en chats largos.

**Bucle de predicción →** solicita razonamiento antes de la respuesta en tareas difíciles; arregla problemas antes en el prompt, ya que todo lo posterior está condicionado por él.

**Muestreo →** temperatura baja para trabajo factual/repetible, mayor para creativo; ajusta un control, no ambos; no confundas temperatura 0 con corrección.

**Entrenamiento vs inferencia →** suministra hechos actuales en contexto; trata few-shot como temporal; nunca asumas conocimiento en vivo.

**Alucinación →** fundamenta en fuentes, requiere 'No sé', baja temperatura, y mantén humanos en el bucle para salida de alto riesgo.

Estas reglas son por qué las técnicas en nuestra Guía Completa de Ingeniería de Prompts funcionan como lo hacen. Entender el mecanismo convierte el escribir prompts de ensayo y error en algo que puedes razonar. Comienza a aplicarlo con el Generador de Prompts ChatGPT o Constructor de Prompts de Código.

Fuentes y lecturas complementarias

Referencias para la mecánica anterior (a partir de junio de 2026):

Chain-of-Thought / por qué ayuda razonamiento-primero (Wei et al., 2022): https://arxiv.org/abs/2201.11903

Aprendizaje en contexto / few-shot (Brown et al., 2020): https://arxiv.org/abs/2005.14165

ReAct, razonamiento intercalado con acciones (Yao et al., 2023): https://arxiv.org/abs/2210.03629 ; Árbol de Pensamientos (Yao et al., 2023): https://arxiv.org/abs/2305.10601

Parámetros de muestreo (temperatura, top_p) — referencia de API de OpenAI: https://platform.openai.com/docs/api-reference/chat ; orientación de prompting de proveedores: https://platform.openai.com/docs/guides/prompt-engineering , https://docs.claude.com/en/docs/build-with-claude/prompt-engineering/overview , https://ai.google.dev/gemini-api/docs/prompting-strategies

Economía de tokens (presupuesto de contexto): ver nuestra guía Costo por Token y las páginas de precios en vivo de proveedores que vincula.

Regla general de tokens (1 token ≈ 4 caracteres ≈ 0,75 palabras): según documentación de tokenización de OpenAI y Anthropic.

Digital Dashboard Hub

The prompt patterns above work 10x better when they live in a library you actually own — tunable to your niche, exportable to GPT-5, Claude, Gemini, Perplexity, Midjourney, Llama. Stop pasting across 6 tools.

Try DDH's AI Prompt Builder — free 14 days, no card. →

Related prompt tools

Generador de Prompts ChatGPT→Constructor de Prompts de Código→Generador de Esquema de Post de Blog→Generador de Meta SEO→Generador de Voz de Marca→

Frequently Asked Questions

¿Qué es un token en un LLM?

Un token es el fragmento sub-palabra que el modelo realmente lee — las palabras comunes suelen ser un token, mientras que palabras raras o largas se dividen en varios. La regla general es 1 token ≈ 4 caracteres ≈ 0,75 palabras en inglés (según documentación de OpenAI y Anthropic), así que ~1.000 tokens son aproximadamente 750 palabras. El costo y los límites de contexto se miden en tokens, no palabras, y código denso o texto no inglés usa más tokens por palabra que inglés plano.

¿Qué es una ventana de contexto y por qué importa para los prompts?

La ventana de contexto es el número máximo de tokens que el modelo puede considerar a la vez — tu prompt, historial, documentos adjuntos y la salida generada comparten el presupuesto. Cualquier cosa fuera de ella efectivamente no existe para el modelo. En práctica: pon instrucciones clave al inicio (los modelos atienden más confiablemente al principio y final), recupera solo fragmentos relevantes de documentos largos, y reafirma contexto crítico en conversaciones largas porque turnos antiguos pueden salir de la ventana.

¿Qué hace la temperatura y debo establecerla a 0?

La temperatura controla cuán aleatoriamente el modelo elige el siguiente token. Temperatura baja (cerca de 0) da salida enfocada y repetible; temperatura alta da salida variada y creativa. Usa baja para extracción de hechos, clasificación y salida estructurada; auméntala para lluvia de ideas. Pero temperatura 0 hace salida determinística, no correcta — no detiene alucinación. Si un prompt solo funciona a 0, es frágil y debe arreglarse. Ver la referencia de API de OpenAI.

¿Por qué los LLM alucina?

Porque están optimizados para producir tokens siguientes plausibles, y plausibilidad no es verdad. Cuando un modelo carece de un hecho, no sabe que le falta — genera la continuación con mejor apariencia de probabilidad, que puede ser una fabricación confiada, sin señal interna que separe recuerdo de adivinanza. El prompt reduce esto: fundamenta el modelo en contexto suministrado, requiere que diga 'no especificado' en lugar de adivinar, baja temperatura para tareas factuales, y mantén humano en el bucle para salida de alto riesgo.

¿Mi prompt enseña al modelo algo permanentemente?

No. Entrenamiento (aprender pesos) e inferencia (llamar al modelo) son fases separadas. En inferencia los pesos están congelados, y el modelo usa solo esos más lo en tu ventana de contexto. Los ejemplos few-shot son aprendizaje en contexto — acondicionamiento temporal que desaparece cuando termina el contexto, según Brown et al. 2020 — no aprendizaje permanente. El modelo tampoco tiene conocimiento en vivo después de su fecha de corte de entrenamiento a menos que suministres hechos actuales vía contexto o herramientas.

¿Por qué pedir al modelo que 'piense paso a paso' mejora las respuestas?

Porque el modelo es predictor de siguiente token: los tokens que escribe condicionan los tokens que siguen. Cuando escribe razonamiento primero, la respuesta final está condicionada por ese razonamiento, que mejora mensurablemente la precisión en problemas multi-paso — el efecto chain-of-thought de Wei et al. 2022. El orden importa: el razonamiento debe venir antes de la respuesta para tener efecto. Los modelos tuned en razonamiento moderno a menudo lo hacen internamente, así que ayuda menos en modelos de top.

Convierte la mecánica en mejores prompts.

El Generador de Prompts ChatGPT y Constructor de Prompts de Código gratuitos aplican mejores prácticas de contexto, formato y fundamentación para ti — sin registro, parte de 40+ herramientas de prompt gratuitas.

Browse all prompt tools →