Tokens


Los Tokens son la unidad básica que utilizan los Modelos de Lenguaje para calcular la longitud de un texto.

El token generalmente corresponde a 4 caracteres en inglés. Puede ser tan corto como un carácter o tan largo como una palabra. Por ejemplo, en la frase "Hello, How are you?", hay seis tokens:


Los tokens dependen del idioma. Las palabras en español tienden a tener una proporción más alta de token por carácter, lo que hace que sea más costoso implementar la API. Por ejemplo, en la misma frase pero en español "Hola, ¿cómo estás?", se presentan once tokens:



Reglas generales

La cantidad de tokens en una solicitud o respuesta es importante ya que afecta el costo, el tiempo de procesamiento y la viabilidad de uso de los modelos de lenguaje. Los modelos tienen un límite de tokens que pueden manejar en una sola interacción, por lo que es esencial considerar la longitud de los prompts al diseñar consultas y respuestas. En algunos casos, es posible que sea necesario ajustar o resumir el texto para que se ajuste dentro de los límites de tokens de un modelo en particular.

El número máximo de tokens que se puede utilizar en una consulta depende del modelo específico que estés utilizando. Esto incluye tanto los tokens en el prompt como en la respuesta generada.

GPT-3.5 = 4.096 tokens

GPT-4 = 8.192 tokens

Es importante tener en cuenta que este límite debe considerar tanto la entrada como la salida generada. Si utilizas un prompt más largo, podría reducir la cantidad de tokens disponibles para la respuesta generada.

Si se alcanza el límite de tokens durante la generación de la respuesta, es posible que la respuesta se trunque o acorte para ajustarse dentro del límite. Por lo tanto, es fundamental ser consciente de la longitud de la respuesta esperada al diseñar tu consulta y configuración de conversación.

El Ingeniero deberá optimizar y ajustar los prompts para obtener resultados precisos y útiles dentro de las limitaciones de los modelos de lenguaje y la longitud de los tokens.






Consideraciones que debes tener en cuenta en relación al número máximo de tokens que se puede utilizar en una consulta:

Límite de tokens del modelo: Cada modelo de lenguaje tiene un límite máximo de tokens que puede procesar en una sola entrada. Esto incluye tanto los tokens en el prompt como en la respuesta generada. Por lo tanto, debes asegurarte de que tu consulta y respuesta generada juntas no superen este límite.

Espacio para la respuesta: Cuando diseñes tu prompt, debes dejar espacio suficiente para la respuesta generada por el modelo. Si tu prompt es muy largo, podría limitar la cantidad de tokens disponibles para la respuesta, lo que podría afectar la calidad y la coherencia de la respuesta generada.

Comunicación clara: Dado que el espacio es limitado, es esencial comunicar tu solicitud de manera clara y concisa. Evita frases redundantes o innecesariamente largas para asegurarte de que tu mensaje sea entendido por el modelo. Simplificar el lenguaje y comunicar tus ideas de manera directa puede ayudarte a ahorrar tokens.

Contexto relevante: Si estás manteniendo una conversación a lo largo de varios intercambios, asegúrate de que el contexto relevante se mantenga en el prompt. Si eliminas partes anteriores del intercambio para ahorrar tokens, el modelo podría perder la comprensión del contexto y la coherencia de la conversación se vería afectada.

Eliminación de redundancias: Revisa tu prompt para identificar posibles redundancias. Asegúrate de que no estás repitiendo la misma información en diferentes partes del prompt.

Priorización de información: Identifica la información esencial que necesitas en la respuesta y enfócate en incluirla en el prompt. Si hay detalles menos relevantes, considera omitirlos o resumirlos.

Síntesis y resumen: Si el espacio es limitado, es posible que debas sintetizar o resumir la información en lugar de proporcionar todos los detalles. Esto puede ser útil en escenarios en los que necesitas transmitir información importante dentro de los límites de tokens disponibles.

División de preguntas: Si tienes varias preguntas o solicitudes en un solo prompt, considera dividirlas en diferentes interacciones para que cada pregunta tenga su propia respuesta.

Segmentación de texto: Si tu contenido es extremadamente largo y no puede caber en el límite de tokens, podrías dividirlo en segmentos más pequeños y presentarlos en varias solicitudes. Sin embargo, debes tener cuidado de mantener la coherencia y el contexto entre los segmentos.

Pronombres y referencias: En lugar de repetir nombres largos o frases completas, utiliza pronombres y referencias para ahorrar espacio. Por ejemplo, en lugar de "El presidente de la empresa, John Smith", podrías decir "El presidente, él".

Contexto mínimo necesario: Asegúrate de incluir el contexto mínimo necesario para que el modelo comprenda la solicitud. No es necesario proporcionar información redundante o demasiado detallada.

Uso de abreviaturas: En algunos casos, el uso de abreviaturas o acrónimos puede ayudarte a ahorrar espacio en los tokens. Sin embargo, asegúrate de que el modelo pueda comprender y generar respuestas coherentes con las abreviaturas utilizadas.

Edición iterativa: Diseñar un prompt efectivo puede requerir iteraciones y ajustes. Es posible que debas experimentar con diferentes enfoques y redacciones para lograr los resultados deseados dentro de los límites de tokens.

Uso de tokens especiales: Algunos modelos pueden tener tokens especiales que permiten controlar la generación, como marcar el inicio o el final de la respuesta. Estos tokens también cuentan dentro del límite, por lo que debes considerarlos al diseñar tu prompt.

Tu objetivo es encontrar un equilibrio entre la longitud del prompt, la calidad de la respuesta y la coherencia de la conversación. Esto implica ser eficiente con los tokens disponibles y tomar decisiones estratégicas sobre cómo estructurar tu consulta para obtener los mejores resultados posibles. Experimenta con estas estrategias y ajusta según sea necesario para obtener los mejores resultados en tu interacción con el modelo.







Comentarios