Ao trabalhar com a API do GPT na plataforma da Serverspace, é importante entender que o custo das solicitações depende diretamente da quantidade de tokens processados. Tokens são unidades de texto que compõem a solicitação e a resposta do modelo.
Um token é aproximadamente equivalente a:
- 1 palavra (em média) em inglês,
- ou partes de palavras / caracteres em outros idiomas.
Quanto maior a solicitação e a resposta, maior o custo.
Custo dos tokens
A Serverspace utiliza precificação separada — cada modelo possui suas próprias taxas para tokens de entrada e saída, por exemplo para o modelo GPT-5.3 Codex:
- Custo das solicitações recebidas: R$ 13/1M fichas
- Custo das solicitações de saída: R$ 100/1M fichas
O que isso significa na prática:
Tokens de entrada — são os textos que você envia para o modelo (prompt, instruções, contexto).
Tokens de saída — são as respostas geradas pelo modelo.
Por que é importante controlar os tokens
O controle do consumo de tokens permite:
- evitar custos inesperados,
- prever o orçamento da API,
- otimizar a qualidade/comprimento das respostas,
- gerenciar a carga em aplicações.
Sem limites de tokens, o modelo pode gerar respostas muito longas, aumentando o custo de cada solicitação.
Como funciona o limite de tokens
A plataforma da Serverspace oferece a configuração:
- Quantidade máxima de tokens
- Essa configuração define o limite superior do tamanho da resposta do modelo.
Se um limite for definido: o modelo não poderá ultrapassar o número de tokens estabelecido na resposta; o texto será automaticamente cortado ao atingir o limite; você obtém um custo previsível por solicitação.
Vantagens de usar limites de tokens
O uso de limites de tokens permite:
Controlar o orçamento — evita respostas muito longas e caras
Aumentar a previsibilidade de custos — facilita o planejamento financeiro
Otimizar a performance — respostas mais rápidas com menos texto
Gerenciar melhor o comportamento do modelo — equilíbrio entre concisão e detalhamento
Recomendações de uso
Para chatbots: 300–800 tokens
Para respostas curtas / FAQs: 100–300 tokens
Para geração de artigos: 1000+ tokens (com atenção ao orçamento)