29.05.2026

Como controlar os gastos com a API GPT no painel do Serverspace

Ao trabalhar com a API do GPT na plataforma da Serverspace, é importante entender que o custo das solicitações depende diretamente da quantidade de tokens processados. Tokens são unidades de texto que compõem a solicitação e a resposta do modelo.

Um token é aproximadamente equivalente a:

1 palavra (em média) em inglês,
ou partes de palavras / caracteres em outros idiomas.

Quanto maior a solicitação e a resposta, maior o custo.

Custo dos tokens

A Serverspace utiliza precificação separada — cada modelo possui suas próprias taxas para tokens de entrada e saída, por exemplo para o modelo GPT-5.3 Codex:

Custo das solicitações recebidas: R$ 13/1M fichas
Custo das solicitações de saída: R$ 100/1M fichas

O que isso significa na prática:
Tokens de entrada — são os textos que você envia para o modelo (prompt, instruções, contexto).
Tokens de saída — são as respostas geradas pelo modelo.

Importante: as respostas geralmente custam mais, pois exigem maior poder computacional.

Por que é importante controlar os tokens

O controle do consumo de tokens permite:

evitar custos inesperados,
prever o orçamento da API,
otimizar a qualidade/comprimento das respostas,
gerenciar a carga em aplicações.

Sem limites de tokens, o modelo pode gerar respostas muito longas, aumentando o custo de cada solicitação.

Como funciona o limite de tokens

A plataforma da Serverspace oferece a configuração:

Quantidade máxima de tokens
Essa configuração define o limite superior do tamanho da resposta do modelo.

Se um limite for definido: o modelo não poderá ultrapassar o número de tokens estabelecido na resposta; o texto será automaticamente cortado ao atingir o limite; você obtém um custo previsível por solicitação.

Vantagens de usar limites de tokens

O uso de limites de tokens permite:

Controlar o orçamento — evita respostas muito longas e caras
Aumentar a previsibilidade de custos — facilita o planejamento financeiro
Otimizar a performance — respostas mais rápidas com menos texto
Gerenciar melhor o comportamento do modelo — equilíbrio entre concisão e detalhamento

Recomendações de uso

Para chatbots: 300–800 tokens
Para respostas curtas / FAQs: 100–300 tokens
Para geração de artigos: 1000+ tokens (com atenção ao orçamento)