O que são tokens
Tokens são as unidades de processamento da Inteligência Artificial. Toda mensagem que o agente recebe (entrada) e toda resposta que ele gera (saída) consomem tokens. No WhatsWave, cada plano inclui uma quota mensal de tokens — e é esse saldo que mede o uso da IA no seu ciclo de cobrança.
Uma forma simples de pensar: quanto mais longo o contexto das conversas e quanto mais o agente "raciocina" (chamadas a ferramentas, histórico, instruções), mais tokens são consumidos.
Por que o consumo é "ponderado por modelo"
Nem todo modelo de IA custa o mesmo. Um modelo premium pode custar dezenas de vezes mais por token do que um modelo econômico. Para manter o preço do plano justo e previsível, o WhatsWave mede o consumo em tokens de quota — ou seja, o token bruto do provedor multiplicado por um fator de custo do modelo.
- Modelo baseline (
gpt-4o-mini): multiplicador 1x. - Modelos mais caros consomem mais quota por token bruto.
- Modelos mais econômicos preservam sua quota.
Exemplo: a mesma conversa pode consumir cerca de 32x mais quota em um modelo premium do que no baseline. Por isso a recomendação é escolher o modelo adequado a cada caso de uso.
A quota de cada plano
Cada plano inclui um pacote de tokens de quota por mês. No ciclo anual, o limite efetivo do período equivale a 12 vezes a cota mensal. Os valores exatos por plano aparecem na tabela de planos da página de preços.
O que é o token excedente (consumo flexível)
O consumo flexível vem ativado por padrão. Com ele ligado, a IA não para quando você atinge a quota do plano: o consumo além do limite é registrado como token excedente e cobrado na próxima fatura.
Como funciona a cobrança do excedente:
- A tarifa do excedente é definida por plano e exibida por 1 milhão (1M) de tokens.
- A tarifa é o dobro da tarifa base do plano (preço mensal dividido pela quota). Isso é proposital: pagar excedente recorrente sai mais caro do que fazer upgrade — em geral, planos maiores oferecem excedente mais barato por 1M.
- Não há teto: enquanto o consumo flexível estiver ligado, o excedente é ilimitado e proporcional ao uso.
- O valor entra na sua próxima mensalidade automaticamente (cartão via Stripe ou PIX via Asaas).
Exemplo prático
Suponha um plano com 50M de tokens de quota e tarifa de excedente de R$ 5,96 por 1M. Se no mês você consumir 56M de tokens, terá 6M de excedente. A cobrança extra na próxima fatura será de aproximadamente 6 × R$ 5,96 = R$ 35,76.
Notificações de limite
Você é avisado por WhatsApp quando:
- Cruza 100% da quota do plano (o excedente começou a ser contabilizado);
- O excedente atinge o tamanho da própria quota (você consumiu 2× o plano) — sinal claro de que fazer upgrade compensa;
- O consumo flexível está desligado e a quota foi atingida — neste caso a IA é bloqueada, e você recebe opções para fazer upgrade ou reativar o consumo flexível.
Como controlar
- Acompanhe uso, quota, excedente e a estimativa da próxima fatura na página Cobrança do app.
- Ligue ou desligue o consumo flexível a qualquer momento.
- Para reduzir consumo: use modelos mais econômicos quando possível, encurte instruções/contexto e evite reprocessar histórico desnecessário.
Resumo
- Tokens medem o uso da IA, ponderados pelo custo do modelo.
- Cada plano inclui uma quota mensal.
- O consumo flexível (padrão ligado) evita o bloqueio e cobra o excedente na próxima fatura.
- A tarifa do excedente é 2× a base do plano; planos maiores tendem a ter excedente mais barato.
- Se você paga excedente com frequência, fazer upgrade quase sempre é mais econômico.
