Name: WhatsWave
Rating: 4.8 (250 reviews)
Author: WhatsWave

O que são tokens

Tokens são as unidades de processamento da Inteligência Artificial. Toda mensagem que o agente recebe (entrada) e toda resposta que ele gera (saída) consomem tokens. No WhatsWave, cada plano inclui uma quota mensal de tokens — e é esse saldo que mede o uso da IA no seu ciclo de cobrança.

Uma forma simples de pensar: quanto mais longo o contexto das conversas e quanto mais o agente "raciocina" (chamadas a ferramentas, histórico, instruções), mais tokens são consumidos.

Por que o consumo é "ponderado por modelo"

Nem todo modelo de IA custa o mesmo. Um modelo premium pode custar dezenas de vezes mais por token do que um modelo econômico. Para manter o preço do plano justo e previsível, o WhatsWave mede o consumo em tokens de quota — ou seja, o token bruto do provedor multiplicado por um fator de custo do modelo.

Modelo baseline (gpt-4o-mini): multiplicador 1x.
Modelos mais caros consomem mais quota por token bruto.
Modelos mais econômicos preservam sua quota.

Exemplo: a mesma conversa pode consumir cerca de 32x mais quota em um modelo premium do que no baseline. Por isso a recomendação é escolher o modelo adequado a cada caso de uso.

A quota de cada plano

Cada plano inclui um pacote de tokens de quota por mês. No ciclo anual, o limite efetivo do período equivale a 12 vezes a cota mensal. Os valores exatos por plano aparecem na tabela de planos da página de preços.

O que é o token excedente (consumo flexível)

O consumo flexível vem ativado por padrão. Com ele ligado, a IA não para quando você atinge a quota do plano: o consumo além do limite é registrado como token excedente e cobrado na próxima fatura.

Como funciona a cobrança do excedente:

A tarifa do excedente é definida por plano e exibida por 1 milhão (1M) de tokens.
A tarifa é o dobro da tarifa base do plano (preço mensal dividido pela quota). Isso é proposital: pagar excedente recorrente sai mais caro do que fazer upgrade — em geral, planos maiores oferecem excedente mais barato por 1M.
Não há teto: enquanto o consumo flexível estiver ligado, o excedente é ilimitado e proporcional ao uso.
O valor entra na sua próxima mensalidade automaticamente (cartão via Stripe ou PIX via Asaas).

Exemplo prático

Suponha um plano com 50M de tokens de quota e tarifa de excedente de R$ 5,96 por 1M. Se no mês você consumir 56M de tokens, terá 6M de excedente. A cobrança extra na próxima fatura será de aproximadamente 6 × R$ 5,96 = R$ 35,76.

Notificações de limite

Você é avisado por WhatsApp quando:

Cruza 100% da quota do plano (o excedente começou a ser contabilizado);
O excedente atinge o tamanho da própria quota (você consumiu 2× o plano) — sinal claro de que fazer upgrade compensa;
O consumo flexível está desligado e a quota foi atingida — neste caso a IA é bloqueada, e você recebe opções para fazer upgrade ou reativar o consumo flexível.

Como controlar

Acompanhe uso, quota, excedente e a estimativa da próxima fatura na página Cobrança do app.
Ligue ou desligue o consumo flexível a qualquer momento.
Para reduzir consumo: use modelos mais econômicos quando possível, encurte instruções/contexto e evite reprocessar histórico desnecessário.

Resumo

Tokens medem o uso da IA, ponderados pelo custo do modelo.
Cada plano inclui uma quota mensal.
O consumo flexível (padrão ligado) evita o bloqueio e cobra o excedente na próxima fatura.
A tarifa do excedente é 2× a base do plano; planos maiores tendem a ter excedente mais barato.
Se você paga excedente com frequência, fazer upgrade quase sempre é mais econômico.

Como funcionam os tokens no WhatsWave (e o que é o token excedente)