4 limitações do Google Gemini ao processar imagens de documentos fiscais

Testes práticos com Notas Fiscais brasileiras revelam que o vision capability do Google Gemini falha em validações de CNPJ, leitura de papel térmico e cálculo de impostos, criando riscos contábeis reais.

Todo freelancer ou microempresário já passou pelo sufoco daquela caixa cheia de papéis em cima do escritório. A promessa da inteligência artificial generativa é sedutora: tirar uma foto, mandar pro Gemini e receber, magicamente, uma planilha em Excel pronta para importar no sistema de contabilidade. Eu, que já testei dezenas de ferramentas de OCR (Reconhecimento Óptico de Caracteres) ao longo dos anos, decuri colocar o Google Gemini à prova em 2026 com um cenário real e hostil: o caos das notas fiscais brasileiras.

O resultado não foi um desastre total, mas está longe da confiança cega que muitos profissionais de TI sugerem. O modelo vision é competente para identificar objetos, mas tropeça feio nas regras burocráticas locais e na física do papel impresso. Abaixo, listo as quatro falhas mais críticas que encontrei ao tentar automatizar minha declaração de imposto de renda pessoa física (IRPF) usando a IA.

A alucinação matemática em dígitos de CNPJ e CPF

O problema mais perigoso não é a IA não entender o que é um documento, mas ela entender "demais". O Google Gemini, ao analisar uma Nota Fiscal de Serviço (NFS-e) ou um cupom fiscal (CF-e), frequentemente tenta "corrigir" o que ele percebe como uma falha de impressão. No Brasil, CNPJs e CPFs possuem Dígitos Verificadores (DV). Se a imagem estiver um pouco borrada ou o carimbe do estabelecimento passar por cima de um número, o modelo tende a inferir um número que "pareça" válido matematicamente, em vez de simplesmente transcrever o que está lá ou sinalizar a dúvida.

Em um teste com uma nota de R$ 845,00 de material de escritório, o segundo dígito do CNPJ estava levemente apagado na impressão térmica. Em vez de retornar o número incompleto ou colocar um caractere curinga como [?], o Gemini inventou um dígito. O resultado? Um CNPJ inexistente na Receita Federal. Se você confiar cegamente nessa saída para gerar um XML ou preencher um sistema de gestão fiscal, sua nota será rejeitada. Diferente de ferramentas de SQL estruturadas onde a sintaxe errada causa um erro de código óbvio, aqui o erro é sutil e fiscalmente perigoso. A IA prioriza a coerência lógica de um número de documento em vez da fidelidade estrita à imagem.

O pesadelo do papel térmico amassado e a distorção de layout

Você já tentou tirar uma foto de um cupom fiscal que ficou no bolso da calça durante uma semana? O papel térmico encolhe, enverga e o texto se deforma. O Google Gemini tem dificuldades significativas em lidar com a segmentação de texto quando a base física do documento não é plana. A IA tende a "ver" as linhas de texto como retas, forçando uma leitura horizontal onde ela deveria curvar.

Em notas fiscais de estabelecimentos como padarias ou postos de gasolina, onde a largura do papel é estreita (geralmente 58mm ou 80mm), a distorção nas bordas faz com que o preço do item se misture com a quantidade. O modelo vision falha em separar o que é descrição do produto e o que é valor unitário, jogando tudo num único campo de texto confuso. Em comparação, modelos de texto puro (que recebem a OCR já feita) não sofrem com isso, pois o OCR tradicional já tentou endireitar a imagem antes de processar os caracteres. O Gemini quer fazer tudo ao mesmo tempo e acaba se perdendo na topologia do papel amassado.

Detalhe fotográfico relacionado a 4 limitações do Google Gemini ao processar imagens de documentos fiscais

Para contornar isso, eu precisei passar um ferro de passar roupa (no frio) nos cupons antes de fotografar, o que elimina a vantagem da "rapidez" que a IA promete.

Cegueira seletiva para impostos no rodapé da nota

Este é o ponto que mais dói no bolso do autônomo que precisa declarar despesas. O Gemini se destaca em ler o cabeçalho (data, emitente, valor total), mas quase ignora o rodapé das notas, onde geralmente estão as discriminações de impostos como ISS, ICMS e o detalhamento da base de cálculo. Pedi explicitamente ao modelo para extrair o valor do ISS destacado em uma NFS-e de consultoria.

O modelo retornou o valor total da nota como "Imposto". Para um prestador de serviços que precisa recolher ou deduzir esse valor, confundir o valor bruto com a retenção de imposto pode gerar um erro contábil de milhares de reais no fim do ano. A IA parece priorizar a "informação principal" (o total a pagar) e negligencia os metadados fiscais essenciais que ficam espremidos no final do papel, muitas vezes com uma fonte menor e com menos contraste visual. Até mesmo o Copilot do Word para formatação acadêmica tem mais precisão em seguir regras estritas de rodapé do que o Gemini tem em interpretar o layout fiscal de notas brasileiras.

Inconsistência gritante entre entrada de imagem e PDF

Uma característica curiosa e frustrante é a discrepância de performance quando você alimenta o Gemini com uma foto de um documento versus um arquivo PDF. Muitas prefeituras em São Paulo e Rio de Janeiro emitem as notas fiscais em formato PDF, que são basicamente imagens empacotadas. Eu esperava que o resultado fosse idêntico ao de uma foto tirada com o celular, mas não é.

O Gemini frequentemente tenta "ler" o PDF como texto digital antes de tentar o OCR visual. Se o PDF tiver uma camada de texto (mesmo que invisível ou imperfeita), o modelo ignora a imagem visual e lê o texto bagunçado da camada oculta, resultando em caracteres ilegíveis ou, pior, em código de formatação HTML que contaminou a extração. Em um teste com uma nota eletrônica (NFC-e) baixada do site da SEFAZ, o modelo extrapolou dados do cabeçalho XML invisível para o visual, misturando a data de emissão com a data de processamento do arquivo. Para uso profissional, essa instabilidade é um risco operacional; você nunca sabe se a IA está olhando para o papel ou para o código por trás dele.

Conclusão: Automatizar com raio-X, não com fé

A conclusão fria após rodar dezenas de testes é que o Google Gemini, em 2026, é um assistente preliminar, não um finalizador. Ele serve para digitar o que está na nota para você não ter que digitar, mas você precisa conferir cada campo, especialmente os dígitos de CNPJ e os valores de impostos. O erro de um dígito no CNPJ pode impedir o credenciamento de uma nota no sistema da sua empresa, e ignorar o ISS pode custar caro na declaração ajustada.

Se você busca uma solução 100% automatizada para jogar na planilha e esquecer, o Gemini puro ainda vai te frustrar. A melhor abordagem híbrida que encontrei foi usar o modelo para gerar um JSON bruto e criar um script simples para validar os dígitos verificadores automaticamente antes de salvar os dados. Ou, se você é mais paranoico com privacidade e quer rodar esses modelos na sua própria máquina para não mandar fotos de notas fiscais para servidores do Google, vale a pena investigar instalações locais como o Llama 3 no macOS. A IA economiza o esforço da digitação, mas transferiu o esforço para a revisão. Use-a com cautela fiscal.

4 limitações do Google Gemini ao processar imagens de documentos fiscais

A alucinação matemática em dígitos de CNPJ e CPF

O pesadelo do papel térmico amassado e a distorção de layout

Cegueira seletiva para impostos no rodapé da nota

Inconsistência gritante entre entrada de imagem e PDF

Conclusão: Automatizar com raio-X, não com fé

Leia em seguida

Llama 3 no Mac: a privacidade offline compensa a perda de velocidade?

O ChatGPT consegue escrever consultas SQL para o meu banco de dados específico?