PGDF

Fluxos de IA Jurídico-Fiscal no OSIRIS

Entrega de IA para operações jurídico-fiscais da PGDF, cobrindo APIs em produção, modelos supervisionados e semissupervisionados, active learning e exploração inicial de LLMs em fluxos institucionais intensivos em documentos.

Cientista de Dados · mai 2023 - mai 2024

Stack

  • Python
  • SQL
  • FastAPI
  • Pytest
  • scikit-learn
  • XGBoost
  • LightGBM
  • DVC
  • MLflow
  • spaCy
  • Hugging Face Transformers
  • LangChain
  • Pandas
  • NumPy
  • Docker

Impacto principal

Introduziu fluxos de ML com governança e APIs de produção nas operações jurídico-fiscais, além de desenhar caminhos de active learning para adaptação contínua dos modelos.

Resultados

  • APIs em produção conectaram saídas dos modelos aos sistemas internos da PGDF
  • Loop de active learning desenhado para reduzir drift de modelo ao longo do tempo
  • Exploração de LLM abriu caminhos para fluxos futuros em textos fiscais

Contexto

O OSIRIS foi uma iniciativa de pesquisa e desenvolvimento para apoiar a PGDF em fluxos de execução jurídico-fiscal. O objetivo era automatizar etapas internas, melhorar eficiência e explorar onde machine learning e LLMs poderiam reduzir trabalho repetitivo em processos institucionais com grande volume documental.

Meu papel

  • Atuei como Cientista de Dados na iniciativa, traduzindo requisitos de negócio em escopo técnico.
  • Desenvolvi APIs RESTful em Python e FastAPI para conectar saídas de modelos aos sistemas da PGDF.
  • Construi e avaliei modelos supervisionados, não supervisionados e semissupervisionados para classificação fiscal e otimização de processos.
  • Desenhei fluxos de active learning e experimentação para evolução contínua dos modelos.

Problema

Operações jurídico-fiscais combinam texto complexo, procedimentos em mudança e sistemas institucionais que não toleram automação frágil. O time precisava de ML que melhorasse o fluxo interno sem virar uma ilha de pesquisa difícil de manter.

Isso exigia entrega prática de modelo, não apenas experimentação: reprodutibilidade, versionamento de dados, integração e plano para evolução do comportamento do modelo conforme o domínio mudasse.

Arquitetura

O fluxo do OSIRIS foi construído em torno de:

  • pipelines de pré-processamento e engenharia de atributos para dados jurídico-fiscais
  • experimentos supervisionados, não supervisionados e semissupervisionados
  • APIs REST para integração em produção
  • versionamento de dados e experimentos com DVC e MLflow
  • loops de active learning para manter o sistema atualizado
  • fluxos exploratórios com LLM para interpretação de textos fiscais
  • melhoria contínua de pipelines de dados e frameworks de treino

O sistema foi desenhado para sustentar necessidades imediatas de entrega e evolução futura dos modelos.

Desafios

  • Texto jurídico-fiscal muda ao longo do tempo, o que acelera a degradação de modelos estáticos.
  • Adoção em produção depende da qualidade de integração tanto quanto da qualidade do modelo.
  • Exploração de LLM em ambientes institucionais exige limite claro entre experimento útil e rollout prematuro.
  • Fluxos internos jurídico-fiscais precisam de automação explicável e sustentável no tempo.

Solução

Tratei o projeto primeiro como um problema de fluxo de trabalho. A solução combinou entrega de ML com governança, integração por API e desenho de active learning para permitir evolução sem fragilidade operacional.

Em paralelo, avaliei como LLMs poderiam apoiar interpretação de textos fiscais mantendo o trabalho ancorado em restrições reais de implantação. Isso criou uma base mais sólida para expansão futura sem superdimensionar experimentos iniciais.

Impacto

  • Implantação de APIs baseadas em modelos nos sistemas internos da PGDF.
  • Desenho de loop de active learning para melhoria contínua com menor carga de relabeling manual.
  • Abertura de caminhos práticos com LLM para análise jurídico-fiscal mantendo a entrega conectada à realidade operacional.

Conteúdo relacionado

Textos que surgiram do mesmo contexto de entrega.

Conteúdo técnico

LLM Evaluation in Production Starts With Explicit Failure Modes

2 de jul. de 2025

Evaluation is most useful when it reflects the failures a system can actually produce in production: missing context, wrong retrieval, incorrect tool use, unstable outputs, and unhelpful responses.

  • LLM
  • Evaluation
  • Production AI
  • Quality
Ler post

Conteúdo técnico

Scaling ML Pipelines Means Reducing Hidden Manual Work

19 de mai. de 2025

ML pipelines usually fail to scale because they depend on undocumented manual steps around data preparation, retraining, packaging, and release coordination.

  • MLOps
  • Airflow
  • MLflow
  • CI/CD
Ler post

Next step

Quer ver o contexto completo por trás deste trabalho?

A página sobre mim conecta estes estudos de caso ao restante da minha trajetória em tribunais, órgãos públicos e sistemas aplicados de IA.