Brasil Esfera Pública: Artigo 2 - Série: Como as máquinas aprendem - Dados: a matéria-prima sem a qual a máquina não aprende

segunda-feira, 23 de março de 2026

Artigo 2 - Série: Como as máquinas aprendem - Dados: a matéria-prima sem a qual a máquina não aprende

Nenhum sistema aprende do nada: por trás de toda previsão algorítmica existe uma estrutura de dados, escolhas humanas e recortes do mundo

Índice

Lide
Introdução: sem dados, não há aprendizado
O que são dados em machine learning
Features, rótulos e o desenho do problema
Treino, validação e teste: por que dividir importa
Qualidade dos dados: o modelo aprende inclusive os defeitos
Quando os dados são poucos, enviesados ou desbalanceados
Pré-processamento: preparar os dados também é construir o modelo
Um exemplo didático: prever evasão escolar
Por que dados nunca são neutros
Conclusão
Referências

Lide

Quando se fala em machine learning, muita gente imagina que o centro do processo está no algoritmo. Mas o algoritmo, sozinho, é como um moinho sem grãos: pode girar, mas não produz nada. O que alimenta o aprendizado de máquina são os dados. É deles que o modelo extrai padrões, testa relações, calcula erros e ajusta seus parâmetros. Por isso, entender o papel dos dados é entender o próprio coração do aprendizado de máquina. E é também perceber que, antes de qualquer promessa de precisão, existe sempre uma escolha humana sobre o que medir, como registrar, o que excluir e qual pedaço do mundo será transformado em informação.

Introdução: sem dados, não há aprendizado

No artigo anterior, o ponto central foi estabelecido: uma máquina não aprende como um ser humano; ela ajusta matematicamente um modelo para melhorar seu desempenho em uma tarefa. Agora, a pergunta decisiva é outra: de onde vem esse aprendizado?

A resposta é direta: dos dados.

A documentação introdutória do ecossistema de machine learning é bastante clara ao mostrar que modelos são treinados a partir de exemplos, e que o fluxo básico envolve examinar os dados, construir um pipeline de entrada, treinar, testar e melhorar o modelo. Esse encadeamento aparece de forma explícita tanto nos materiais do Google quanto nos tutoriais do TensorFlow e na organização do scikit-learn em torno de pré-processamento, ajuste, seleção de modelos e avaliação.

Isso significa que o aprendizado de máquina não começa no algoritmo, mas no modo como a realidade foi convertida em registros manipuláveis. Antes de prever, o sistema precisa receber algo. Antes de classificar, precisa observar exemplos. Antes de reconhecer padrões, precisa de uma base a partir da qual esses padrões possam emergir.

Em termos simples: dados são o alimento da aprendizagem algorítmica. Sem eles, não há treino; sem treino, não há modelo útil.

O que são dados em machine learning

No contexto de machine learning, dados são representações estruturadas de aspectos do mundo. Eles podem assumir a forma de números, textos, imagens, sinais, categorias, cliques, históricos de compra, medições biomédicas, registros escolares ou qualquer outro tipo de observação transformada em formato processável por sistemas computacionais.

O ponto importante é que dado não é o mundo em si. É um recorte do mundo. É a realidade traduzida para uma linguagem operacional.

Quando uma biblioteca como o scikit-learn fala em datasets, ela parte justamente da ideia de conjuntos organizados de exemplos sobre os quais um estimador pode ser ajustado, avaliado e comparado. Já os materiais introdutórios do Google apresentam o aprendizado supervisionado como um processo no qual o modelo aprende relações entre entradas e saídas a partir de exemplos rotulados.

Essa definição tem implicações profundas. Se o sistema aprende a partir de dados, então ele depende do modo como o fenômeno foi descrito. Um algoritmo não vê “o estudante”; ele vê frequência, nota, atraso, idade, participação, renda, presença em plataforma, ou qualquer outra variável que tenha sido selecionada. Ele não vê “a cidade”; vê coordenadas, densidade populacional, renda média, fluxo de tráfego, consumo de energia e assim por diante.

Em outras palavras: toda base de dados é uma tradução. E toda tradução simplifica.

Features, rótulos e o desenho do problema

Para entender melhor, convém apresentar dois termos centrais: features e labels.

As features são os atributos usados pelo modelo como entrada. Podem ser metragem de um imóvel, número de quartos e localização; ou idade do paciente, pressão arterial e exames laboratoriais; ou ainda frequência escolar, desempenho em avaliações e uso do ambiente virtual.

Já os labels — os rótulos — correspondem àquilo que se quer prever nos problemas supervisionados. O preço do imóvel, o diagnóstico, a aprovação, a inadimplência, a ocorrência de fraude, a espécie de uma planta.

A lógica do aprendizado supervisionado, conforme explicada pelo Google, consiste em usar exemplos em que as entradas e as respostas corretas são conhecidas para aprender uma relação que depois será aplicada a novos casos.

Isso parece técnico, mas a implicação é simples e poderosa: o problema de machine learning já nasce moldado pela escolha das variáveis.

Se um sistema de previsão de evasão escolar não inclui variáveis sobre contexto socioeconômico, acesso a transporte ou condições familiares, ele não “ignora” esses fatores por neutralidade científica. Ele simplesmente foi desenhado para aprender sem eles. E isso muda tudo.

O aprendizado começa muito antes do treino. Ele começa na definição do que contará como informação.

Treino, validação e teste: por que dividir importa

Um dos princípios mais importantes da área é que não basta treinar um modelo com dados; é preciso verificar se ele funciona em dados que ele ainda não viu.

Os materiais do Google explicam que a prática tradicional é dividir o conjunto original em subconjuntos de treinamento, validação e teste, justamente para obter uma prova mais forte da qualidade do modelo do que aquela produzida pelo desempenho sobre os mesmos exemplos usados no treino. O próprio material alerta ainda para o cuidado com exemplos duplicados entre esses subconjuntos, pois isso contamina a avaliação.

A documentação do scikit-learn segue a mesma linha ao destacar train_test_split e validação cruzada como ferramentas centrais de avaliação de desempenho.

A razão é intuitiva. Um estudante que resolve bem exatamente os exercícios que já viu não prova que domina o conteúdo. Prova apenas que foi treinado sobre aqueles casos. O mesmo vale para modelos.

Por isso, costuma-se organizar os dados assim:

treino: conjunto usado para ajustar o modelo;
validação: conjunto usado para comparar versões, ajustar hiperparâmetros e monitorar desempenho;
teste: conjunto reservado para avaliar o comportamento final em exemplos ainda não vistos.

Sem essa separação, corre-se o risco de confundir memória com aprendizagem. O modelo parece excelente, mas apenas porque está sendo examinado em terreno conhecido.

Qualidade dos dados: o modelo aprende inclusive os defeitos

Existe um princípio clássico em computação e análise de dados: garbage in, garbage out. Em português simples: se entra lixo, sai lixo.

No contexto do machine learning, isso significa que o modelo aprenderá padrões úteis, mas também ruídos, inconsistências, distorções e erros presentes na base. A documentação do scikit-learn dedica uma seção inteira a armadilhas comuns e práticas recomendadas, mostrando que escolhas inadequadas na preparação dos dados podem comprometer profundamente o resultado.

Qualidade de dados envolve várias dimensões:

completude;
consistência;
ausência de duplicações indevidas;
representatividade;
atualização temporal;
coerência entre variável e fenômeno observado.

Pense em um banco de dados de saúde com registros incompletos, exames lançados com unidades diferentes e pacientes de uma única região. O modelo talvez funcione razoavelmente naquele ambiente específico, mas isso não autoriza generalização ampla. Ele terá aprendido um mundo estreito, e talvez desorganizado.

A máquina não separa espontaneamente o que é essência e o que é defeito. Ela aprende com o que recebe.

Quando os dados são poucos, viesados ou desbalanceados

Outro problema comum é imaginar que qualquer conjunto de dados serve. Não serve.

Se os dados são escassos, o modelo tende a aprender pouco ou a memorizar excessivamente os exemplos disponíveis. Se os dados são enviesados, o modelo incorpora esse viés. Se os dados são desbalanceados, o desempenho aparente pode enganar.

O TensorFlow, por exemplo, mostra em um tutorial sobre dados desbalanceados que certos problemas têm proporções muito diferentes entre classes, como em fraude financeira, em que os casos positivos são raríssimos em comparação ao total. Nesses cenários, métricas como acurácia podem ser insuficientes, e técnicas específicas são necessárias. O Google também observa que, em classificação, métricas como precisão, revocação e F1 podem ser mais adequadas do que a simples acurácia quando há desequilíbrio entre classes.

Isso revela algo importante: não basta ter dados; é preciso ter dados compatíveis com o problema e com a forma correta de avaliação.

Um classificador que acerta 99% dos casos pode parecer extraordinário. Mas, se 99% da base pertence à classe majoritária, talvez ele apenas tenha aprendido a repetir a maioria. Nessa situação, o número impressiona, mas o modelo fracassa exatamente onde mais importa.

Pré-processamento: preparar os dados também é construir o modelo

Há um mito persistente segundo o qual o verdadeiro trabalho de machine learning começa quando se escolhe o algoritmo. Na prática, boa parte do trabalho relevante está antes disso, no pré-processamento.

O scikit-learn destaca explicitamente ferramentas para pré-processamento, seleção de atributos, modelagem, avaliação e pipelines. Isso mostra que preparar os dados não é etapa periférica; é parte central do processo.

Pré-processar pode incluir:

limpar inconsistências;
tratar valores ausentes;
padronizar escalas;
codificar variáveis categóricas;
selecionar atributos relevantes;
separar conjuntos de treino e teste sem vazamento;
reduzir ruído ou dimensionalidade.

Aqui aparece um tema crucial: vazamento de dados. Ele ocorre quando informações que deveriam estar fora do treino acabam, direta ou indiretamente, influenciando a construção do modelo. Isso pode gerar resultados artificialmente bons na avaliação e fracasso posterior em produção. As práticas recomendadas do scikit-learn insistem justamente em evitar esse tipo de erro metodológico.

Em linguagem simples: preparar mal os dados é como treinar um atleta com gabarito da prova final no bolso. O desempenho parece brilhante, mas é uma ilusão.

Um exemplo didático: prever evasão escolar

Tomemos um exemplo próximo do universo educacional.

Imagine que uma instituição deseje construir um modelo para prever risco de evasão. Para isso, reúne dados de turmas anteriores: frequência, reprovações, distância da residência, renda familiar, uso da plataforma institucional, participação em atividades, número de faltas consecutivas e histórico de assistência estudantil.

À primeira vista, isso parece um bom começo. Mas repare como tudo depende da qualidade e da composição desses dados.

Se a base estiver incompleta, o modelo aprenderá em terreno instável. Se incluir apenas estudantes que chegaram ao fim do semestre, perderá parte da realidade que justamente quer compreender. Se os dados forem fortemente concentrados em um único campus, talvez o modelo não generalize bem para outros contextos. Se variáveis importantes estiverem ausentes, o sistema produzirá previsões a partir de uma visão mutilada do fenômeno.

E há um ponto ainda mais delicado: a própria escolha das variáveis já comunica uma concepção institucional sobre o que explica a evasão. O dado não entra inocentemente. Ele entra carregando uma hipótese de mundo.

Assim, o modelo pode ser útil como instrumento de alerta precoce. Mas ele jamais deve ser tratado como sentença objetiva sobre o destino de um estudante. O que ele oferece é uma inferência probabilística baseada em padrões históricos de uma base construída por escolhas humanas.

Por que dados nunca são neutros

Talvez este seja o ponto mais importante de todo o artigo.

Quando se diz que “os dados falam por si”, costuma-se esconder o fato de que alguém definiu o que seria coletado, como seria medido, em que formato seria armazenado, quais populações estariam representadas e quais ficariam de fora. Logo, dados não são espelhos transparentes da realidade. São registros produzidos em contextos sociais, institucionais e técnicos.

Isso vale para educação, saúde, segurança, crédito, consumo e plataformas digitais. Um sistema de machine learning aprende com dados históricos. Se esses dados carregam desigualdades preexistentes, o modelo pode reproduzi-las. Se os dados não contemplam certas populações, o modelo pode falhar mais com elas. Se os registros refletem decisões passadas, o sistema tende a herdar parte dessa memória institucional.

Os glossários e guias do Google, ao tratarem de conceitos como feedback loop e generalização, já sinalizam que previsões algorítmicas podem inclusive retroalimentar os próprios dados futuros.

Aqui a questão deixa de ser apenas técnica. Torna-se pública e política. Compreender dados é compreender também poder de classificação, critérios de visibilidade, formas de exclusão e mecanismos de reprodução de padrões.

O dado é matéria-prima. Mas é também escolha histórica cristalizada em tabela.

Conclusão

Se o primeiro passo para entender o machine learning foi reconhecer que a máquina não pensa como um humano, o segundo passo é admitir que ela tampouco aprende sozinha. O que ela aprende depende dos dados que recebe. E esses dados nunca são apenas matéria bruta; são recortes do real, organizados por critérios humanos, institucionais e técnicos.

É por isso que dados ocupam uma posição tão central no aprendizado de máquina. Eles definem o horizonte do que pode ser percebido pelo modelo, condicionam a qualidade da inferência, moldam os limites da generalização e carregam, junto com padrões úteis, ruídos, ausências, distorções e vieses. Em termos rigorosos, o algoritmo não cria conhecimento a partir do nada. Ele reorganiza relações possíveis dentro da moldura informacional que lhe foi oferecida.

Compreender isso muda o debate inteiro. Em vez de perguntar apenas qual algoritmo foi usado, torna-se necessário perguntar quais dados foram coletados, quem ficou fora da base, como os conjuntos foram divididos, que variáveis foram escolhidas e que tipo de realidade se tentou transformar em informação. Sem essa alfabetização sobre dados, toda conversa sobre inteligência artificial permanece superficial. Porque, no fim das contas, aprender, para uma máquina, é sempre aprender a partir de um mundo previamente convertido em números, categorias e registros.

Referências

Google. Machine Learning. 2026. Disponível em: https://developers.google.com/machine-learning. Acesso em: 15 mar. 2026.

Google. Dividing the original dataset. 2025. Disponível em: https://developers.google.com/machine-learning/crash-course/overfitting/dividing-datasets. Acesso em: 15 mar. 2026.

Google. Machine Learning Glossary: ML Fundamentals. 2025. Disponível em: https://developers.google.com/machine-learning/glossary/fundamentals. Acesso em: 15 mar. 2026.

Google. Classification: Accuracy, recall, precision, and related metrics. 2026. Disponível em: https://developers.google.com/machine-learning/crash-course/classification/accuracy-precision-recall. Acesso em: 15 mar. 2026.

Scikit-learn Developers. User Guide. 2026. Disponível em: https://scikit-learn.org/stable/user_guide.html. Acesso em: 15 mar. 2026.

Scikit-learn Developers. Getting Started. 2026. Disponível em: https://scikit-learn.org/stable/getting_started.html. Acesso em: 15 mar. 2026.

Scikit-learn Developers. Cross-validation: evaluating estimator performance. 2026. Disponível em: https://scikit-learn.org/stable/modules/cross_validation.html. Acesso em: 15 mar. 2026.

Scikit-learn Developers. train_test_split. 2026. Disponível em: https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html. Acesso em: 15 mar. 2026.

Scikit-learn Developers. Common pitfalls and recommended practices. 2026. Disponível em: https://scikit-learn.org/stable/common_pitfalls.html. Acesso em: 15 mar. 2026.

TensorFlow. Image classification. 2024. Disponível em: https://www.tensorflow.org/tutorials/images/classification. Acesso em: 15 mar. 2026.

TensorFlow. Classification on imbalanced data. 2024. Disponível em: https://www.tensorflow.org/tutorials/structured_data/imbalanced_data. Acesso em: 15 mar. 2026.

segunda-feira, 23 de março de 2026

Artigo 2 - Série: Como as máquinas aprendem - Dados: a matéria-prima sem a qual a máquina não aprende

Nenhum comentário:

Postar um comentário