15. LLMs
Grandes Modelos de Linguagem (LLMs)
Grandes Modelos de Linguagem (Large Language Models, LLMs) são redes neurais Transformer treinadas em escalas sem precedentes — bilhões de parâmetros, trilhões de tokens — com o objetivo de prever o próximo token. Essa tarefa aparentemente simples, repetida em dados suficientes, leva a capacidades emergentes: raciocínio, aritmética, programação e muito mais.
A Escala que Muda Tudo
Pré-Treinamento: Predição do Próximo Token
LLMs são pré-treinados com modelagem de linguagem autorregressiva: dado o texto \(x_1, x_2, \ldots, x_T\), minimiza-se a perda de cross-entropy:
Essa é uma tarefa de aprendizado autossupervisionado — os rótulos são os próprios tokens do texto, portanto os dados são extremamente abundantes (praticamente toda a internet).
O modelo aprende uma distribuição de probabilidade sobre vocabulários de 30k–100k tokens. Na inferência, amostra iterativamente:
Tokenização
Antes do treinamento, o texto é convertido em tokens por um tokenizer. O padrão moderno é o Byte Pair Encoding (BPE):
- Começa com caracteres individuais
- Itera: une os pares mais frequentes
- Resulta em vocabulário de subpalavras
"tokenização" → ["token", "iza", "ção"] (BPE)
"ChatGPT" → ["Chat", "G", "PT"]
"hello world" → ["hello", " world"]
Isso permite vocabulários compactos que lidam com palavras raras e múltiplos idiomas sem tokenizer separado por língua.
Capacidades Emergentes
Ao cruzar certos limiares de escala, LLMs exibem capacidades que não existem em modelos menores — parecem emergir de forma não-linear:
Inglês: "cat" → Francês: "chat"
Inglês: "dog" → Francês: "chien"
Inglês: "bird" → Francês: "oiseau"
A: Primeiro, x=7-3=4.
Então 2x=2×4=8.
O Pipeline RLHF
Modelos base prevêem texto, mas não necessariamente de forma útil ou segura. O RLHF (Reinforcement Learning from Human Feedback)3 adapta o modelo às preferências humanas:
flowchart LR
A[Modelo Base\nPré-treinado] --> B[SFT\nFine-Tuning Supervisionado]
B --> C[Modelo de Recompensa\nTreinado com rankings humanos]
C --> D[PPO / DPO\nOtimização com RL]
D --> E[Modelo Alinhado\nChatGPT / Claude]
style A fill:#21262d,color:#8b949e
style E fill:#1f3244,color:#58a6ff - SFT: Fine-tuning supervisionado em demonstrações de alta qualidade
- Reward Model: rede neural que aprende a ranquear respostas segundo preferência humana
- PPO/DPO: otimização por RL usando o Reward Model como sinal
O DPO (Direct Preference Optimization) simplifica isso: não precisa de RL explícito, treina diretamente nas preferências:
onde \(y_w\) é a resposta preferida e \(y_l\) a rejeitada.
Mixture of Experts (MoE)
Para escalar além de modelos densos, LLMs modernos usam Mixture of Experts4: cada camada FFN é substituída por \(E\) "especialistas" independentes, com um roteador que ativa apenas \(k\) deles por token:
onde \(G(x) = \text{Softmax}(W_g x)\) são os pesos do roteador.
Vantagem: um modelo com \(E\) especialistas tem \(E \times\) mais parâmetros, mas por forward pass ativa apenas \(k/E\) deles → mesma eficiência computacional com mais capacidade.
| Modelo | Parâmetros Totais | Parâmetros Ativos | Especialistas |
|---|---|---|---|
| Mixtral 8×7B | 46,7B | 12,9B (28%) | 8, top-2 |
| DeepSeek-V3 | 671B | 37B (5,5%) | 256, top-8 |
| GPT-4 (especulado) | ~1,8T | ~110B | ~16 especialistas |
Prompting Avançado
O comportamento dos LLMs é fortemente influenciado pelo prompt:
| Técnica | Descrição | Quando usar |
|---|---|---|
| Zero-shot | Instrução direta sem exemplos | Tarefas simples, modelos grandes |
| Few-shot | 3-5 exemplos entrada→saída | Formato específico, tarefas novas |
| Chain-of-Thought | Peça "vamos pensar passo a passo" | Matemática, lógica, raciocínio |
| System Prompt | Define papel/personagem do modelo | Assistentes especializados |
| RAG | Recupera documentos antes de gerar | Conhecimento atualizado, factualidade |
| Tool Use | Modelo chama funções/APIs externas | Cálculo, busca, ações no mundo |
Desafios e Limitações
LLMs inventam fatos com confiança. RAG e grounding mitigam parcialmente.
Dados de treinamento têm data de corte. RAG, navegação web e tool use compensam.
Inferência é cara. Quantização, destilação e caching reduzem custos.
Panorama de Modelos (2025)
| Família | Organização | Open-source? | Especialidade |
|---|---|---|---|
| GPT-4o / o3 | OpenAI | ❌ | SOTA geral, raciocínio |
| Claude 3.7 | Anthropic | ❌ | Janela de contexto longa, segurança |
| Gemini 2.5 | ❌ | Multimodal, integração Google | |
| LLaMA 3.3 | Meta | ✅ | Base para fine-tuning |
| Mistral / Mixtral | Mistral AI | ✅ | Eficiência, MoE |
| DeepSeek-V3/R1 | DeepSeek | ✅ | Raciocínio, código |
| Qwen 2.5 | Alibaba | ✅ | Multilíngue |
| Gemma 3 | ✅ | Pequeno e eficiente |
-
Brown, T. et al. (2020). Language Models are Few-Shot Learners (GPT-3). ↩
-
Wei, J. et al. (2022). Emergent Abilities of Large Language Models. ↩
-
Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback (InstructGPT). ↩
-
Shazeer, N. et al. (2017). Outrageously Large Neural Networks: The Sparsely-Gated MoE. ↩
-
Rafailov, R. et al. (2023). Direct Preference Optimization. ↩