16. LLMs

Grandes Modelos de Linguagem (LLMs)

Grandes Modelos de Linguagem (Large Language Models, LLMs) são redes neurais Transformer treinadas em escalas sem precedentes — bilhões de parâmetros, trilhões de tokens — com o objetivo de prever o próximo token. Essa tarefa aparentemente simples, repetida em dados suficientes, leva a capacidades emergentes: raciocínio, aritmética, programação e muito mais.

A Escala que Muda Tudo

Pré-Treinamento: Predição do Próximo Token

LLMs são pré-treinados com modelagem de linguagem autorregressiva: dado o texto \(x_1, x_2, \ldots, x_T\), minimiza-se a perda de cross-entropy:

\[ \mathcal{L} = -\sum_{t=1}^{T} \log p_\theta(x_t \mid x_1, \ldots, x_{t-1}) \]

Essa é uma tarefa de aprendizado autossupervisionado — os rótulos são os próprios tokens do texto, portanto os dados são extremamente abundantes (praticamente toda a internet).

O modelo aprende uma distribuição de probabilidade sobre vocabulários de 30k–100k tokens. Na inferência, amostra iterativamente:

\[ x_{t+1} \sim p_\theta(\cdot \mid x_1, \ldots, x_t) \]

Tokenização

Antes do treinamento, o texto é convertido em tokens por um tokenizer. O padrão moderno é o Byte Pair Encoding (BPE):

Começa com caracteres individuais
Itera: une os pares mais frequentes
Resulta em vocabulário de subpalavras

"tokenização" → ["token", "iza", "ção"]   (BPE)
"ChatGPT"     → ["Chat", "G", "PT"]
"hello world" → ["hello", " world"]

Isso permite vocabulários compactos que lidam com palavras raras e múltiplos idiomas sem tokenizer separado por língua.

Capacidades Emergentes

Ao cruzar certos limiares de escala, LLMs exibem capacidades que não existem em modelos menores — parecem emergir de forma não-linear:

🧮 Few-Shot Learning

Aprende tarefas a partir de 3-5 exemplos no contexto, sem atualização de pesos.

 Traduza para o francês:
 Inglês: "cat" → Francês: "chat"
 Inglês: "dog" → Francês: "chien"
 Inglês: "bird" → Francês: "oiseau" 

🔗 Chain-of-Thought

Gera raciocínio passo a passo antes de responder, melhora a acurácia em matemática e lógica.

 Q: Se x+3=7, quanto é 2x?
 A: Primeiro, x=7-3=4.
 Então 2x=2×4=8. 

💻 Geração de Código

Escreve, explica e depura código em dezenas de linguagens de programação.

🌍 Multilíngue

Traduz, raciocina e gera em múltiplos idiomas sem treinamento específico por língua.

O Pipeline RLHF

Modelos base prevêem texto, mas não necessariamente de forma útil ou segura. O RLHF (Reinforcement Learning from Human Feedback)³ adapta o modelo às preferências humanas:

flowchart LR
    A[Modelo Base\nPré-treinado] --> B[SFT\nFine-Tuning Supervisionado]
    B --> C[Modelo de Recompensa\nTreinado com rankings humanos]
    C --> D[PPO / DPO\nOtimização com RL]
    D --> E[Modelo Alinhado\nChatGPT / Claude]

    style A fill:#21262d,color:#8b949e
    style E fill:#1f3244,color:#58a6ff

SFT: Fine-tuning supervisionado em demonstrações de alta qualidade
Reward Model: rede neural que aprende a ranquear respostas segundo preferência humana
PPO/DPO: otimização por RL usando o Reward Model como sinal

O DPO (Direct Preference Optimization) simplifica isso: não precisa de RL explícito, treina diretamente nas preferências:

\[ \mathcal{L}_{\text{DPO}} = -\mathbb{E}\left[\log \sigma\!\left(\beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)}\right)\right] \]

onde \(y_w\) é a resposta preferida e \(y_l\) a rejeitada.

Mixture of Experts (MoE)

Para escalar além de modelos densos, LLMs modernos usam Mixture of Experts⁴: cada camada FFN é substituída por \(E\) "especialistas" independentes, com um roteador que ativa apenas \(k\) deles por token:

\[ \text{MoE}(x) = \sum_{i \in \text{Top-}k(G(x))} G(x)_i \cdot E_i(x) \]

onde \(G(x) = \text{Softmax}(W_g x)\) são os pesos do roteador.

Vantagem: um modelo com \(E\) especialistas tem \(E \times\) mais parâmetros, mas por forward pass ativa apenas \(k/E\) deles → mesma eficiência computacional com mais capacidade.

Modelo	Parâmetros Totais	Parâmetros Ativos	Especialistas
Mixtral 8×7B	46,7B	12,9B (28%)	8, top-2
DeepSeek-V3	671B	37B (5,5%)	256, top-8
GPT-4 (especulado)	~1,8T	~110B	~16 especialistas

Prompting Avançado

O comportamento dos LLMs é fortemente influenciado pelo prompt:

Técnica	Descrição	Quando usar
Zero-shot	Instrução direta sem exemplos	Tarefas simples, modelos grandes
Few-shot	3-5 exemplos entrada→saída	Formato específico, tarefas novas
Chain-of-Thought	Peça "vamos pensar passo a passo"	Matemática, lógica, raciocínio
System Prompt	Define papel/personagem do modelo	Assistentes especializados
RAG	Recupera documentos antes de gerar	Conhecimento atualizado, factualidade
Tool Use	Modelo chama funções/APIs externas	Cálculo, busca, ações no mundo

Desafios e Limitações

Alucinação
LLMs inventam fatos com confiança. RAG e grounding mitigam parcialmente.

Corte de Conhecimento
Dados de treinamento têm data de corte. RAG, navegação web e tool use compensam.

Custo Computacional
Inferência é cara. Quantização, destilação e caching reduzem custos.

Panorama de Modelos (2025)

Família	Organização	Open-source?	Especialidade
GPT-4o / o3	OpenAI	❌	SOTA geral, raciocínio
Claude 3.7	Anthropic	❌	Janela de contexto longa, segurança
Gemini 2.5	Google	❌	Multimodal, integração Google
LLaMA 3.3	Meta	✅	Base para fine-tuning
Mistral / Mixtral	Mistral AI	✅	Eficiência, MoE
DeepSeek-V3/R1	DeepSeek	✅	Raciocínio, código
Qwen 2.5	Alibaba	✅	Multilíngue
Gemma 3	Google	✅	Pequeno e eficiente

Brown, T. et al. (2020). Language Models are Few-Shot Learners (GPT-3). ↩
Wei, J. et al. (2022). Emergent Abilities of Large Language Models. ↩
Ouyang, L. et al. (2022). Training language models to follow instructions with human feedback (InstructGPT). ↩
Shazeer, N. et al. (2017). Outrageously Large Neural Networks: The Sparsely-Gated MoE. ↩
Rafailov, R. et al. (2023). Direct Preference Optimization. ↩