Ir para o conteúdo

15. LLMs

Grandes Modelos de Linguagem (LLMs)

Grandes Modelos de Linguagem (Large Language Models, LLMs) são redes neurais Transformer treinadas em escalas sem precedentes — bilhões de parâmetros, trilhões de tokens — com o objetivo de prever o próximo token. Essa tarefa aparentemente simples, repetida em dados suficientes, leva a capacidades emergentes: raciocínio, aritmética, programação e muito mais.


A Escala que Muda Tudo


Pré-Treinamento: Predição do Próximo Token

LLMs são pré-treinados com modelagem de linguagem autorregressiva: dado o texto \(x_1, x_2, \ldots, x_T\), minimiza-se a perda de cross-entropy:

\[ \mathcal{L} = -\sum_{t=1}^{T} \log p_\theta(x_t \mid x_1, \ldots, x_{t-1}) \]

Essa é uma tarefa de aprendizado autossupervisionado — os rótulos são os próprios tokens do texto, portanto os dados são extremamente abundantes (praticamente toda a internet).

O modelo aprende uma distribuição de probabilidade sobre vocabulários de 30k–100k tokens. Na inferência, amostra iterativamente:

\[ x_{t+1} \sim p_\theta(\cdot \mid x_1, \ldots, x_t) \]

Tokenização

Antes do treinamento, o texto é convertido em tokens por um tokenizer. O padrão moderno é o Byte Pair Encoding (BPE):

  1. Começa com caracteres individuais
  2. Itera: une os pares mais frequentes
  3. Resulta em vocabulário de subpalavras
"tokenização" → ["token", "iza", "ção"]   (BPE)
"ChatGPT"     → ["Chat", "G", "PT"]
"hello world" → ["hello", " world"]

Isso permite vocabulários compactos que lidam com palavras raras e múltiplos idiomas sem tokenizer separado por língua.


Capacidades Emergentes

Ao cruzar certos limiares de escala, LLMs exibem capacidades que não existem em modelos menores — parecem emergir de forma não-linear:

🧮 Few-Shot Learning
Aprende tarefas a partir de 3-5 exemplos no contexto, sem atualização de pesos.
Traduza para o francês:
Inglês: "cat" → Francês: "chat"
Inglês: "dog" → Francês: "chien"
Inglês: "bird" → Francês: "oiseau"
🔗 Chain-of-Thought
Gera raciocínio passo a passo antes de responder, melhora a acurácia em matemática e lógica.
Q: Se x+3=7, quanto é 2x?
A: Primeiro, x=7-3=4.
Então 2x=2×4=8.
💻 Geração de Código
Escreve, explica e depura código em dezenas de linguagens de programação.
🌍 Multilíngue
Traduz, raciocina e gera em múltiplos idiomas sem treinamento específico por língua.

O Pipeline RLHF

Modelos base prevêem texto, mas não necessariamente de forma útil ou segura. O RLHF (Reinforcement Learning from Human Feedback)3 adapta o modelo às preferências humanas:

flowchart LR
    A[Modelo Base\nPré-treinado] --> B[SFT\nFine-Tuning Supervisionado]
    B --> C[Modelo de Recompensa\nTreinado com rankings humanos]
    C --> D[PPO / DPO\nOtimização com RL]
    D --> E[Modelo Alinhado\nChatGPT / Claude]

    style A fill:#21262d,color:#8b949e
    style E fill:#1f3244,color:#58a6ff
  1. SFT: Fine-tuning supervisionado em demonstrações de alta qualidade
  2. Reward Model: rede neural que aprende a ranquear respostas segundo preferência humana
  3. PPO/DPO: otimização por RL usando o Reward Model como sinal

O DPO (Direct Preference Optimization) simplifica isso: não precisa de RL explícito, treina diretamente nas preferências:

\[ \mathcal{L}_{\text{DPO}} = -\mathbb{E}\left[\log \sigma\!\left(\beta \log \frac{\pi_\theta(y_w|x)}{\pi_{\text{ref}}(y_w|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)}\right)\right] \]

onde \(y_w\) é a resposta preferida e \(y_l\) a rejeitada.


Mixture of Experts (MoE)

Para escalar além de modelos densos, LLMs modernos usam Mixture of Experts4: cada camada FFN é substituída por \(E\) "especialistas" independentes, com um roteador que ativa apenas \(k\) deles por token:

\[ \text{MoE}(x) = \sum_{i \in \text{Top-}k(G(x))} G(x)_i \cdot E_i(x) \]

onde \(G(x) = \text{Softmax}(W_g x)\) são os pesos do roteador.

Vantagem: um modelo com \(E\) especialistas tem \(E \times\) mais parâmetros, mas por forward pass ativa apenas \(k/E\) deles → mesma eficiência computacional com mais capacidade.

Modelo Parâmetros Totais Parâmetros Ativos Especialistas
Mixtral 8×7B 46,7B 12,9B (28%) 8, top-2
DeepSeek-V3 671B 37B (5,5%) 256, top-8
GPT-4 (especulado) ~1,8T ~110B ~16 especialistas

Prompting Avançado

O comportamento dos LLMs é fortemente influenciado pelo prompt:

Técnica Descrição Quando usar
Zero-shot Instrução direta sem exemplos Tarefas simples, modelos grandes
Few-shot 3-5 exemplos entrada→saída Formato específico, tarefas novas
Chain-of-Thought Peça "vamos pensar passo a passo" Matemática, lógica, raciocínio
System Prompt Define papel/personagem do modelo Assistentes especializados
RAG Recupera documentos antes de gerar Conhecimento atualizado, factualidade
Tool Use Modelo chama funções/APIs externas Cálculo, busca, ações no mundo

Desafios e Limitações

Alucinação
LLMs inventam fatos com confiança. RAG e grounding mitigam parcialmente.
Corte de Conhecimento
Dados de treinamento têm data de corte. RAG, navegação web e tool use compensam.
Custo Computacional
Inferência é cara. Quantização, destilação e caching reduzem custos.

Panorama de Modelos (2025)

Família Organização Open-source? Especialidade
GPT-4o / o3 OpenAI SOTA geral, raciocínio
Claude 3.7 Anthropic Janela de contexto longa, segurança
Gemini 2.5 Google Multimodal, integração Google
LLaMA 3.3 Meta Base para fine-tuning
Mistral / Mixtral Mistral AI Eficiência, MoE
DeepSeek-V3/R1 DeepSeek Raciocínio, código
Qwen 2.5 Alibaba Multilíngue
Gemma 3 Google Pequeno e eficiente