MAC0215 — IME-USP

Interpretabilidade Mecanica em Modelos de Linguagem

Um estudo dos mecanismos internos de LLMs e preparacao de um guia de estudos para a area

Adrian Valentim Marco–Junho 2026 108 horas
Progresso geral 14 de 108h concluidas
Marco 28h
  • Pesquisa e formulacao da lista de paradigmas e artigos mais importantes da area 8h
  • Preparacao do cronograma de estudo 2h
  • Estudo: "Zoom In: An Introduction to Circuits" (Olah et al., 2020) 4h
  • Estudo: "Toy Models of Superposition" (Elhage et al., 2022) 10h
  • Escrita de notas sobre features, circuitos, superposicao, polissemia vs. monossemanticidade 4h
Abril 24h
  • Estudo: "A Mathematical Framework for Transformer Circuits" (Elhage et al., 2021) 10h
  • Estudo: "In-context Learning and Induction Heads" (Olsson et al., 2022) 6h
  • Escrita da primeira secao do guia final sobre fundamentos e circuitos 8h
Maio 28h
  • Exploracao pratica com a biblioteca TransformerLens (Neel Nanda) 8h
  • Estudo: "Towards Monosemanticity: Decomposing Language Models With Dictionary Learning" (Bricken et al., 2023) 8h
  • Estudo: "Scaling Monosemanticity" (Templeton et al., 2024) 8h
  • Escrita de notas sobre dictionary learning, features e escala 4h
Junho 28h
  • Leitura: "On the Biology of a Large Language Model" (Anthropic, 2025) 8h
  • Investigacao livre sobre um subtema da fronteira (alinhamento, circuit-breaking, etc.) 8h
  • Escrita final do guia de estudos 12h

Notas de pesquisa

Ainda não foram adicionadas notas aqui.