Multi-Head Latent Attention

immagine glossario
« Back to Glossary Index

Il Multi-Head Latent Attention (MLA) è una variante del meccanismo di attenzione multi-head introdotto nel documento DeepSeek-V2 1. L’obiettivo principale di MLA è ridurre la dimensione della cache chiave-valore (KV-cache), che rappresenta un collo di bottiglia di memoria che emerge con l’aumento delle dimensioni dei modelli linguistici.

Come funziona MLA?

MLA si basa sull’idea di comprimere le matrici chiave (K) e valore (V) in un vettore latente di rango inferiore. Questo vettore latente viene poi proiettato in modo indipendente per ogni testa di attenzione, generando le matrici K e V specifiche per quella testa.

Invece di memorizzare nella cache le matrici K e V complete per ogni testa, MLA memorizza solo il vettore latente compresso. Questo riduce significativamente l’utilizzo della memoria, consentendo di addestrare e utilizzare modelli più grandi con la stessa quantità di memoria disponibile.

Vantaggi di MLA

  • Riduzione dell’utilizzo di memoria: MLA riduce significativamente la dimensione della KV-cache, consentendo di addestrare e utilizzare modelli più grandi con la stessa quantità di memoria.
  • Miglioramento dell’efficienza: MLA può migliorare l’efficienza dell’inferenza, poiché le matrici K e V vengono generate al volo dal vettore latente compresso.
  • Mantenimento delle prestazioni: MLA può mantenere o addirittura migliorare le prestazioni del modello rispetto all’attenzione multi-head standard, pur riducendo l’utilizzo della memoria.

Applicazioni di MLA

MLA può essere applicato in diversi contesti in cui l’attenzione multi-head è utilizzata, come:

  • Modelli linguistici di grandi dimensioni (LLM): migliorare l’efficienza e la scalabilità dei modelli linguistici.
  • Traduzione automatica: tradurre sequenze di testo più lunghe e complesse.
  • Comprensione del linguaggio naturale: migliorare la comprensione del contesto e delle relazioni tra le parole.

Conclusioni

Il Multi-Head Latent Attention (MLA) è una tecnica innovativa che affronta il problema del collo di bottiglia di memoria nell’attenzione multi-head. Riducendo l’utilizzo della memoria e mantenendo le prestazioni, MLA consente di addestrare e utilizzare modelli linguistici più grandi ed efficienti.

« Torna all'indice del Glossario