GPT использует архитектуру трансформера для обработки последовательностей данных, таких как текст. Трансформер состоит из энкодера и декодера, но GPT использует только декодерную часть. Механизм внимания позволяет модели взвешивать важность различных частей входных данных при генерации выходных данных.