Как работает подсистема памяти (кэш и VRAM) в графических ускорителях GeForce RTX 40-серии?

Евгений

11 месяцев назад

В данном материале речь пойдет главным образом об инновациях, примененных в подсистеме памяти устройств на базе архитектуры Ada Lovelace. Хотя указанные принципы работы VRAM схожи и применительно к графическим адаптерам более старых поколений (и не только от NVIDIA, но и от AMD). Мы также поговорим о том, как скорость и размер кэш-памяти GPU влияют на производительность и игровой процесс.

Если GPU может извлекать данные из кэша, а не из VRAM или RAM, то они будут обработаны быстрее.

VRAM — это высокоскоростная память, расположенная на видеокарте в виде микросхем. Это один из компонентов более крупной подсистемы, которая позволяет графическому процессору получать доступ к данным, необходимым для обработки и отображения картинки.

Современные игры занимают на накопителе все больше места (100 Гбайт являются нормой сегодняшнего дня). Доступ к этому огромному объему данных происходит с разной скоростью, определяемой спецификациями GPU и другими компонентами системы.

Как работает кэш в видеокартах GeForce RTX 40-серии?

В современных видеокартах используется высокоскоростная кэш-память (в ней хранятся важные данные), располагающаяся рядом с вычислительными ядрами GPU.

Если GPU может извлекать данные из кэша, а не из видеопамяти (VRAM) или оперативной памяти (RAM), то они будут обработаны быстрее. Это положительным образом сказывается на производительности, плавности игрового процесса и энергопотреблении.

Адаптеры GeForce имеют кэш-память первого уровня (L1, самый быстрый кэш) в каждом потоковом мультипроцессоре (SM). Их количество может достигать 12 в каждом кластере графической обработки (GPC), если говорить о 40-серии GeForce RTX.

Доступ к каждому уровню кэша сопряжен с задержками.

Есть также быстрый и более крупный общий кэш второго уровня (L2), к которому можно получить быстрый доступ с минимальной задержкой.

Доступ к каждому уровню кэша сопряжен с задержками, компромиссным решением является увеличение емкости. При разработке устройств GeForce RTX 40-серии в NVIDIA обнаружили, что один большой кэш L2 работает быстрее и эффективнее, чем альтернативы с небольшим кэшем L2 и большим кэшем L3 (но более медленным доступом).

GPU GeForce предыдущего поколения имели гораздо меньший кэш L2, что приводило к более низкой производительности по сравнению с GeForce RTX 40-серии.

В процессе работы графический чип сначала ищет данные в кэше L1 внутри SM. Если нужная информация найдена, нет необходимости обращаться к кэшу L2. Если данные не найдены в L1, случается так называемый промах (cache miss), и поиск продолжается в кэше L2.

Если данные находятся в L2, происходит попадание (процесс проиллюстрирован на изображении ниже) и данные передаются в L1, а затем в процессорные ядра.

Если данные не найдены в кэше L2, GPU пытается получить информацию из VRAM (графической памяти). Вы можете увидеть количество промахов кэша L2 на приведенной ниже диаграмме, которая изображает подсистему памяти предыдущей архитектуры, что вызывает ряд обращений к VRAM.

Если данные отсутствуют в VRAM, GPU запрашивает их из системной памяти. Если информация не находится в системной памяти, их обычно можно загрузить в ОЗУ с накопителя (SSD или HDD).

После этого данные копируются в VRAM, L2, L1 и, в конечном итоге, передаются процессорным ядрам.

В GeForce RTX 4060 Ti 8 Гбайт используются четыре микросхемы памяти GDDR6 по 16 Гбит.

Каждая дополнительная операция чтения/записи данных в иерархии памяти снижает производительность и потребляет больше энергии, поэтому, увеличивая частоту попаданий в кэш, мы увеличиваем частоту кадров и общую эффективность.

По сравнению с GPU предыдущего поколения (речь об устройствах со 128-бит интерфейсом), в видеокартах семейства Ada Lovelace размер кэша L2 увеличен в 16 раз (кроме того, значительно выросла и его пропускная способность). Это в значительной степени увеличивает количество тех самых попаданий.

Инженеры NVIDIA сравнили видеокарту RTX 4060 Ti с 32 Мбайт кэш-памяти L2 со специальной версией RTX 4060 Ti, использующей только 2 Мбайт L2.

В играх и синтетических тестах 32 Мбайт кэш L2 снизил трафик шины памяти в среднем на 50% по сравнению с 2 Мбайт кэшем L2.

Эта разница позволяет GPU использовать пропускную способность памяти в 2 раза эффективнее. В этом сценарии модификация семейства Ada Lovelace (с пиковой пропускной способностью памяти 288 Гбайт/с) работает аналогично GPU Ampere с пиковой пропускной способностью памяти 554 Гбайт/с. Во многих играх это приводит к увеличению средней частоты кадр/с на 34%.

Ширина шины памяти

В былые времена (отчасти и сейчас) ширина шины памяти использовалась как важная метрика для определения скорости и класса производительности GPU. Однако ширина шины сама по себе не является достаточным показателем производительности профильной подсистемы.

Благодаря усовершенствованиям в архитектуре Ada Lovelace (в том числе новым ядрам RT, тензорным ядрам, высоким тактовым частотам и новому движку OFA) GeForce RTX 4060 Ti работает быстрее, чем 256-бит устройства GeForce RTX 3060 Ti и RTX 2060 Super.

Почему на той или иной видеокарте установлено столько-то памяти?

Память GDDR6X и GDDR6 текущего поколения имеет плотность 8 Гбит (1 Гбайт данных) и 16 Гбит (2 Гбайт данных) на чип. Каждая микросхема может использовать либо два отдельных 16-бит канала для подключения к 32-бит контроллеру памяти, либо два 8-бит канала, чтобы две микросхемы памяти подключились к 32-бит контроллеру памяти. Это позволяет 128-бит графическому процессору поддерживать либо 4, либо 8 микросхем памяти.

В большинстве случаев игра выделяет конкретный объем VRAM для своих нужд.

Производство чипов большей емкости обходится дороже, поэтому для оптимизации цен необходимо соблюсти баланс.

В GeForce RTX 4060 Ti 8 Гбайт используются четыре микросхемы памяти GDDR6 по 16 Гбит, а в 16 Гбайт модели — восемь 16 Гбит микросхем. Смешение невозможно, поэтому нельзя создать, например, 12 Гбайт модель видеокарты.

Именно поэтому в линейке GeForce RTX 4060 Ti есть 16 Гбайт модель, а среди GeForce RTX 4070 Ti и RTX 4070 с 192-бит интерфейсом памяти существуют только 12 Гбайт модификации.

Оптимальные с точки зрения производительности и энергоэффективности видеокарты серии RTX 4060 удалось сделать столь доступными во многом благодаря использованию 128-бит интерфейса памяти.

Использование видеопамяти (VRAM)

Пользователи часто ссылаются на показатель «использование видеопамяти» в инструментах измерения производительности, но это не совсем точное число, так как все игры и движки работают по-разному.

Производство чипов большей емкости обходится дороже.

В большинстве случаев игра выделяет конкретный объем VRAM для своих нужд, говоря вашей системе: «Я хочу это, если мне это нужно». Но зарезервированный таким образом объем памяти не означает, что требуется весь доступный объем. На самом деле игры часто запрашивают больше памяти, если она доступна.

Объем видеопамяти, которая действительно необходима, варьируется в реальном времени в зависимости от сцены и того, что видит игрок.

Помимо игр, видеокарты GeForce RTX используются для 3D-анимации, редактирования видео и фотографий, графического дизайна, архитектурной визуализации. Некоторые приложения могут работать эффективнее с дополнительным объемом VRAM (особенно в высоком разрешении, например, 4К или 8К).

Что касается игр, высокие разрешения также обычно требуют увеличения объема видеопамяти. Иногда игра может запускаться с дополнительным очень большим пакетом текстур и выделять больше видеопамяти.