
Графический процессор GA104-200 применяется в видеокартах NVIDIA RTX 3060 Ti и представляет собой урезанную версию полноценного чипа GA104, используемого, например, в RTX 3070. Основное различие заключается в уровне функциональности, заложенной в кристалле, и в количестве активных блоков. Из 48 потоковых мультипроцессоров (SM), предусмотренных архитектурой GA104, в варианте GA104-200 активными остаются только 38, остальные физически присутствуют, но отключены на аппаратном уровне.
Каждый SM содержит 128 CUDA-ядер, а значит, общее количество задействованных ядер CUDA в GA104-200 составляет 4864, тогда как полная версия чипа имеет 6144 ядра. Также отключены части текстурных блоков: из 192 TMU активны только 152. Количество ROP-блоков урезано до 80, что ограничивает пиксельную производительность. Такие ограничения позволяют NVIDIA выпускать чипы с частично дефектными участками, при этом снижая стоимость и повышая выход годных кристаллов с пластины.
Аналогичные меры затрагивают и другие подсистемы. Например, количество активных RT-ядер (отвечающих за трассировку лучей) составляет 38, а не 48, как в полной версии. Тензорные ядра (Tensor Cores), применяемые для DLSS и вычислений в FP16, также урезаны пропорционально числу SM. Эти технические ограничения напрямую влияют на вычислительную мощность, особенно в задачах, связанных с трассировкой лучей и нейросетевыми операциями.
Использование чипа GA104-200 с частично отключённой архитектурой позволяет добиться оптимального баланса между производительностью и стоимостью, что делает RTX 3060 Ti привлекательной для пользователей, не нуждающихся в полном потенциале GA104. При выборе видеокарты важно учитывать не только номинальные характеристики, но и фактическое количество активных блоков, особенно в сценариях, чувствительных к параллельным вычислениям.
Сколько активных и отключённых CUDA-ядер в GA104-200
Графический чип GA104-200, использующийся в видеокартах серии GeForce RTX 3060 Ti, имеет частично отключённую конфигурацию по сравнению с полной версией GA104. В полной реализации (GA104-400) предусмотрено 6144 CUDA-ядер, организованных в 48 SM-блоков (Streaming Multiprocessors).
В GA104-200 активны 38 SM-блоков, что соответствует 4864 CUDA-ядрам. Таким образом, 256 CUDA-ядер в каждом SM × 10 отключённых SM дают в сумме 1280 отключённых CUDA-ядер. Это уменьшение количества активных блоков позволяет создать более доступную по цене модель без полного перепроектирования кристалла.
Отключение ядер производится на этапе производства либо по причине дефектов, либо для маркетинговой сегментации. Для энтузиастов это означает, что разблокировка отключённых SM-блоков невозможна, так как отключения реализуются аппаратно на уровне кристалла. Использование GA104-200 обеспечивает баланс между производительностью и энергопотреблением без избыточных вычислительных ресурсов, не задействованных в типовых сценариях использования RTX 3060 Ti.
Какие части RT-блоков отключены в сравнении с полной версией GA104
Полноценный чип GA104, например в варианте GA104-400, содержит 48 RT-ядер (Ray Tracing Cores), по одному на каждый активный SM-блок. В модификации GA104-200, применяемой в видеокартах RTX 3060 Ti, часть этих ядер отключена вследствие деактивации восьми SM-блоков из общего количества.
В GA104-200 активны 38 SM-блоков из 48 возможных. Это означает, что задействовано 38 RT-ядер, а 10 отключены на аппаратном уровне. Каждое RT-ядро тесно связано с соответствующим SM, и при отключении SM-блока RT-ядро автоматически теряет возможность функционирования, даже если физически оно присутствует на кристалле.
Отключение RT-ядер снижает общую пропускную способность трассировки лучей на уровне аппаратного ускорения. Это ограничивает производительность в задачах, активно использующих RTX-функции – например, в трассировке отражений и теней. В сравнении с полной версией GA104-400, производительность RT на чипе GA104-200 сокращена примерно на 20–21%.
Принудительная деактивация части SM-блоков и связанных с ними RT-ядер применяется как способ использования чипов с частично дефектными участками. Это даёт возможность выпускать рабочие GPU из кристаллов, не прошедших квалификацию по полному количеству активных блоков.
Различия в количестве текстурных блоков между GA104-200 и GA104-400
Чип GA104-400, используемый в полной версии GPU, содержит 80 текстурных блоков, соответствующих полной активации всех 40 SM-модулей, каждый из которых оснащён двумя блоками текстурирования. Это обеспечивает высокую пропускную способность выборки текстур при рендеринге и трассировке лучей.
В варианте GA104-200, применяемом в видеокартах среднего уровня, например GeForce RTX 3060 Ti, активированы 38 SM-модулей, что даёт 76 текстурных блоков. Таким образом, отключено 4 текстурных блока по сравнению с полным чипом GA104-400. Это снижение незначительно влияет на качество текстурирования в реальном времени, но при высоких разрешениях или нагрузке на фильтрацию может стать ограничивающим фактором.
Для задач, чувствительных к производительности текстурных операций (например, в 4K или при использовании анизотропной фильтрации ×16), GA104-400 будет предпочтительнее. Однако при стандартных игровых сценариях разница между 76 и 80 блоками малозаметна и не влияет критически на итоговую частоту кадров.
Какие ROP-блоки недоступны в GA104-200 и как это влияет на производительность
Полноценная конфигурация кристалла GA104 предусматривает наличие 8 ROP-пар, каждая из которых включает по 8 блоков растеризации, обеспечивая в сумме 64 ROP. В модификации GA104-200, применяемой, например, в видеокартах RTX 3060 Ti, активны только 6 из 8 ROP-пар, что ограничивает общее количество растеризаторов до 48.
ROP-блоки отвечают за финальный этап рендеринга: запись пикселей в кадр, наложение сглаживания, сжатие цвета и работы с Z-буфером. Снижение их количества на 25% по сравнению с полной версией чипа напрямую влияет на пропускную способность рендеринга при высоких разрешениях и в сценах с насыщенной геометрией. Особенно это заметно в условиях, когда нагрузка распределяется равномерно между вычислительными и растеризующими модулями – в таких случаях недоступные ROP становятся узким местом.
В играх и приложениях, активно использующих растеризацию, ограничение в количестве ROP может привести к снижению кадровой частоты на 5–10% по сравнению с аналогичной архитектурой с полным набором блоков. Это особенно критично при использовании разрешений 1440p и выше, где ROP-нагрузка возрастает пропорционально площади кадра. В сценариях с упором на трассировку лучей или вычисления (DLSS, CUDA), эффект будет менее выраженным.
Для частичного нивелирования этого ограничения рекомендуется использовать более агрессивное сглаживание на уровне драйвера и настраивать ограничение кадров (FPS cap), чтобы избежать лишней нагрузки на растеризаторы. Также эффективным решением может быть настройка рендер-скейлинга, при котором внутриигровое разрешение снижается, а итоговая картинка масштабируется до нативного экрана.
Как изменена конфигурация SM-кластеров в GA104-200

В чипе GA104-200 количество активных SM-кластеров снижено по сравнению с полной версией GA104-400. Вместо 48 SM осталось 36, что означает уменьшение вычислительных блоков на 25%. Каждый SM-кластер сохраняет базовую архитектуру с 128 CUDA-ядер, но общее количество ядер сокращается с 6144 до 4608.
Помимо уменьшения числа SM, изменена конфигурация текстурных блоков (TMU). Каждый SM по-прежнему содержит по 4 TMU, но общее их количество сокращено пропорционально количеству SM – с 192 до 144. Это напрямую влияет на производительность текстурирования и рендеринга.
Уменьшение числа SM в GA104-200 сопровождается снижением пропускной способности кэш-памяти L1 и ресурсов по шейдингу. Кэш L1 и регистры распределены на активные SM, поэтому уменьшение числа SM приводит к снижению общей производительности в задачах с интенсивным использованием потоков.
Рекомендовано учитывать данное снижение при подборе видеокарты на базе GA104-200 для задач, требующих максимальной параллельной производительности. Для игр с интенсивной загрузкой шейдеров и текстурных блоков GA104-200 уступит версиям с полным набором SM, однако при оптимизации программного кода с учетом ресурсов снижение будет менее заметным.
Какие видеовыходы и интерфейсы могут быть отключены в OEM-версиях на GA104-200
В OEM-версиях видеокарт на базе чипа GA104-200 нередко отключаются часть видеовыходов и интерфейсов для снижения себестоимости и оптимизации под конкретные задачи производителя. Наиболее часто отключаются следующие элементы:
- DisplayPort 1.4a – может быть частично или полностью выведен из состава платы, ограничивая поддержку многомониторных конфигураций с высокими частотами обновления и разрешениями.
- HDMI 2.1 – в ряде моделей OEM-вариантов его отсутствие снижает возможность подключения современных телевизоров и мониторов с поддержкой 4K@120 Гц и выше.
- USB-C VirtualLink – часто вовсе не реализуется, так как предназначен для VR-гарнитур, что не является приоритетом для массовых OEM-сборок.
- Механические разъёмы DVI или VGA – если присутствуют, то могут быть выведены на минимум или вовсе исключены, поскольку устаревшие интерфейсы менее востребованы.
Кроме физических видеовыходов, в OEM-версиях могут отключаться или урезаться возможности контроллеров, отвечающих за Multi-Stream Transport (MST), что снижает поддержку цепочек из нескольких дисплеев через один порт DisplayPort.
При этом интерфейсы для коммуникации с материнской платой и системой (PCIe) не меняются, но количество линий и версии стандарта PCIe могут варьироваться, что также влияет на общую пропускную способность.
Рекомендуется перед покупкой OEM-варианта видеокарты уточнять у производителя полный перечень доступных видеовыходов и поддерживаемых стандартов, поскольку отключения могут ограничить возможности подключения и совместимость с современными мониторами и VR-устройствами.
Какие блоки Tensor отсутствуют или ограничены в GA104-200

В чипе GA104-200 наблюдается сокращение количества активных Tensor-ядер по сравнению с полной версией GA104-400. Это связано с частичным отключением некоторых SM-блоков, которые содержат Tensor-ядра.
Основные особенности Tensor-блоков в GA104-200:
- Общее количество Tensor-ядер уменьшено примерно на 25%, что снижает вычислительную производительность в задачах, связанных с машинным обучением и ускорением ИИ.
- Некоторые SM-кластеры полностью отключены, соответственно, Tensor-блоки в них также недоступны.
- Снижение количества Tensor-ядер влияет на скорость операций с тензорами, таких как матричные умножения и свёртки, что напрямую отражается на работе DLSS и других технологий NVIDIA, использующих ИИ.
- Отсутствие отдельных Tensor-блоков снижает общую пропускную способность и параллелизм при выполнении специализированных вычислительных задач.
Рекомендации:
- Для приложений и игр, активно использующих Tensor-ядра, предпочтительнее использовать версии GPU с полным набором Tensor-блоков (например, GA104-400).
- При покупке устройств с GA104-200 стоит учитывать снижение производительности в задачах, связанных с ИИ-ускорением.
- Оптимизация программного обеспечения с учётом ограниченного количества Tensor-блоков поможет улучшить эффективность использования доступных ресурсов.
Вопрос-ответ:
Какие именно вычислительные блоки отключены в GA104-200 по сравнению с полной версией GA104?
В версии GA104-200 отключены несколько SM-кластеров (Streaming Multiprocessors), что приводит к уменьшению общего количества CUDA-ядер. Это влияет на параллельную обработку задач и снижает общую вычислительную мощность. Также наблюдаются ограничения в блоках Tensor, которые либо полностью отсутствуют, либо работают в урезанном режиме, что снижает производительность в задачах с использованием тензорных операций.
Как отключение некоторых блоков влияет на производительность графического процессора в играх и приложениях?
Отключение части SM-кластеров и снижение числа активных CUDA-ядер приводит к уменьшению общего количества потоков, способных одновременно выполнять вычисления. Это отражается на скорости рендеринга и общем быстродействии в играх с высоким графическим и вычислительным запросом. Также ограничения в RT-ядрах влияют на производительность трассировки лучей, а урезанные Tensor-блоки снижают эффективность функций DLSS и других технологий, завязанных на машинное обучение.
Какие интерфейсы и видеовыходы могут быть отключены или ограничены в OEM-версиях на базе GA104-200?
В OEM-версиях GA104-200 часто отключают или ограничивают часть видеовыходов, например, некоторые HDMI или DisplayPort-порты, а также уменьшают число поддерживаемых мониторов. Это связано с желанием производителей сократить себестоимость или дифференцировать продуктовую линейку. Однако базовые интерфейсы для подключения к дисплеям остаются доступными для стандартных задач.
Отсутствуют ли в GA104-200 блоки RT (Ray Tracing) и как это сказывается на поддержке технологий трассировки лучей?
В GA104-200 блоки RT не полностью отключены, но их количество снижено по сравнению с полной версией GA104. Это уменьшает общую вычислительную способность при обработке трассировки лучей, что приводит к снижению частоты кадров при активации RT-эффектов в играх и приложениях. В результате поддержка технологий трассировки лучей остается, но на более низком уровне производительности.
Почему в GA104-200 ограничено количество текстурных блоков и как это отражается на качестве изображения?
Количество текстурных блоков в GA104-200 сокращено из-за отключения части SM-кластеров и текстурных юнитов внутри них. Это влияет на скорость выборки и обработки текстур, что может привести к увеличению времени загрузки текстурных данных и снижению частоты кадров в сценариях с интенсивным использованием текстур высокого разрешения. Визуальное качество изображения при этом не снижается, однако наблюдается снижение общей производительности рендеринга.
Какие конкретные вычислительные блоки отключены в чипе GA104-200 по сравнению с полной версией?
В GA104-200 отключено несколько вычислительных блоков, включая часть CUDA-ядер и некоторые Tensor-ядра. В частности, часть SM-кластеров работает в урезанном режиме, что уменьшает общее число активных CUDA-ядер примерно до 7424 из 8192, доступных в полном GA104-400. Также в GA104-200 частично отключены блоки Tensor, что снижает производительность в задачах с интенсивным использованием тензорных операций. Эти изменения обусловлены целевой оптимизацией под определённые сегменты рынка, где требуется баланс производительности и энергопотребления.
Как отключение некоторых ROP-блоков в GA104-200 влияет на графическую производительность чипа?
В GA104-200 часть блоков растровых операций (ROP) отключена, что напрямую сказывается на пропускной способности обработки пикселей и итоговой производительности в рендеринге. Поскольку ROP-блоки отвечают за финальную сборку изображения, их сокращение уменьшает скорость вывода кадров, особенно при высоких разрешениях и сложных сценах. Это может привести к снижению кадровой частоты в играх и приложениях с интенсивным графическим выводом, но в большинстве сценариев пользователь практически не заметит ухудшения благодаря оптимизации остальных частей GPU.
