На что влияет кэш 3 уровня в процессоре
Перейти к содержимому

На что влияет кэш 3 уровня в процессоре

  • автор:

О важности и влиянии кэш-памяти процессора на его производительность

Кэша много не бывает, оценка влияния кэша на производительность и обзор эволюции роста объема кэш-памяти процессоров с 2000-х годов до наших дней. Raptoreum посвящается.

15 ноября 2021, понедельник 00:01
Xenos_One [ ] для раздела Блоги

реклама

Перед началом основной беседы о важности объема кэш-памяти у процессоров остановлюсь на криптовалюте Raptoreum, которая, собственно, и подтолкнула меня написать этот блог. Кто хочет узнать, что ожидает всех майнеров и геймеров в следующем году, когда появятся видеокарты на рынке, вероятный прогноз развития событий можно найти здесь.

реклама

А теперь о Raptoreum. Важно! Не поддавайтесь на провокации, относительно этой криптовалюты, которая добывается на мощностях кэш-памяти центральных процессоров! Чем больше кэш-память второго и любого последующего уровня (при его наличии), тем быстрее происходят расчёты, результатом которых является условный доход. Так как сейчас на рынке именно у процессоров AMD самый «жирный» кэш, то наличие их на полках магазинов и соответственно рекомендованной стоимости этих процессоров под угрозой со стороны новой криптовалюты. Под удар могут попасть старейшие модели AMD Ryzen и все Threadripper.

А теперь поговорим о кэш-памяти процессора. При решении задач процессор получает из оперативной памяти необходимые блоки информации, обработав их, он записывает в память результаты вычислений и получает для обработки следующие блоки. Этот процесс продолжается, пока задача не будет на 100% выполнена.

Все эти операции производятся на очень высоких скоростях, от десятков гигабайт в секунду у процессоров 20-ти летней давности, до сотен гигабайт в секунду у современных процессоров. Все это время процессор обменивается данными с оперативной памятью, которая работает в разы медленнее самого процессора. Каждое считывание из нее и обратная запись информации в неё отнимают уйму времени.

реклама

Несмотря на такой дисбаланс, процессор не простаивает в ожидании очередной порции данных из оперативной памяти, так как эти данные подгружаются в его кэш-память.

Кэш-память процессора – это небольшая по объему, но супербыстрая оперативная память. Она встроена в процессор и является своеобразным буфером, при обмене CPU данными с медленной оперативной памятью, а в современных реалиях еще и с NVME SSD и видеокартой.

В большинстве процессоров используется многоуровневая система кэша:

реклама

• Кэш-память первого уровня или L1 – самая маленькая, но и самая быстрая область кэш-памяти. Её объем не превышает пару десятков килобайт. Работает L1 без каких-либо задержек. В нем содержатся данные, которые чаще всего используются процессором.

• Кэш-память второго уровня (L2) чуть медленнее кэш-памяти L1, но и объем ее в современных процессорах измеряется уже в мегабайтах. Служит она для временного хранения важных данных, вероятность запроса которых ниже, чем у данных, находящихся в L1 кэше.

• Кэш-память третьего уровня (L3) – еще более объемная и еще более медленная. Но она все равно быстрее любой оперативной памяти, даже новой DDR5. Со скоростями в несколько сотен гигабайт в секунду пока еще приходится считаться. Ее размер в современных процессорах в мейнстрим сегменте достигает нескольких десятков мегабайт, а в серверных AMD Epyc счет пошел уже на сотни мегабайт. В отличие от L1 и L2, кэш третьего уровня является общим для всех ядер процессора.

L3 кэш служит для временного хранения важной информации с относительно низкой вероятностью запроса, а также для обеспечения обменом данными между ядрами процессора.

реклама

А теперь небольшой экскурс в развитие и эволюцию кэш-памяти. Если за отправную точку взять Pentium 1, то кэша L2 у него не было. L1 был объёмом 32 Кб. L2 как правило распаивался на материнской плате. Когда появился Pentium II, то L2 сразу стал равным 512 Кб, но он располагался рядом с ядром процессора на отдельной микросхеме и имел низкую скорость, но все равно это лучше, чем ничего.

Pentium-III с Socket 370 имел уже половину объема от Pentium II – 256 Кб, но зато этот кэш был быстрее, так как он был интегрирован в кристалл процессора. Pentium 4 вначале удвоил этот объём до 512 Кб, так называемый Nothwood, а последовавшее за ним ядро Prescott довел L2 до 1 Мб. Это уже объём дней сегодняшних.

Во времена Pentium 4 случилось еще одно важное событие: у Pentium 4 Extreme Edition впервые появился L3 кэш. До этого момента в десктопах такого явления не было. Объем L3 равнялся «жирным» 2 мегабайтам, что положительно влияло на производительность и цену процессора.

После смены с 478 на 775 контактов без ножек, первые “новые” Pentium с ядрами Prescott-2M и Cedar Mill увеличили L2 до 2-х мегабайт, а L1 так и оставался в пределах 32 Кб.

Микроархитектура Core2 и Core2 Quad значительно увеличили объемы кэшей. Так, объем L2 кэша уже варьировался от 4 до 12 Мб, но эти цифры нужно поделить на два, из особенности организации кэша, так как группы ядер по факту взаимодействовали только с половиной этого объема, но суммарный объем был именно таким.

Микроархитектура Sandy Bridge поделила процессоры на различные линейки в зависимости от объема L2 кэша. В этот момент времени, именно объем кэш-памяти начинает решать главенствующую роль в позиционировании и производительности процессоров.

Так, i5-2500К отличался от i7-2600K только объемом кэша. И надо отметить, речь уже идет о L3 кэше, который начинает появляться уже повсеместно. В первом случае L3 = 6 Мб, во втором 8 Мб. L2 у обеих моделей равнялся 256 Кб на одно ядро, а L1 был равен по-прежнему 32 Кб.

Далее происходит рост L3 у последующих поколений. У i9-9900K он уже равен 16 Мб. Параллельно развивается HEDT линейка процессоров Intel, где L3 уже достигает 24.5 Мб. Но дальнейшее развитие всей процессорной архитектуры меняют процессоры AMD с микроархитектурой ZEN и производные от них. Стартовало первое поколение AMD Ryzen c L2 = 512 Кб и L3 = 8 Мб, а на сегодняшний день топовый Ryzen Gen3 уже обладает 64 Мб L3 кэша. Недавний анонс новых серверных процессоров AMD Epyс вообще увеличил объем L3 до астрономических 768 Мб.

Таким образом, система кэшей процессора позволяет частично уйти от зависимости от низкой производительности оперативной памяти, ведь процесс развития процессоров и скорости их кэшей намного опережает скорость оперативной памяти. Важно отметить и тот факт, что чем больше кэша у процессора, тем выше его производительность.

Поэтому при выборе того или иного процессора, обращайте внимание на объем L3 кэша процессора. Возможно, в будущем, объемы порядка пары гигабайт L3 кэша станут нормой, но а пока следим за стоимостью AMD Ryzen, в зависимости от популярности Raptoreum. Надеюсь, этот блог оказался для вас полезным.

Как работает кэш СPU и что такое кэш L1, L2 и L3? Коротко

Как работает кэш СPU и что такое кэш L1, L2 и L3? Коротко

За последние годы компьютерные процессоры продвинулись довольно далеко вперед. С каждым годом транзисторы становятся все меньше, и прогресс достиг той точки, когда закон Мура становится излишним.

Когда речь идет о процессорах, важны не только транзисторы и частоты, но и кэш-память.

Возможно, вы слышали о кэш-памяти, когда обсуждались центральные процессоры (ЦП). Однако мы не обращаем достаточного внимания на эти цифры кэш-памяти процессора, и они не являются основным акцентом в рекламе процессоров.

Итак, насколько важна кэш-память процессора и как она работает?

Что такое кэш-память процессора?

Проще говоря, кэш-память процессора – это просто очень быстрый тип памяти. На заре развития вычислительной техники скорость процессора и скорость памяти были низкими. Однако в 1980-х годах скорость процессоров начала стремительно расти. Системная память того времени (ОЗУ) не могла справиться с растущими скоростями процессора или соответствовать им, поэтому появился новый тип сверхбыстрой памяти: кэш-память процессора.

Сейчас в компьютере имеется несколько типов памяти.

Как работает кэш СPU и что такое кэш L1, L2 и L3? Коротко

Первичная память, например, жесткий диск или SSD, хранит основную часть данных – операционную систему и программы.

Далее идет память с произвольным доступом, известная как оперативная память. Она намного быстрее, чем первичное хранилище, но является лишь кратковременным носителем информации. Ваш компьютер и его программы используют оперативную память для хранения часто используемых данных, что помогает выполнять действия на компьютере быстро и приятно.

9 терминов, которые необходимо знать при покупке оперативной памяти компьютера
Хотите купить оперативную память? Вот термины и рекомендации, которые вам нужно знать.

Наконец, процессор имеет внутри себя еще более быстрые блоки памяти, известные как кэш-память процессора.

Компьютерная память имеет иерархию, основанную на скорости работы. Кэш-память процессора находится на вершине этой иерархии, являясь самой быстрой. Она также находится ближе всего к месту централизованной обработки данных, являясь частью самого процессора. Согласно Tech Target, «кэш-память работает в 10-100 раз быстрее, чем оперативная память, и требует всего несколько наносекунд для ответа на запрос процессора».

Компьютерная память также бывает разных типов.

Кэш-память является разновидностью статической оперативной памяти (SRAM), в то время как обычная системная оперативная память известна как динамическая оперативная память (DRAM). Статическая оперативная память может хранить данные без необходимости постоянного обновления, в отличие от DRAM, что делает SRAM идеальной кэш-памятью.

Как работает кэш процессора?

Программы и приложения на вашем компьютере созданы в виде набора инструкций, которые процессор интерпретирует и выполняет. Когда вы запускаете программу, инструкции проходят путь от первичного хранилища (жесткого диска) до центрального процессора. Именно здесь вступает в игру иерархия памяти.

Сначала данные загружаются в оперативную память, а затем передаются в центральный процессор. Процессоры способны выполнять гигантское количество инструкций в секунду. Чтобы полностью использовать свою мощность, процессору необходим доступ к сверхбыстрой памяти, и здесь на помощь приходит кэш-память процессора.

Контроллер памяти получает данные из оперативной памяти и отправляет их в кэш процессора. В зависимости от вашего процессора, контроллер находится на процессоре или в чипсете Northbridge на материнской плате.

Затем кэш-память осуществляет обмен данными внутри процессора. Иерархия памяти существует и в кэше процессора.

Уровни кэш-памяти процессора: L1, L2 и L3

Как работает кэш СPU и что такое кэш L1, L2 и L3? Коротко

Кэш-память процессора делится на три «уровня»: L1, L2 и L3. Иерархия памяти зависит от скорости и, соответственно, от размера кэша.

Итак, имеет ли размер кэш-памяти процессора значение для производительности?

Кэш L1

Кэш-память L1 (Level 1) – это самая быстрая память, которая присутствует в компьютерной системе. С точки зрения приоритета доступа, кэш L1 содержит данные, которые с наибольшей вероятностью понадобятся процессору при выполнении определенной задачи.

Размер кэш-памяти L1 зависит от процессора. Некоторые потребительские процессоры высшего класса сейчас имеют кэш L1 объемом 1 МБ, как, например, Intel i9-9980XE, но они стоят огромных денег и все еще мало распространены. Некоторые серверные чипсеты, например, линейка Intel Xeon, также оснащены кэш-памятью L1 объемом 1-2 МБ.

Не существует «стандартного» размера кэш-памяти L1, поэтому перед покупкой необходимо проверить спецификацию процессора, чтобы определить точный размер кэш-памяти L1.

Кэш L1 обычно делится на две секции: кэш инструкций и кэш данных. В кэше инструкций хранится информация об операции, которую должен выполнить процессор, а в кэше данных – данные, над которыми должна быть выполнена операция.

Следует ли обновлять BIOS? Коротко
Разбираемся, следует ли обновить BIOS вашего PC.

Кэш-память L2

Кэш-память L2 (уровень 2) работает медленнее, чем кэш-память L1, но имеет больший размер. Если кэш L1 может измеряться в килобайтах, то современные кэши памяти L2 измеряются в мегабайтах. Например, высоко оцененный Ryzen 5 5600X от AMD имеет 384 КБ кэша L1 и 3 МБ кэша L2 (плюс 32 МБ кэша L3).

Размер кэша L2 варьируется в зависимости от процессора, но обычно его размер составляет от 256 КБ до 32 МБ. Большинство современных процессоров имеют кэш L2 более 256 КБ, и этот размер сейчас считается небольшим. Более того, некоторые из самых мощных современных процессоров имеют больший объем кэш-памяти L2, значительно превышающий 8 МБ. Например,

Как работает кэш СPU и что такое кэш L1, L2 и L3? Коротко

Что касается скорости, кэш-память L2 отстает от кэша L1, но все равно намного быстрее, чем ваша системная оперативная память. Кэш-память L1 обычно в 100 раз быстрее, чем оперативная память, в то время как кэш-память L2 примерно в 25 раз быстрее.

Кэш-память L3

Переходим к кэшу L3 (уровень 3). В ранние времена кэш-память L3 находилась на материнской плате. Это было очень давно, когда большинство CPU были одноядерными процессорами. Сейчас кэш-память L3 в вашем процессоре может быть огромной: в топовых потребительских процессорах кэш-память L3 достигает 32 МБ, а революционные процессоры AMD Ryzen 7 5800X3D оснащены кэшем L3 объемом 96 МБ. В некоторых серверных CPU кэш L3 может превышать этот показатель, достигая 128 МБ.

Кэш-память L3 является самым большим, но и самым медленным блоком кэш-памяти. В современных процессорах кэш-память L3 находится на самом процессоре. Но если кэш-память L1 и L2 существует для каждого ядра на самом чипе, то кэш-память L3 больше похожа на общий пул памяти, которым может пользоваться весь чип.

На следующих изображениях показаны уровни кэш-памяти процессора Intel Core i5-3570K, выпущенного в 2012 году, и процессора AMD Ryzen 5800X, выпущенного восемь лет спустя, в 2020 году. Данные кэш-памяти процессора находятся в правом нижнем углу второго изображения.

Как работает кэш СPU и что такое кэш L1, L2 и L3? КороткоКак работает кэш СPU и что такое кэш L1, L2 и L3? Коротко

Обратите внимание, как кэш L1 разделен на две части, в то время как кэш L2 и L3 больше, соответственно, на обоих процессорах? Однако у AMD Ryzen 5800X кэш L3 более чем в пять раз больше, чем у Intel i5-3570K.

Сколько нужно кэш-памяти процессора?

Это хороший вопрос. Как и следовало ожидать, больше – значит лучше. Новейшие процессоры, естественно, имеют больше кэш-памяти процессора, чем более ранние поколения, а также потенциально более быструю кэш-память. Одно, что вы можете сделать, это научиться эффективно сравнивать процессоры. Существует много информации, и изучение того, как сравнивать и сопоставлять различные процессоры, поможет вам принять правильное решение о покупке.

Дизайн кэш-памяти постоянно развивается, особенно по мере того, как память становится все дешевле, быстрее и плотнее. Например, одними из последних инноваций AMD являются Smart Access Memory и Infinity Cache, обе из которых повышают производительность.

Как данные перемещаются между кэш-памятью процессора?

Главный вопрос: как работает кэш-память процессора?

В самых основных терминах, данные поступают из оперативной памяти в кэш L3, затем в L2 и, наконец, в L1. Когда процессор ищет данные для выполнения операции, он сначала пытается найти их в кэш-памяти L1. Если процессор находит его, это состояние называется попаданием в кэш. Затем он переходит к поиску данных в L2, а затем в L3.

Если процессор не находит данные ни в одном из кэшей памяти, он пытается получить доступ к ним из системной памяти (RAM). Когда такое происходит, это называется пропуском кэша.

Как мы знаем, кэш предназначен для ускорения обмена информацией между оперативной памятью и центральным процессором. Время, необходимое для доступа к данным из памяти, называется «латентностью».

Кэш-память L1 имеет самую низкую латентность, так как является самой быстрой и находится ближе всего к ядру, а L3 – самую высокую. Латентность кэш-памяти увеличивается, когда происходит пропуск кэша, поскольку процессору приходится извлекать данные из системной памяти.

Латентность продолжает уменьшаться по мере того, как компьютеры становятся быстрее и эффективнее. Оперативная память DDR4 и DDR5 с низкой задержкой и сверхбыстрые твердотельные накопители снижают задержку, делая всю вашу систему быстрее, чем когда-либо. При этом скорость системной памяти также важна.

5 лучших недорогих SSD в 2020-2023

Определиться, какой твердотельный накопитель лучше купить – сложная задача. Тем более, когда хочется взять что-нибудь с хорошим соотношением.

Всегда обращайте внимание на кэш-память процессора

Размер и скорость кэш-памяти процессора важны для общей работы компьютера. Как и в большинстве вопросов, связанных с компьютерным оборудованием, лучше больше, да быстрее – всегда разумный выбор.

Однако не стоит позволять кэшу процессора становиться решающим фактором при покупке нового процессора. Конечно, больше и быстрее – это лучше, но необходимо учитывать и другие важные факторы производительности процессора, такие как количество ядер, тактовая частота процессора и так далее.

Зачем процессорам нужен кэш и чем отличаются уровни L1, L2, L3

Во всех центральных процессорах любого компьютера, будь то дешёвый ноутбук или сервер за миллионы долларов, есть устройство под названием «кэш». И с очень большой вероятностью он обладает несколькими уровнями.

Наверно, он важен, иначе зачем бы его устанавливать? Но что же делает кэш, и для чего ему разные уровни? И что означает «12-канальный ассоциативный кэш» (12-way set associative)?

Что такое кэш?

TL;DR: это небольшая, но очень быстрая память, расположенная в непосредственной близости от логических блоков центрального процессора.

Однако мы, разумеется, можем узнать о кэше гораздо больше…

Давайте начнём с воображаемой волшебной системы хранения: она бесконечно быстра, может одновременно обрабатывать бесконечное количество операций передачи данных и всегда обеспечивает надёжное и безопасное хранение данных. Конечно же, ничего подобного и близко не существует, однако если бы это было так, то структура процессора была бы гораздо проще.

Процессорам бы тогда требовались только логические блоки для сложения, умножения и т.п, а также система управления передачей данных, ведь наша теоретическая система хранения способна мгновенно передавать и получать все необходимые числа; ни одному из логических блоков не приходится простаивать в ожидании передачи данных.

Но, как мы знаем, такой волшебной технологии хранения не существует. Вместо неё у нас есть жёсткие диски или твердотельные накопители, и даже самые лучшие из них далеки от возможностей обработки, необходимых для современного процессора.

Великий Т’Фон хранения данных

Причина этого заключается в том, что современные процессоры невероятно быстры — им требуется всего один тактовый цикл для сложения двух 64-битных целочисленных значений; если процессор работает с частотой 4 ГГЦ, то это составляет всего 0,00000000025 секунды, или четверть наносекунды.

В то же время, вращающемуся жёсткому диску требуются тысячи наносекунд только для нахождения данных на дисках, не говоря уже об их передаче, а твердотельным накопителям — десятки или сотни наносекунд.

Очевидно, что такие приводы невозможно встроить внутрь процессоров, поэтому между ними будет присутствовать физическое разделение. Поэтому ещё добавляется время на перемещение данных, что усугубляет ситуацию.

Увы, но это Великий А’Туин хранения данных

Именно поэтому нам нужна ещё одна система хранения данных, расположенная между процессором и основным накопителем. Она должна быть быстрее накопителя, способна одновременно управлять множеством операций передачи данных и находиться намного ближе к процессору.

Ну, у нас уже есть такая система, и она называется ОЗУ (RAM); она присутствует в каждом компьютере и выполняет именно эту задачу.

Почти все такие хранилища имеют тип DRAM (dynamic random access memory); они способны передавать данные гораздо быстрее, чем любой накопитель.

Однако, несмотря на свою огромную скорость, DRAM не способна хранить такие объёмы данных.

Одни из самых крупных чипов памяти DDR4, разработанных Micron, хранят 32 Гбит, или 4 ГБ данных; самые крупные жёсткие диски хранят в 4 000 раз больше.

Итак, хоть мы и повысили скорость нашей сети данных, нам потребуются дополнительные системы (аппаратные и программные), чтобы разобраться, какие данные должны храниться в ограниченном объёме DRAM, готовые к обработке процессором.

DRAM могут изготавливаться в корпусе чипа (это называется встроенной (embedded) DRAM). Однако процессоры довольно малы, поэтому в них не удастся поместить много памяти.

10 МБ DRAM слева от графического процессора Xbox 360. Источник: CPU Grave Yard

Подавляющее большинство DRAM расположено в непосредственной близости от процессора, подключено к материнской плате и всегда является самым близким к процессору компонентом. Тем не менее, эта память всё равно недостаточно быстра…

DRAM требуется примерно 100 наносекунд для нахождения данных, но, по крайней мере, она способна передавать миллиарды битов в секунду. Похоже, нам нужна ещё одна ступень памяти, которую можно разместить между блоками процессора и DRAM.

На сцене появляется оставшаяся ступень: SRAM (static random access memory). DRAM использует микроскопические конденсаторы для хранения данных в виде электрического заряда, а SRAM для той же задачи применяет транзисторы, которые работают с той же скоростью, что и логические блоки процессора (примерно в 10 раз быстрее, чем DRAM).

Разумеется, у SRAM есть недостаток, и он опять-таки связан с пространством.

Память на основе транзисторов занимает гораздо больше места, чем DRAM: в том же размере, что чип DDR4 на 4 ГБ, можно получить меньше 100 МБ SRAM. Но поскольку она производится по тому же технологическому процессу, что и CPU, память SRAM можно встроить прямо внутрь процессора, максимально близко к логическим блокам.

С каждой дополнительной ступенью мы увеличивали скорость перемещаемых данных ценой хранимого объёма. Мы можем продолжить и добавлять новые ступени,, которые будут быстрее, но меньше.

И так мы добрались до более строгого определения понятия кэша: это набор блоков SRAM, расположенных внутри процессора; они обеспечивают максимальную занятость процессора благодаря передаче и сохранению данных с очень высокими скоростями. Вас устраивает такое определение? Отлично, потому что дальше всё будет намного сложнее!

Кэш: многоуровневая парковка

Как мы говорили выше, кэш необходим, потому что у нас нет волшебной системы хранения, способной справиться с потреблением данных логических блоков процессора. Современные центральные и графические процессоры содержат множество блоков SRAM, внутри упорядоченных в иерархию — последовательность кэшей, имеющих следующую структуру:

На приведённом выше изображении процессор (CPU) обозначен прямоугольником с пунктирной границей. Слева расположены ALU (arithmetic logic units, арифметико-логические устройства); это структуры, выполняющие математические операции. Хотя строго говоря, они не являются кэшем, ближайший к ALU уровень памяти — это регистры (они упорядочены в регистровый файл).

Каждый из них хранит одно число, например, 64-битное целое число; само значение может быть элементом каких-нибудь данных, кодом определённой инструкции или адресом памяти каких-то других данных.

Регистровый файл в десктопных процессорах довольно мал, например, в каждом из ядер Intel Core i9-9900K есть по два банка таких файлов, а тот, который предназначен для целых чисел, содержит всего 180 64-битных целых чисел. Другой регистровый файл для векторов (небольших массивов чисел) содержит 168 256-битных элементов. То есть общий регистровый файл каждого ядра чуть меньше 7 КБ. Для сравнения: регистровый файл потоковых мультипроцессоров (так в GPU называются аналоги ядер CPU) Nvidia GeForce RTX 2080 Ti имеет размер 256 КБ.

Регистры, как и кэш, являются SRAM, но их скорость не превышает скорость обслуживаемых ими ALU; они передают данные за один тактовый цикл. Но они не предназначены для хранения больших объёмов данных (только одного элемента), поэтому рядом с ними всегда есть более крупные блоки памяти: это кэш первого уровня (Level 1).

Одно ядро процессора Intel Skylake. Источник: Wikichip

На изображении выше представлен увеличенный снимок одного из ядер десктопного процессора Intel Skylake.

ALU и регистровые файлы расположены слева и обведены зелёной рамкой. В верхней части фотографии белым обозначен кэш данных первого уровня (Level 1 Data cache). Он не содержит много информации, всего 32 КБ, но как и регистры, он расположен очень близко к логическим блокам и работает на одной скорости с ними.

Ещё одним белым прямоугольником справа показан кэш инструкций первого уровня (Level 1 Instruction cache), тоже имеющий размер 32 КБ. Как понятно из названия, в нём хранятся различные команды, готовые к разбиению на более мелкие микрооперации (обычно обозначаемые μops), которые должны выполнять ALU. Для них тоже существует кэш, который можно классифицировать как Level 0, потому что он меньше (содержит всего 1 500 операций) и ближе, чем кэши L1.

Вы можете задаться вопросом: почему эти блоки SRAM настолько малы? Почему они не имеют размер в мегабайт? Вместе кэши данных и инструкций занимают почти такую же площадь на чипе, что основные логические блоки, поэтому их увеличение приведёт к повышению общей площади кристалла.

Но основная причина их размера в несколько килобайт заключается в том, что при увеличении ёмкости памяти повышается время, необходимое для поиска и получения данных. Кэшу L1 нужно быть очень быстрым, поэтому необходимо достичь компромисса между размером и скоростью — в лучшем случае для получения данных из этого кэша требуется около 5 тактовых циклов (для значений с плавающей запятой больше).

Кэш L2 процессора Skylake: 256 КБ SRAM

Но если бы это был единственный кэш внутри процессора, то его производительность наткнулась бы на неожиданное препятствие. Именно поэтому в ядра встраивается еще один уровень памяти: кэш Level 2. Это обобщённый блок хранения, содержащий инструкции и данные.

Он всегда больше, чем Level 1: в процессорах AMD Zen 2 он занимает до 512 КБ, чтобы кэши нижнего уровня обеспечивались достаточным объёмом данных. Однако большой размер требует жертв — для поиска и передачи данных из этого кэша требуется примерно в два раза больше времени по сравнению с Level 1.

Во времена первого Intel Pentium кэш Level 2 был отдельным чипом, или устанавливаемым на отдельной небольшой плате (как ОЗУ DIMM), или встроенным в основную материнскую плату. Постепенно он перебрался в корпус самого процессора, и, наконец, полностью интегрировался в кристалл чипа; это произошло в эпоху таких процессоров, как Pentium III и AMD K6-III.

За этим достижением вскоре последовал ещё один уровень кэша, необходимый для поддержки более низких уровней, и появился он как раз вовремя — в эпоху расцвета многоядерных чипов.

Чип Intel Kaby Lake. Источник: Wikichip

На этом изображении чипа Intel Kaby Lake в левой части показаны четыре ядра (интегрированный GPU занимает почти половину кристалла и находится справа). Каждое ядро имеет свой «личный» набор кэшей Level 1 и 2 (выделены белыми и жёлтым прямоугольниками), но у них также есть и третий комплект блоков SRAM.

Кэш третьего уровня (Level 3), хоть и расположен непосредственно рядом с одним ядром, является полностью общим для всех остальных — каждое ядро свободно может получать доступ к содержимому кэша L3 другого ядра. Он намного больше (от 2 до 32 МБ), но и намного медленнее, в среднем более 30 циклов, особенно когда ядру нужно использовать данные, находящиеся в блоке кэша, расположенного на большом расстоянии.

Ниже показано одно ядро архитектуры AMD Zen 2: кэши Level 1 данных и инструкций по 32 КБ (в белых прямоугольниках), кэш Level 2 на 512 КБ (в жёлтых прямоугольниках) и огромный блок кэша L3 на 4 МБ (в красном прямоугольнике).

Увеличенный снимок одного ядра процессора AMD Zen 2. Источник: Fritzchens Fritz

Но постойте: как 32 КБ могут занимать больше физического пространства чем 512 КБ? Если Level 1 хранит так мало данных, почему он непропорционально велик по сравнению с кэшами L2 и L3?

Не только числа

Кэш повышает производительность, ускоряя передачу данных в логические блоки и храня поблизости копию часто используемых инструкций и данных. Хранящаяся в кэше информация разделена на две части: сами данные и место, где они изначально располагаются в системной памяти/накопителе — такой адрес называется тег кэша (cache tag).

Когда процессор выполняет операцию, которой нужно считать или записать данные из/в память, то он начинает с проверки тегов в кэше Level 1. Если нужные данные там есть (произошло кэш-попадание (cache hit)), то доступ к этим данным выполняется почти сразу же. Промах кэша (cache miss) возникает, если требуемый тег не найден на самом нижнем уровне кэша.

В кэше L1 создаётся новый тег, а за дело берётся остальная часть архитектуры процессора выполняющая поиск в других уровнях кэша (при необходимости вплоть до основного накопителя) данных для этого тега. Но чтобы освободить пространство в кэше L1 под этот новый тег, что-то обязательно нужно перебросить в L2.

Это приводит к почти постоянному перемешиванию данных, выполняемому всего за несколько тактовых циклов. Единственный способ добиться этого — создание сложной структуры вокруг SRAM для обработки управления данными. Иными словами, если бы ядро процессора состояло всего из одного ALU, то кэш L1 был бы гораздо проще, но поскольку их десятки (и многие из них жонглируют двумя потоками инструкций), то для перемещения данных кэшу требуется множество соединений.

Для изучения информации кэша в процессоре вашего компьютера можно использовать бесплатные программы, например CPU-Z. Но что означает вся эта информация? Важным элементом является метка set associative (множественно-ассоциативный) — она указывает на правила, применяемые для копирования блоков данных из системной памяти в кэш.

Представленная выше информация кэша относится к Intel Core i7-9700K. Каждый из его кэшей Level 1 разделён на 64 небольших блока, называемые sets, и каждый из этих блоков ещё разбит на строки кэша (cache lines) (размером 64 байта). «Set associative» означает, что блок данных из системы привязывается к строкам кэша в одном конкретном сете, и не может свободно привязываться к какому-то другому месту.

«8-way» означает, что один блок может быть связан с 8 строками кэша в сете. Чем выше уровень ассоциативности (т.е. чем больше «way»), тем больше шансов на кэш-попадание во время поиска процессором данных и тем меньше потери, вызываемые промахами кэша. Недостатки такой системы заключаются в повышении сложности и энергопотребления, а также понижении производительности, потому что для каждого блока данных нужно обрабатывать больше строк кэша.

Инклюзивный кэш L1+L2, victim cache L3, политики write-back, есть даже ECC. Источник: Fritzchens Fritz

Ещё один аспект сложности кэша связан с тем, как хранятся данные между разными уровнями. Правила задаются в inclusion policy (политике инклюзивности). Например, процессоры Intel Core имеют полностью инклюзивные кэши L1+L3. Это означает, что одни данные в Level 1, например, могут присутствовать в Level 3. Может показаться, что это пустая трата ценного пространства кэша, однако преимущество заключается в том, что если процессор совершает промах при поиске тега в нижнем уровне, ему не потребуется обыскивать верхний уровень для нахождения данных.

В тех же самых процессорах кэш L2 неинклюзивен: все хранящиеся там данные не копируются ни на какой другой уровень. Это экономит место, но приводит к тому, что системе памяти чипа нужно искать ненайденный тег в L3 (который всегда намного больше). Victim caches (кэши-жертвы) имеют похожий принцип, но они используются для хранения информации, переносимой с более низких уровней. Например, процессоры AMD Zen 2 используют victim cache L3, который просто хранит данные из L2.

Существуют и другие политики для кэша, например, при которых данные записываются и в кэш, и основную системную память. Они называются политиками записи (write policies); большинство современных процессоров использует кэши write-back — это означает, что когда данные записываются на уровень кэшей, происходит задержка перед записью их копии в системную память. Чаще всего эта пауза длится в течение того времени, пока данные остаются в кэше — ОЗУ получает эту информацию только при «выталкивании» из кэша.

Графический процессор Nvidia GA100, имеющий 20 МБ кэша L1 и 40 МБ кэша L2

Для проектировщиков процессоров выбор объёма, типа и политики кэшей является вопросом уравновешивания стремления к повышению мощности процессора с увеличением его сложности и занимаемым чипом пространством. Если бы можно было создать 1000-канальные ассоциативные кэши Level 1 на 20 МБ такими, чтобы они при этом не занимали площадь Манхэттена (и не потребляли столько же энергии), то у нас у всех бы были компьютеры с такими чипами!

Самый нижний уровень кэшей в современных процессорах за последнее десятилетие практически не изменился. Однако кэш Level 3 продолжает расти в размерах. Если бы десять лет назад у вас было 999 долларов на Intel i7-980X, то вы могли бы получить кэш размером 12 МБ. Сегодня за половину этой суммы можно приобрести 64 МБ.

Подведём итог: кэш — это абсолютно необходимое и потрясающее устройство. Мы не рассматривали другие типы кэшей в CPU и GPU (например, буферы ассоциативной трансляции или кэши текстур), но поскольку все они имеют такую же простую структуру и расположение уровней, разобраться в них будет несложно.

Был ли у вас компьютер с кэшем L2 на материнской плате? Как насчёт слотовых Pentium II и Celeron (например, 300a) на дочерних платах? Помните свой первый процессор с общим L3?

На правах рекламы

Наша компания предлагает в аренду серверы с процессорами от Intel и AMD. В последнем случае — это эпичные серверы! VDS с AMD EPYC, частота ядра CPU до 3.4 GHz. Максимальная конфигурация — 128 ядер CPU, 512 ГБ RAM, 4000 ГБ NVMe.

Кэш-память процессора: функции, уровни, влияние на производительность

Кэш-память процессора: функции, уровни, влияние на производительность

Производители процессоров любят щеголять большими объемами кэша L3, вот только то, почему этот параметр так важен, ясно далеко не всем пользователям. Если вы хотите разобраться, для чего нужна и как работает кэш-память процессора, что означают уровни L1, L2, L3, и как объем кэша влияет на быстродействие системы, то эта статья для вас.

2021-09-30 2022-04-05 Marvel market Кэш-память процессора: функции, уровни, влияние на производительность

Функция кэш памяти процессора

Известно, что процессор работает с данными, которые доставляются в него из оперативной памяти. Но в их взаимодействии есть одна серьёзная проблема: ОЗУ работает гораздо медленнее, чем CPU, что для последнего означает постоянные простои, в ожидании, пока из оперативной памяти придут нужные данные. Чтобы избежать простоев, в кристалл чипа интегрирована та самая кэш-память, играющая роль буфера между оперативной памятью и процессором. Кэш-память загружает и хранят в себе данные, с которым процессор работает в текущий момент, что избавляет от необходимости ждать эти данные из ОЗУ. Таким образом, кэш память процессора предназначена для того, чтобы сглаживать разницу в скорости работы между процессором и ОЗУ, чтобы вычисления производились как можно быстрее. Помимо выравнивания скорости, кэш еще и перепаковывает данные, чтобы процессору было проще их понимать, рассчитывать и возвращать обратно.

Устройство кэш памяти процессора

Чтобы понять, на что влияет кэш память процессора и как работает, необходимо сперва разобраться, как она устроена, что мы и сделаем. Общем и целом, система процессорного кэша состоит из двух важных составляющих: контроллера, который управляет движением данных, и самой кэш-памятью — где эти данных хранятся. Если говорить образно, то кэш-память — это склад, а контролер — погрузчик, который снует по помещению и подтаскивает поближе к процессору нужные ящики.

Контроллер кэш-памяти

Итак, первая составляющая блока — контроллер по управлению содержания кэша. Он регулярно проверяет, что пришло к процессору из ОЗУ, переварилось, и возвратилось обратно. Контроллеры зачастую установлены внутрь чипов, но еще не так давно находились на северном мосту (до AMD64 и Intel Nehalem соответственно). Когда одно из ядер обращается к контроллеру за информацией, последний проверяет ее наличие в кэше. Если есть — отдает (это называется «кэш-попадание»), если нет — ядро ожидает, пока медленная и неповоротливая улитка (оперативная память) доставит все необходимое. Эта ситуация зовется «кэш-промах». Основная задача контроллера заключается в том, чтобы минимизировать количество промахов, а то и вовсе свести к нулю, и потому он должен загружать кэш-память только важными данными по принципу «всегда под рукой». Другое дело, что для этого контроллер должен уметь «ванговать», т.е. предсказывать события, пользуясь для выбора загружаемых из ОЗУ данных так называемой «интеллектуальной стратегией кэширования», которая основана на анализе уже имеющихся ошибок. Проще говоря, следуя заложенным в него алгоритмам, контроллер рассчитывает, какие данные могут понадобиться процессору и грузит их заранее. Если он «угадал», то ставит себе галочку и запоминает опыт, как удачный. Если не угадал, то бракует такой опыт, и меняет логику выбора данных для предварительной загрузки. Современные контроллеры работают с возможностью глубокого самообучения и аналитики, что сильно снижает количество промахов. Чем дольше устройство работает в системе, тем лучше понимает требования пользователя и тем чаще выдает необходимый результат. Даже процессор понимает, что в случае неудачи его заменят. Точнее, это понимают производители процессоров.

Строение кэш-памяти

Что вообще представляет собой этот модуль? Это отдельная, но размещенная непосредственно на плате ЦПУ микросхема SRAM (Static Random Access Memory) с огромной скоростью работы. Столь высокий показатель объясняется тем, что DRAM (ОЗУ) использует для работы конденсаторы, а SRAM — транзисторы, что и обеспечивает прирост в 10 раз. Но и у SRAM-памяти есть свои особенности, которые ограничивают возможности ее использования. Проблема №1: транзисторная память требует гораздо больше места на кристалле, поэтому много ее не поставить. Если говорить числами, то 100 МБ SRAM = 4 ГБ DRAM в плане габаритов. А подложка процессора, увы, не резиновая. Проблема №2: чем больше объем SRAM, тем ниже скорость и выше задержки. Поэтому производители придумали хитрый способ обхода этой особенности, разделив весь кэш на несколько блоков разного размера, и назвав их «уровни» (Layers).

Уровни кэш памяти процессора

  • L1 — самый быстрый и маленький;
  • L2 — не такой шустрый, но больший в объеме;
  • L3 — самый медленный, но его много.

На схеме четко показан принцип работы с информацией, которая передается от хранилища к оперативной памяти, а от нее к кеш-памяти L3-L2-L1, и так до самого процессора. Процедура обмена данными закольцована.

В самом кристалле ЦП размещены арифметическо-логические устройства (ALU), выполняющие все математические вычисления. А помогают в этом регистры, которые также представляют собой SRAM-память, но технически не относятся к кэшу.

Каждому регистру присвоено одно из 64-битных целых чисел, а в качестве значения может быть фрагмент данных, кусок кода, ссылка на другой регистр и не только. Но поскольку сам регистр не способен хранить в памяти хоть что-то (у него ее попросту нет), на помощь приходит кэш L1.

Кэш память 1 уровня

L1 — память первого уровня. Это крайне скромный по размерам, но очень быстрый вычислительный блок, который постоянно скармливает регистрам важнейшую информацию, не давая им простаивать. В нем скомпилированы данные, к которым ЦП обращается чаще всего. Образный пример — дамская сумочка, без которой девушек напрочь парализует. Или обилие карманов на куртке.

Количество микросхем L1 зачастую привязано к количеству ядер процессора, при этом у каждого ядра кэш свой собственный. Размер блока может варьироваться от 64-256 КБ у десктопов и ноутбуков до 1-2 МБ для серверных решений.

Сам L1 тоже имеет свое разделение. Он делится на кэш команд и кэш данных:

Первый содержит информацию об операции, которой занимается ЦП, проще говоря, отвечает на вопрос: «Что надо сделать»;

Второй хранит в себе данные, над которыми должны производиться вычисления.

Эдакие функция и его переменные, только воплощенные в кремнии.

Кэш память 2 уровня

L2 — память второго уровня. Как уже было сказано, она не такая шустрая, но это компенсируется повышенным объемом. Также привязана к ядру и не взаимодействует с остальными. Однако маркетологи любят писать какие-то заоблачные цифры L2, попросту суммируя показатели. Например, для AMD Ryzen 7 5800X размер кэша заявлен в 512 КБ на ядро, что не так красиво. Но если суммировать все 8 блоков — получим уже интересные 8 МБ. К слову, для AMD EPYC 7763 показатель составляет уже 32 МБ, поскольку ядер уже 64 соответственно.

L2 можно представлять, как личное хранилище для L1: первому не хватает места под определенные, не самые критические задачи, и он сгружает их в кэш второго уровня на расстояние «вытянутой руки».

Кэш память 3 уровня

L3 — память третьего уровня. Самый большой и самый медленный кластер среди «родственников». При этом все еще быстрее ОЗУ и, тем более, SSD-накопителей, даже на базе NVMe.

Этот блок уже доступен для всех ядер процессора, как общественная библиотека. На третьем уровне временно хранятся данные, которые хоть и важны для продуктивной работы, но регистры обращаются за этой информацией относительно нечасто. Зато объем кэш памяти третьего уровня процессора может быть гигантским на фоне L1 и L2. Для Intel Xeon 3 Gen это до 80 МБ, для AMD же — все 256 МБ соответственно.

Наглядное сравнение скорости кэш памяти процессора

Трудно представить себе, насколько это — «быстрее» или «медленнее», когда речь заходит о передаче данных. Но если проводить аналогии с реальной жизнью, то соотношение скоростей для разных уровней памяти и других типов носителей можно представить так:

  • Вообразите, что вы — это ядро процессора, и тогда регистры для вас — как бумажные стикеры, расклеенные по периметру монитора. На них находится информация, которая необходима здесь и сейчас, и чтобы ее прочесть, достаточно поднять взгляд и сфокусироваться на нужном листочке;
  • Кэш L1 — папка на рабочем столе. Физическая, с массой файлов, где лежат документы, отчеты по бухгалтерии и прочие сводки по работе. Открыл, порылся в файлах, нашел нужный, прочитал информацию в 50-й строчке на 20-й странице и принялся за работу.
  • Кэш L2 — алгоритм тот же, но папка лежит не на столе на расстоянии вытянутой руки, а в книжном шкафу в конце кабинета. А значит необходимо подняться с места, дойти до шкафа, найти нужную полку и еще какое-то время потратить на поиск требуемой папки, страницы и строчки.
  • Кэш L3 — архивный отдел. Находится на 5 этаже под охраной злого бухгалтера. При этом вся информация рассортирована по стеллажам, которые практически не подписаны. Более того, один несчастный бухгалтер должен обслуживать 10-20 наседающих сотрудников (других ядер ЦП, которым тоже нужно «вот-прямо-сейчас») и носиться по всему помещению, выдавая документы по самым разным запросам.
  • Оперативная память — городская библиотека в отдаленном районе. Сначала до нее надо доехать, потом разбудить библиотекаря, дождаться, пока он будет блуждать по архиву в течение пары часов. А потом еще вернуться добычей обратно. И не факт, что все требуемое найдется с первого раза по причине банального недосмотра.
  • SSD-накопитель — курьерская доставка из соседней области. При всем желании и развитой логистической цепочке, ждать придется пару суток, а то и больше, если дороги переполнены.
  • HDD-накопитель — Алиэкспресс. Выбор шикарный, всего много, стоит — копейки. Но доставку ожидайте в течение месяца.

В такой интерпретации понимать разницу в памяти гораздо проще.

Само собой, реальная скорость сильно отличается от схематичных обозначений. Например, процессору для сложения пары 64-битных целых чисел требуется всего 1/4 наносекунды (10-9 степень), если он работает на частоте в 4 ГГц (примерно).

А вот HDD с их неповоротливой магнитной головкой приходится тратить миллисекунды (10-3 степень), и это настоящая пропасть. И это только поиск, без доставки в ОЗУ.

Конечно, на фоне всего вышесказанного возникает логичный вопрос, отчего бы не добавить еще уровней, и не сделать кэш такого размера, чтобы на нем хранилась вся информация, которая может понадобиться процессору. Вот только проблема в том, что кэш-память не нарастить в любом объеме, иначе чип попросту не поместится на подложку процессора. А если и поместится, то размером такой процессор будет с многоэтажный дом, а цену его в принципе будет невозможно представить.

Как объем кэш-памяти влияет на производительность

Тут все напрямую зависит от количества ядер и назначения процессора. Перед производителем ЦП стоит задача сделать максимально сбалансированный продукт, отвечающий требованиям пользователей.

Возьмем, к примеру, стандартный домашний или офисный компьютер на 4 ядра с частотой около 3 ГГц. Его сфера использования — таблицы, текстовые редакторы и офисные приложения, мультимедиа, простые игры и развлечения. Нет никакого смысла давать на процессор такой машины кэш L1 более 256 КБ, на L2 — больше 1 МБ, на L3 — 4 МБ (суммарно). Задачу решают оптимизацией кэша, обеспечивая до 90% кэш-попаданий на всех этапах. При этом промахами заканчивается не более 1-2% всех операций. Производитель десктопных устройств понимает простую истину: наращивание показателей не увеличит производительность, но больно отразится на стоимости, поскольку финальная цена такого компьютера окажется слишком высокой.

Совсем другое дело — серверный сегмент, где давно и прочно прописались кристаллы на 16, 32 и 64 ядра. Вот тут объемный кэш необходим (да и площадь кристалла для его размещения больше), ведь модели с маленьким кэшем попросту не сумеют обеспечить серверу нужную скорость вычислений для тысяч задач, которые требуется решать в одну единицу времени.

Вот так и появляются гигантские цифры в 128, и даже 256 МБ кэша L3, характерные, например, для AMD EPYC 2 и 3 поколений. Больше места для быстрого доступа — выше производительность. И не стоит забывать, что в серверном сегменте никто не занимается разгоном ядер для компенсации малого размера кэш-памяти, ведь от этого напрямую зависит тепловыделение процессора, которое также требуется отводить. Никакой пользы не будет от машины, где кристалл моментально нагревается от разгона и требует отвести 400, а то и 500 Вт тепла. На одном охлаждении разоритесь.

Когда нужно больше кэша?

Получит ли рядовой пользователь хоть какой-то прирост для своего домашнего компьютера, если заменит процессор с кэшем 8 МБ на 16 МБ при аналогичных показателях всего остального (ядра, частота, производитель, архитектура)? Нет.

Величина этого параметра, как объем кэша, полностью проявляет себя лишь при расчетах в тяжелых приложениях, будь то сложный рендер 3D-сцены, работа с огромным количеством полигонов, обращение к структурированной базе данных на регулярной основе, терминальная работа и т.д. Сюда же стоит добавить монтаж, стриминг с высоким битрейтом.

Но по большому счету, объемный кэш нужен серверам с высокой нагрузкой и посещаемостью. В качестве костылей производители предлагают для ускорения работы даже отдельные платы с кэш-памятью L4, которые подключаются либо в проприетарные, либо в PCI-E слоты.

Можно ли увеличить размер кэш-памяти процессора?

Как уже было сказано выше, такая возможность существует, но сделать это можно лишь путем установки дополнительных плат расширения. Долго, сложно, дорого и далеко не всегда востребовано. Плюс, об этом надо договариваться с производителем оборудования заранее, чтобы он предоставил необходимую ревизию и прошивку материнской платы.

Более простой вариант увеличения кэша — замена процессора на более мощный. Но при этом от перехода со 2-го на 3-е поколение чипов (Intel/AMD) разница будет лишь в увеличении базовой частоты ядра. Но если сделать скачок, допустим, с 1-го поколения на 3-е — то прирост производительности будет куда ощутимее.

Других способов увеличить кэш-память, увы, не предусмотрено.

Рекомендации по выбору кэша

В целом, рекомендация одна: при выборе учитывайте свои потребности.

Например, в процессорах настольных компьютеров величина кэша практически не играет роли для 90% типовых задач. Львиная доля пользователей выполняет исключительно казуальные задачи вроде серфинга интернета и социальных сетей. И им совершенно не важны уровни L1/L2/L3, как и общее время задержек при обращении от ЦП к ОЗУ и наоборот. Лишь бы работало.

Вторая категория пользователей — профессионалы, для которых ПК представляет собой полноценную рабочую станцию. На этом поле играют уже «промежуточные» процессоры вроде AMD Threadripper и Intel Core X. У них уже все в порядке с количеством ядер и с размером кэш-памяти, где одно дополняет другое, увеличивая суммарную производительность.

И самые требовательные в этом отношении — серверы. Здесь кэш — царь и бог в одном флаконе. Если взять две модели с идентичными характеристиками, например, для построения сети терминалов, то в гонке на выживание выиграет та модель серверного процессора, где значение L3 будет выше при прочих равных. Вот так это и работает.

Если у вас еще остались вопросы, вы всегда можете задать их нашим специалистам, заказав персональную консультацию для подбора параметров оборудования, которая идеально закроет все ваши потребности.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *