본문 바로가기

Paper Reading/Memory System

(5)
[Micro '23] K. Kanellopoulos, Victima: Drastically Increasing Address Translation Reachby Leveraging Underutilized Cache Resources 1 Background 1.1 Virtual memory & Page table (PT) Virtual memory designs allow any mapping from a virtual page to a physical page. The OS keeps a PT, which is a per-process data structure that records the virtual-to-physical mapping of the process. The PT is organized as a 4-level radix tree as shown in Figure 1, and the system sequentially accesses each level to find the corresponding phyiscal ..
[Review] G. Vavouliotis, "Page Size Aware Cache Prefetching", Micro 2022 1 Brief Summary 1.1 Motivation Existing cache prefetchers keep track of metadata structures (for example, history table) in units of 4KB pages and stop prefetching if the predicted delta exceeds the 4KB page boundary. This is because going beyond the 4KB boundary doesn't assure physical contiguity. Cache prefetchers typically reside below the L2 hierarchy, where the address translation is alread..
[Review] G. Vavouliotis, Exploiting Page Table Locality for Agile TLB Prefetching, ISCA 2021 1 Brief Summary 1.1 Motivation TLB prefetching has a large room for improving performance. It can ideally achieve more than 1.2x speedup for several workloads. (QMM and BD workloads are the examples) When TLB miss occurs, PTE is obtained with page table walk. In the process of page table walk through the memory hierarchy, granularity of memory operation is 64B which is cache line size whereas a ..
[HPCA '23] Y. Kim, NOMAD: Enabling Non-blocking OS-managedDRAM Cache via Tag-Data Decoupling 1 Introduction On-package DRAM을 캐시로 사용하는데, 이것을 구현하는 방식에는 HW-based, OS-managed의 두 가지 방식이 있다. HW-based는 non-blocking cache로 동작할 수 있기 때문에 여러 개의 miss handling을 동시에 처리할 수 있다는 장점이 있으나, metadata를 추가적으로 접근해야 한다는 한계점이 있다. OS-managed는 address translation mechanism을 활용해 tag를 저장하여 metadata overhead가 없어지지만, blocking으로 인해 miss 시의 penalty가 높다. 이에, 여기서는 non-blocking으로 동작하는 OS-managed DRAM cache design을 제안한다. 이는..
[HPCA '23] J. Stojkovic, Memory-Efficient Hashed Page Tables 1 Introduction 현재 널리 사용되는 radix-tree page table은 메모리를 효율적으로 사용하고 caching 구조에 최적화되어 있지만, scalability가 떨어진다는 한계점이 있다. Tree 계층 구조를 따라 sequential한 메모리 접근을 해야 하므로, memory-level parallelism을 활용할 수 없다. 이에 대한 하나의 대안은 hashed page table (HPT) 이다. VPN을 hashing한 값을 table의 index로 하여 entry를 접근하고, collision이 없는 효율적인 hashing을 사용한다는 전제 하에 이상적으로 1번의 메모리 접근만으로 address translation을 할 수 있다. 그러나 HPT는 크게 4가지의 이유로 인해 그..