powerpc/mm/hash64: Make vmalloc 56T on hash
authorMichael Ellerman <mpe@ellerman.id.au>
Tue, 1 Aug 2017 10:29:24 +0000 (20:29 +1000)
committerMichael Ellerman <mpe@ellerman.id.au>
Tue, 8 Aug 2017 09:37:05 +0000 (19:37 +1000)
On 64-bit book3s, with the hash MMU, we currently define the kernel
virtual space (vmalloc, ioremap etc.), to be 16T in size. This is a
leftover from pre v3.7 when our user VM was also 16T.

Of that 16T we split it 50/50, with half used for PCI IO and ioremap
and the other 8T for vmalloc.

We never bothered to make it any bigger because 8T of vmalloc ought to
be enough for anybody. But it turns out that's not true, the per cpu
allocator wants large amounts of vmalloc space, not to make large
allocations, but to allow a large stride between allocations, because
we use pcpu_embed_first_chunk().

With a bit of juggling we can increase the entire kernel virtual space
to 64T. The only real complication is the check of the address in the
SLB miss handler, see the comment in the code.

Although we could continue to split virtual space 50/50 as we do now,
no one seems to be running out of PCI IO or ioremap space. So instead
keep that as 8T, and use the remaining 56T for vmalloc.

In future we should be able to increase the kernel virtual space to
512T, the code already supports that, it just needs testing on older
hardware.

Signed-off-by: Michael Ellerman <mpe@ellerman.id.au>
Reviewed-by: Aneesh Kumar K.V <aneesh.kumar@linux.vnet.ibm.com>
arch/powerpc/include/asm/book3s/64/hash.h
arch/powerpc/mm/slb_low.S

index d613653ed5b936fc3b57fcee0ea7fc6b730d50db..f88452019114c2d75d78b4b8b05611a7761bb0c1 100644 (file)
@@ -40,7 +40,7 @@
  * Define the address range of the kernel non-linear virtual area
  */
 #define H_KERN_VIRT_START ASM_CONST(0xD000000000000000)
-#define H_KERN_VIRT_SIZE       ASM_CONST(0x0000100000000000)
+#define H_KERN_VIRT_SIZE  ASM_CONST(0x0000400000000000) /* 64T */
 
 /*
  * The vmalloc space starts at the beginning of that region, and
@@ -48,7 +48,7 @@
  * (we keep a quarter for the virtual memmap)
  */
 #define H_VMALLOC_START        H_KERN_VIRT_START
-#define H_VMALLOC_SIZE (H_KERN_VIRT_SIZE >> 1)
+#define H_VMALLOC_SIZE ASM_CONST(0x380000000000) /* 56T */
 #define H_VMALLOC_END  (H_VMALLOC_START + H_VMALLOC_SIZE)
 
 #define H_KERN_IO_START        H_VMALLOC_END
index 2eb1b92a68ff434af0b4f9b5a91a6d589709bd25..906a86fe457bb392b4899b78e76804a745c08558 100644 (file)
@@ -121,9 +121,21 @@ slb_miss_kernel_load_vmemmap:
 1:
 #endif /* CONFIG_SPARSEMEM_VMEMMAP */
 
-       clrldi  r11,r10,48
-       cmpldi  r11,(H_VMALLOC_SIZE >> 28) - 1
-       bgt     5f
+       /*
+        * r10 contains the ESID, which is the original faulting EA shifted
+        * right by 28 bits. We need to compare that with (H_VMALLOC_END >> 28)
+        * which is 0xd00038000. That can't be used as an immediate, even if we
+        * ignored the 0xd, so we have to load it into a register, and we only
+        * have one register free. So we must load all of (H_VMALLOC_END >> 28)
+        * into a register and compare ESID against that.
+        */
+       lis     r11,(H_VMALLOC_END >> 32)@h     // r11 = 0xffffffffd0000000
+       ori     r11,r11,(H_VMALLOC_END >> 32)@l // r11 = 0xffffffffd0003800
+       // Rotate left 4, then mask with 0xffffffff0
+       rldic   r11,r11,4,28                    // r11 = 0xd00038000
+       cmpld   r10,r11                         // if r10 >= r11
+       bge     5f                              //   goto io_mapping
+
        /*
         * vmalloc mapping gets the encoding from the PACA as the mapping
         * can be demoted from 64K -> 4K dynamically on some machines.