9d67955bbc317fe321b368cc941e7a689ba86fb4
[sfrench/cifs-2.6.git] / arch / x86_64 / kernel / e820.c
1 /* 
2  * Handle the memory map.
3  * The functions here do the job until bootmem takes over.
4  *
5  *  Getting sanitize_e820_map() in sync with i386 version by applying change:
6  *  -  Provisions for empty E820 memory regions (reported by certain BIOSes).
7  *     Alex Achenbach <xela@slit.de>, December 2002.
8  *  Venkatesh Pallipadi <venkatesh.pallipadi@intel.com>
9  *
10  */
11 #include <linux/kernel.h>
12 #include <linux/types.h>
13 #include <linux/init.h>
14 #include <linux/bootmem.h>
15 #include <linux/ioport.h>
16 #include <linux/string.h>
17 #include <linux/kexec.h>
18 #include <linux/module.h>
19 #include <linux/mm.h>
20
21 #include <asm/pgtable.h>
22 #include <asm/page.h>
23 #include <asm/e820.h>
24 #include <asm/proto.h>
25 #include <asm/bootsetup.h>
26 #include <asm/sections.h>
27
28 struct e820map e820 __initdata;
29
30 /* 
31  * PFN of last memory page.
32  */
33 unsigned long end_pfn; 
34 EXPORT_SYMBOL(end_pfn);
35
36 /* 
37  * end_pfn only includes RAM, while end_pfn_map includes all e820 entries.
38  * The direct mapping extends to end_pfn_map, so that we can directly access
39  * apertures, ACPI and other tables without having to play with fixmaps.
40  */ 
41 unsigned long end_pfn_map; 
42
43 /* 
44  * Last pfn which the user wants to use.
45  */
46 static unsigned long __initdata end_user_pfn = MAXMEM>>PAGE_SHIFT;
47
48 extern struct resource code_resource, data_resource;
49
50 /* Check for some hardcoded bad areas that early boot is not allowed to touch */ 
51 static inline int bad_addr(unsigned long *addrp, unsigned long size)
52
53         unsigned long addr = *addrp, last = addr + size; 
54
55         /* various gunk below that needed for SMP startup */
56         if (addr < 0x8000) { 
57                 *addrp = PAGE_ALIGN(0x8000);
58                 return 1; 
59         }
60
61         /* direct mapping tables of the kernel */
62         if (last >= table_start<<PAGE_SHIFT && addr < table_end<<PAGE_SHIFT) { 
63                 *addrp = PAGE_ALIGN(table_end << PAGE_SHIFT);
64                 return 1;
65         } 
66
67         /* initrd */ 
68 #ifdef CONFIG_BLK_DEV_INITRD
69         if (LOADER_TYPE && INITRD_START && last >= INITRD_START && 
70             addr < INITRD_START+INITRD_SIZE) { 
71                 *addrp = PAGE_ALIGN(INITRD_START + INITRD_SIZE);
72                 return 1;
73         } 
74 #endif
75         /* kernel code */
76         if (last >= __pa_symbol(&_text) && addr < __pa_symbol(&_end)) {
77                 *addrp = PAGE_ALIGN(__pa_symbol(&_end));
78                 return 1;
79         }
80
81         if (last >= ebda_addr && addr < ebda_addr + ebda_size) {
82                 *addrp = PAGE_ALIGN(ebda_addr + ebda_size);
83                 return 1;
84         }
85
86 #ifdef CONFIG_NUMA
87         /* NUMA memory to node map */
88         if (last >= nodemap_addr && addr < nodemap_addr + nodemap_size) {
89                 *addrp = nodemap_addr + nodemap_size;
90                 return 1;
91         }
92 #endif
93         /* XXX ramdisk image here? */ 
94         return 0;
95
96
97 /*
98  * This function checks if any part of the range <start,end> is mapped
99  * with type.
100  */
101 int __meminit
102 e820_any_mapped(unsigned long start, unsigned long end, unsigned type)
103
104         int i;
105         for (i = 0; i < e820.nr_map; i++) { 
106                 struct e820entry *ei = &e820.map[i]; 
107                 if (type && ei->type != type) 
108                         continue;
109                 if (ei->addr >= end || ei->addr + ei->size <= start)
110                         continue; 
111                 return 1; 
112         } 
113         return 0;
114 }
115
116 /*
117  * This function checks if the entire range <start,end> is mapped with type.
118  *
119  * Note: this function only works correct if the e820 table is sorted and
120  * not-overlapping, which is the case
121  */
122 int __init e820_all_mapped(unsigned long start, unsigned long end, unsigned type)
123 {
124         int i;
125         for (i = 0; i < e820.nr_map; i++) {
126                 struct e820entry *ei = &e820.map[i];
127                 if (type && ei->type != type)
128                         continue;
129                 /* is the region (part) in overlap with the current region ?*/
130                 if (ei->addr >= end || ei->addr + ei->size <= start)
131                         continue;
132
133                 /* if the region is at the beginning of <start,end> we move
134                  * start to the end of the region since it's ok until there
135                  */
136                 if (ei->addr <= start)
137                         start = ei->addr + ei->size;
138                 /* if start is now at or beyond end, we're done, full coverage */
139                 if (start >= end)
140                         return 1; /* we're done */
141         }
142         return 0;
143 }
144
145 /* 
146  * Find a free area in a specific range. 
147  */ 
148 unsigned long __init find_e820_area(unsigned long start, unsigned long end, unsigned size) 
149
150         int i; 
151         for (i = 0; i < e820.nr_map; i++) { 
152                 struct e820entry *ei = &e820.map[i]; 
153                 unsigned long addr = ei->addr, last; 
154                 if (ei->type != E820_RAM) 
155                         continue; 
156                 if (addr < start) 
157                         addr = start;
158                 if (addr > ei->addr + ei->size) 
159                         continue; 
160                 while (bad_addr(&addr, size) && addr+size <= ei->addr+ei->size)
161                         ;
162                 last = PAGE_ALIGN(addr) + size;
163                 if (last > ei->addr + ei->size)
164                         continue;
165                 if (last > end) 
166                         continue;
167                 return addr; 
168         } 
169         return -1UL;            
170
171
172 /*
173  * Find the highest page frame number we have available
174  */
175 unsigned long __init e820_end_of_ram(void)
176 {
177         unsigned long end_pfn = 0;
178         end_pfn = find_max_pfn_with_active_regions();
179         
180         if (end_pfn > end_pfn_map) 
181                 end_pfn_map = end_pfn;
182         if (end_pfn_map > MAXMEM>>PAGE_SHIFT)
183                 end_pfn_map = MAXMEM>>PAGE_SHIFT;
184         if (end_pfn > end_user_pfn)
185                 end_pfn = end_user_pfn;
186         if (end_pfn > end_pfn_map) 
187                 end_pfn = end_pfn_map; 
188
189         printk("end_pfn_map = %lu\n", end_pfn_map);
190         return end_pfn; 
191 }
192
193 /*
194  * Mark e820 reserved areas as busy for the resource manager.
195  */
196 void __init e820_reserve_resources(void)
197 {
198         int i;
199         for (i = 0; i < e820.nr_map; i++) {
200                 struct resource *res;
201                 res = alloc_bootmem_low(sizeof(struct resource));
202                 switch (e820.map[i].type) {
203                 case E820_RAM:  res->name = "System RAM"; break;
204                 case E820_ACPI: res->name = "ACPI Tables"; break;
205                 case E820_NVS:  res->name = "ACPI Non-volatile Storage"; break;
206                 default:        res->name = "reserved";
207                 }
208                 res->start = e820.map[i].addr;
209                 res->end = res->start + e820.map[i].size - 1;
210                 res->flags = IORESOURCE_MEM | IORESOURCE_BUSY;
211                 request_resource(&iomem_resource, res);
212                 if (e820.map[i].type == E820_RAM) {
213                         /*
214                          *  We don't know which RAM region contains kernel data,
215                          *  so we try it repeatedly and let the resource manager
216                          *  test it.
217                          */
218                         request_resource(res, &code_resource);
219                         request_resource(res, &data_resource);
220 #ifdef CONFIG_KEXEC
221                         request_resource(res, &crashk_res);
222 #endif
223                 }
224         }
225 }
226
227 /* Mark pages corresponding to given address range as nosave */
228 static void __init
229 e820_mark_nosave_range(unsigned long start, unsigned long end)
230 {
231         unsigned long pfn, max_pfn;
232
233         if (start >= end)
234                 return;
235
236         printk("Nosave address range: %016lx - %016lx\n", start, end);
237         max_pfn = end >> PAGE_SHIFT;
238         for (pfn = start >> PAGE_SHIFT; pfn < max_pfn; pfn++)
239                 if (pfn_valid(pfn))
240                         SetPageNosave(pfn_to_page(pfn));
241 }
242
243 /*
244  * Find the ranges of physical addresses that do not correspond to
245  * e820 RAM areas and mark the corresponding pages as nosave for software
246  * suspend and suspend to RAM.
247  *
248  * This function requires the e820 map to be sorted and without any
249  * overlapping entries and assumes the first e820 area to be RAM.
250  */
251 void __init e820_mark_nosave_regions(void)
252 {
253         int i;
254         unsigned long paddr;
255
256         paddr = round_down(e820.map[0].addr + e820.map[0].size, PAGE_SIZE);
257         for (i = 1; i < e820.nr_map; i++) {
258                 struct e820entry *ei = &e820.map[i];
259
260                 if (paddr < ei->addr)
261                         e820_mark_nosave_range(paddr,
262                                         round_up(ei->addr, PAGE_SIZE));
263
264                 paddr = round_down(ei->addr + ei->size, PAGE_SIZE);
265                 if (ei->type != E820_RAM)
266                         e820_mark_nosave_range(round_up(ei->addr, PAGE_SIZE),
267                                         paddr);
268
269                 if (paddr >= (end_pfn << PAGE_SHIFT))
270                         break;
271         }
272 }
273
274 /* Walk the e820 map and register active regions within a node */
275 void __init
276 e820_register_active_regions(int nid, unsigned long start_pfn,
277                                                         unsigned long end_pfn)
278 {
279         int i;
280         unsigned long ei_startpfn, ei_endpfn;
281         for (i = 0; i < e820.nr_map; i++) {
282                 struct e820entry *ei = &e820.map[i];
283                 ei_startpfn = round_up(ei->addr, PAGE_SIZE) >> PAGE_SHIFT;
284                 ei_endpfn = round_down(ei->addr + ei->size, PAGE_SIZE)
285                                                                 >> PAGE_SHIFT;
286
287                 /* Skip map entries smaller than a page */
288                 if (ei_startpfn >= ei_endpfn)
289                         continue;
290
291                 /* Check if end_pfn_map should be updated */
292                 if (ei->type != E820_RAM && ei_endpfn > end_pfn_map)
293                         end_pfn_map = ei_endpfn;
294
295                 /* Skip if map is outside the node */
296                 if (ei->type != E820_RAM ||
297                                 ei_endpfn <= start_pfn ||
298                                 ei_startpfn >= end_pfn)
299                         continue;
300
301                 /* Check for overlaps */
302                 if (ei_startpfn < start_pfn)
303                         ei_startpfn = start_pfn;
304                 if (ei_endpfn > end_pfn)
305                         ei_endpfn = end_pfn;
306
307                 /* Obey end_user_pfn to save on memmap */
308                 if (ei_startpfn >= end_user_pfn)
309                         continue;
310                 if (ei_endpfn > end_user_pfn)
311                         ei_endpfn = end_user_pfn;
312
313                 add_active_range(nid, ei_startpfn, ei_endpfn);
314         }
315 }
316
317 /* 
318  * Add a memory region to the kernel e820 map.
319  */ 
320 void __init add_memory_region(unsigned long start, unsigned long size, int type)
321 {
322         int x = e820.nr_map;
323
324         if (x == E820MAX) {
325                 printk(KERN_ERR "Ooops! Too many entries in the memory map!\n");
326                 return;
327         }
328
329         e820.map[x].addr = start;
330         e820.map[x].size = size;
331         e820.map[x].type = type;
332         e820.nr_map++;
333 }
334
335 void __init e820_print_map(char *who)
336 {
337         int i;
338
339         for (i = 0; i < e820.nr_map; i++) {
340                 printk(" %s: %016Lx - %016Lx ", who,
341                         (unsigned long long) e820.map[i].addr,
342                         (unsigned long long) (e820.map[i].addr + e820.map[i].size));
343                 switch (e820.map[i].type) {
344                 case E820_RAM:  printk("(usable)\n");
345                                 break;
346                 case E820_RESERVED:
347                                 printk("(reserved)\n");
348                                 break;
349                 case E820_ACPI:
350                                 printk("(ACPI data)\n");
351                                 break;
352                 case E820_NVS:
353                                 printk("(ACPI NVS)\n");
354                                 break;
355                 default:        printk("type %u\n", e820.map[i].type);
356                                 break;
357                 }
358         }
359 }
360
361 /*
362  * Sanitize the BIOS e820 map.
363  *
364  * Some e820 responses include overlapping entries.  The following 
365  * replaces the original e820 map with a new one, removing overlaps.
366  *
367  */
368 static int __init sanitize_e820_map(struct e820entry * biosmap, char * pnr_map)
369 {
370         struct change_member {
371                 struct e820entry *pbios; /* pointer to original bios entry */
372                 unsigned long long addr; /* address for this change point */
373         };
374         static struct change_member change_point_list[2*E820MAX] __initdata;
375         static struct change_member *change_point[2*E820MAX] __initdata;
376         static struct e820entry *overlap_list[E820MAX] __initdata;
377         static struct e820entry new_bios[E820MAX] __initdata;
378         struct change_member *change_tmp;
379         unsigned long current_type, last_type;
380         unsigned long long last_addr;
381         int chgidx, still_changing;
382         int overlap_entries;
383         int new_bios_entry;
384         int old_nr, new_nr, chg_nr;
385         int i;
386
387         /*
388                 Visually we're performing the following (1,2,3,4 = memory types)...
389
390                 Sample memory map (w/overlaps):
391                    ____22__________________
392                    ______________________4_
393                    ____1111________________
394                    _44_____________________
395                    11111111________________
396                    ____________________33__
397                    ___________44___________
398                    __________33333_________
399                    ______________22________
400                    ___________________2222_
401                    _________111111111______
402                    _____________________11_
403                    _________________4______
404
405                 Sanitized equivalent (no overlap):
406                    1_______________________
407                    _44_____________________
408                    ___1____________________
409                    ____22__________________
410                    ______11________________
411                    _________1______________
412                    __________3_____________
413                    ___________44___________
414                    _____________33_________
415                    _______________2________
416                    ________________1_______
417                    _________________4______
418                    ___________________2____
419                    ____________________33__
420                    ______________________4_
421         */
422
423         /* if there's only one memory region, don't bother */
424         if (*pnr_map < 2)
425                 return -1;
426
427         old_nr = *pnr_map;
428
429         /* bail out if we find any unreasonable addresses in bios map */
430         for (i=0; i<old_nr; i++)
431                 if (biosmap[i].addr + biosmap[i].size < biosmap[i].addr)
432                         return -1;
433
434         /* create pointers for initial change-point information (for sorting) */
435         for (i=0; i < 2*old_nr; i++)
436                 change_point[i] = &change_point_list[i];
437
438         /* record all known change-points (starting and ending addresses),
439            omitting those that are for empty memory regions */
440         chgidx = 0;
441         for (i=0; i < old_nr; i++)      {
442                 if (biosmap[i].size != 0) {
443                         change_point[chgidx]->addr = biosmap[i].addr;
444                         change_point[chgidx++]->pbios = &biosmap[i];
445                         change_point[chgidx]->addr = biosmap[i].addr + biosmap[i].size;
446                         change_point[chgidx++]->pbios = &biosmap[i];
447                 }
448         }
449         chg_nr = chgidx;
450
451         /* sort change-point list by memory addresses (low -> high) */
452         still_changing = 1;
453         while (still_changing)  {
454                 still_changing = 0;
455                 for (i=1; i < chg_nr; i++)  {
456                         /* if <current_addr> > <last_addr>, swap */
457                         /* or, if current=<start_addr> & last=<end_addr>, swap */
458                         if ((change_point[i]->addr < change_point[i-1]->addr) ||
459                                 ((change_point[i]->addr == change_point[i-1]->addr) &&
460                                  (change_point[i]->addr == change_point[i]->pbios->addr) &&
461                                  (change_point[i-1]->addr != change_point[i-1]->pbios->addr))
462                            )
463                         {
464                                 change_tmp = change_point[i];
465                                 change_point[i] = change_point[i-1];
466                                 change_point[i-1] = change_tmp;
467                                 still_changing=1;
468                         }
469                 }
470         }
471
472         /* create a new bios memory map, removing overlaps */
473         overlap_entries=0;       /* number of entries in the overlap table */
474         new_bios_entry=0;        /* index for creating new bios map entries */
475         last_type = 0;           /* start with undefined memory type */
476         last_addr = 0;           /* start with 0 as last starting address */
477         /* loop through change-points, determining affect on the new bios map */
478         for (chgidx=0; chgidx < chg_nr; chgidx++)
479         {
480                 /* keep track of all overlapping bios entries */
481                 if (change_point[chgidx]->addr == change_point[chgidx]->pbios->addr)
482                 {
483                         /* add map entry to overlap list (> 1 entry implies an overlap) */
484                         overlap_list[overlap_entries++]=change_point[chgidx]->pbios;
485                 }
486                 else
487                 {
488                         /* remove entry from list (order independent, so swap with last) */
489                         for (i=0; i<overlap_entries; i++)
490                         {
491                                 if (overlap_list[i] == change_point[chgidx]->pbios)
492                                         overlap_list[i] = overlap_list[overlap_entries-1];
493                         }
494                         overlap_entries--;
495                 }
496                 /* if there are overlapping entries, decide which "type" to use */
497                 /* (larger value takes precedence -- 1=usable, 2,3,4,4+=unusable) */
498                 current_type = 0;
499                 for (i=0; i<overlap_entries; i++)
500                         if (overlap_list[i]->type > current_type)
501                                 current_type = overlap_list[i]->type;
502                 /* continue building up new bios map based on this information */
503                 if (current_type != last_type)  {
504                         if (last_type != 0)      {
505                                 new_bios[new_bios_entry].size =
506                                         change_point[chgidx]->addr - last_addr;
507                                 /* move forward only if the new size was non-zero */
508                                 if (new_bios[new_bios_entry].size != 0)
509                                         if (++new_bios_entry >= E820MAX)
510                                                 break;  /* no more space left for new bios entries */
511                         }
512                         if (current_type != 0)  {
513                                 new_bios[new_bios_entry].addr = change_point[chgidx]->addr;
514                                 new_bios[new_bios_entry].type = current_type;
515                                 last_addr=change_point[chgidx]->addr;
516                         }
517                         last_type = current_type;
518                 }
519         }
520         new_nr = new_bios_entry;   /* retain count for new bios entries */
521
522         /* copy new bios mapping into original location */
523         memcpy(biosmap, new_bios, new_nr*sizeof(struct e820entry));
524         *pnr_map = new_nr;
525
526         return 0;
527 }
528
529 /*
530  * Copy the BIOS e820 map into a safe place.
531  *
532  * Sanity-check it while we're at it..
533  *
534  * If we're lucky and live on a modern system, the setup code
535  * will have given us a memory map that we can use to properly
536  * set up memory.  If we aren't, we'll fake a memory map.
537  */
538 static int __init copy_e820_map(struct e820entry * biosmap, int nr_map)
539 {
540         /* Only one memory region (or negative)? Ignore it */
541         if (nr_map < 2)
542                 return -1;
543
544         do {
545                 unsigned long start = biosmap->addr;
546                 unsigned long size = biosmap->size;
547                 unsigned long end = start + size;
548                 unsigned long type = biosmap->type;
549
550                 /* Overflow in 64 bits? Ignore the memory map. */
551                 if (start > end)
552                         return -1;
553
554                 add_memory_region(start, size, type);
555         } while (biosmap++,--nr_map);
556         return 0;
557 }
558
559 void early_panic(char *msg)
560 {
561         early_printk(msg);
562         panic(msg);
563 }
564
565 void __init setup_memory_region(void)
566 {
567         /*
568          * Try to copy the BIOS-supplied E820-map.
569          *
570          * Otherwise fake a memory map; one section from 0k->640k,
571          * the next section from 1mb->appropriate_mem_k
572          */
573         sanitize_e820_map(E820_MAP, &E820_MAP_NR);
574         if (copy_e820_map(E820_MAP, E820_MAP_NR) < 0)
575                 early_panic("Cannot find a valid memory map");
576         printk(KERN_INFO "BIOS-provided physical RAM map:\n");
577         e820_print_map("BIOS-e820");
578 }
579
580 static int __init parse_memopt(char *p)
581 {
582         if (!p)
583                 return -EINVAL;
584         end_user_pfn = memparse(p, &p);
585         end_user_pfn >>= PAGE_SHIFT;    
586         return 0;
587
588 early_param("mem", parse_memopt);
589
590 static int userdef __initdata;
591
592 static int __init parse_memmap_opt(char *p)
593 {
594         char *oldp;
595         unsigned long long start_at, mem_size;
596
597         if (!strcmp(p, "exactmap")) {
598 #ifdef CONFIG_CRASH_DUMP
599                 /* If we are doing a crash dump, we
600                  * still need to know the real mem
601                  * size before original memory map is
602                  * reset.
603                  */
604                 e820_register_active_regions(0, 0, -1UL);
605                 saved_max_pfn = e820_end_of_ram();
606                 remove_all_active_ranges();
607 #endif
608                 end_pfn_map = 0;
609                 e820.nr_map = 0;
610                 userdef = 1;
611                 return 0;
612         }
613
614         oldp = p;
615         mem_size = memparse(p, &p);
616         if (p == oldp)
617                 return -EINVAL;
618         if (*p == '@') {
619                 start_at = memparse(p+1, &p);
620                 add_memory_region(start_at, mem_size, E820_RAM);
621         } else if (*p == '#') {
622                 start_at = memparse(p+1, &p);
623                 add_memory_region(start_at, mem_size, E820_ACPI);
624         } else if (*p == '$') {
625                 start_at = memparse(p+1, &p);
626                 add_memory_region(start_at, mem_size, E820_RESERVED);
627         } else {
628                 end_user_pfn = (mem_size >> PAGE_SHIFT);
629         }
630         return *p == '\0' ? 0 : -EINVAL;
631 }
632 early_param("memmap", parse_memmap_opt);
633
634 void finish_e820_parsing(void)
635 {
636         if (userdef) {
637                 printk(KERN_INFO "user-defined physical RAM map:\n");
638                 e820_print_map("user");
639         }
640 }
641
642 unsigned long pci_mem_start = 0xaeedbabe;
643 EXPORT_SYMBOL(pci_mem_start);
644
645 /*
646  * Search for the biggest gap in the low 32 bits of the e820
647  * memory space.  We pass this space to PCI to assign MMIO resources
648  * for hotplug or unconfigured devices in.
649  * Hopefully the BIOS let enough space left.
650  */
651 __init void e820_setup_gap(void)
652 {
653         unsigned long gapstart, gapsize, round;
654         unsigned long last;
655         int i;
656         int found = 0;
657
658         last = 0x100000000ull;
659         gapstart = 0x10000000;
660         gapsize = 0x400000;
661         i = e820.nr_map;
662         while (--i >= 0) {
663                 unsigned long long start = e820.map[i].addr;
664                 unsigned long long end = start + e820.map[i].size;
665
666                 /*
667                  * Since "last" is at most 4GB, we know we'll
668                  * fit in 32 bits if this condition is true
669                  */
670                 if (last > end) {
671                         unsigned long gap = last - end;
672
673                         if (gap > gapsize) {
674                                 gapsize = gap;
675                                 gapstart = end;
676                                 found = 1;
677                         }
678                 }
679                 if (start < last)
680                         last = start;
681         }
682
683         if (!found) {
684                 gapstart = (end_pfn << PAGE_SHIFT) + 1024*1024;
685                 printk(KERN_ERR "PCI: Warning: Cannot find a gap in the 32bit address range\n"
686                        KERN_ERR "PCI: Unassigned devices with 32bit resource registers may break!\n");
687         }
688
689         /*
690          * See how much we want to round up: start off with
691          * rounding to the next 1MB area.
692          */
693         round = 0x100000;
694         while ((gapsize >> 4) > round)
695                 round += round;
696         /* Fun with two's complement */
697         pci_mem_start = (gapstart + round) & -round;
698
699         printk(KERN_INFO "Allocating PCI resources starting at %lx (gap: %lx:%lx)\n",
700                 pci_mem_start, gapstart, gapsize);
701 }