Merge branch 'master' of master.kernel.org:/pub/scm/linux/kernel/git/linville/wireles...

[linux-2.6] / arch / x86 / mm / pgtable.c
diff --git a/arch/x86/mm/pgtable.c b/arch/x86/mm/pgtable.c

index d526b46ae1883aa6f13286f6c70b4e964b4da06a..50159764f694e91dc0b9a3884290d52233219953 100644 (file)
--- a/arch/x86/mm/pgtable.c
+++ b/arch/x86/mm/pgtable.c
@@ -1,5 +1,6 @@
  #include <linux/mm.h>
  #include <asm/pgalloc.h>
+#include <asm/pgtable.h>
  #include <asm/tlb.h>
  
  pte_t *pte_alloc_one_kernel(struct mm_struct *mm, unsigned long address)
@@ -21,64 +22,29 @@ pgtable_t pte_alloc_one(struct mm_struct *mm, unsigned long address)
         return pte;
  }
  
-#ifdef CONFIG_X86_64
-static inline void pgd_list_add(pgd_t *pgd)
+void __pte_free_tlb(struct mmu_gather *tlb, struct page *pte)
  {
-       struct page *page = virt_to_page(pgd);
-       unsigned long flags;
-
-       spin_lock_irqsave(&pgd_lock, flags);
-       list_add(&page->lru, &pgd_list);
-       spin_unlock_irqrestore(&pgd_lock, flags);
+       pgtable_page_dtor(pte);
+       paravirt_release_pte(page_to_pfn(pte));
+       tlb_remove_page(tlb, pte);
  }
  
-static inline void pgd_list_del(pgd_t *pgd)
+#if PAGETABLE_LEVELS > 2
+void __pmd_free_tlb(struct mmu_gather *tlb, pmd_t *pmd)
  {
-       struct page *page = virt_to_page(pgd);
-       unsigned long flags;
-
-       spin_lock_irqsave(&pgd_lock, flags);
-       list_del(&page->lru);
-       spin_unlock_irqrestore(&pgd_lock, flags);
+       paravirt_release_pmd(__pa(pmd) >> PAGE_SHIFT);
+       tlb_remove_page(tlb, virt_to_page(pmd));
  }
  
-pgd_t *pgd_alloc(struct mm_struct *mm)
+#if PAGETABLE_LEVELS > 3
+void __pud_free_tlb(struct mmu_gather *tlb, pud_t *pud)
  {
-       unsigned boundary;
-       pgd_t *pgd = (pgd_t *)__get_free_page(GFP_KERNEL|__GFP_REPEAT);
-       if (!pgd)
-               return NULL;
-       pgd_list_add(pgd);
-       /*
-        * Copy kernel pointers in from init.
-        * Could keep a freelist or slab cache of those because the kernel
-        * part never changes.
-        */
-       boundary = pgd_index(__PAGE_OFFSET);
-       memset(pgd, 0, boundary * sizeof(pgd_t));
-       memcpy(pgd + boundary,
-              init_level4_pgt + boundary,
-              (PTRS_PER_PGD - boundary) * sizeof(pgd_t));
-       return pgd;
+       paravirt_release_pud(__pa(pud) >> PAGE_SHIFT);
+       tlb_remove_page(tlb, virt_to_page(pud));
  }
+#endif /* PAGETABLE_LEVELS > 3 */
+#endif /* PAGETABLE_LEVELS > 2 */
  
-void pgd_free(struct mm_struct *mm, pgd_t *pgd)
-{
-       BUG_ON((unsigned long)pgd & (PAGE_SIZE-1));
-       pgd_list_del(pgd);
-       free_page((unsigned long)pgd);
-}
-#else
-/*
- * List of all pgd's needed for non-PAE so it can invalidate entries
- * in both cached and uncached pgd's; not needed for PAE since the
- * kernel pmd is shared. If PAE were not to share the pmd a similar
- * tactic would be needed. This is essentially codepath-based locking
- * against pageattr.c; it is the unique case in which a valid change
- * of kernel pagetables can't be lazily synchronized by vmalloc faults.
- * vmalloc faults work because attached pagetables are never freed.
- * -- wli
- */
  static inline void pgd_list_add(pgd_t *pgd)
  {
         struct page *page = virt_to_page(pgd);
@@ -94,7 +60,7 @@ static inline void pgd_list_del(pgd_t *pgd)
  }
  
  #define UNSHARED_PTRS_PER_PGD                          \
-       (SHARED_KERNEL_PMD ? USER_PTRS_PER_PGD : PTRS_PER_PGD)
+       (SHARED_KERNEL_PMD ? KERNEL_PGD_BOUNDARY : PTRS_PER_PGD)
  
  static void pgd_ctor(void *p)
  {
@@ -102,7 +68,7 @@ static void pgd_ctor(void *p)
         unsigned long flags;
  
         /* Clear usermode parts of PGD */
-       memset(pgd, 0, USER_PTRS_PER_PGD*sizeof(pgd_t));
+       memset(pgd, 0, KERNEL_PGD_BOUNDARY*sizeof(pgd_t));
  
         spin_lock_irqsave(&pgd_lock, flags);
  
@@ -110,14 +76,15 @@ static void pgd_ctor(void *p)
            ptes in non-PAE, or shared PMD in PAE), then just copy the
            references from swapper_pg_dir. */
         if (PAGETABLE_LEVELS == 2 ||
-           (PAGETABLE_LEVELS == 3 && SHARED_KERNEL_PMD)) {
-               clone_pgd_range(pgd + USER_PTRS_PER_PGD,
-                               swapper_pg_dir + USER_PTRS_PER_PGD,
+           (PAGETABLE_LEVELS == 3 && SHARED_KERNEL_PMD) ||
+           PAGETABLE_LEVELS == 4) {
+               clone_pgd_range(pgd + KERNEL_PGD_BOUNDARY,
+                               swapper_pg_dir + KERNEL_PGD_BOUNDARY,
                                 KERNEL_PGD_PTRS);
-               paravirt_alloc_pd_clone(__pa(pgd) >> PAGE_SHIFT,
-                                       __pa(swapper_pg_dir) >> PAGE_SHIFT,
-                                       USER_PTRS_PER_PGD,
-                                       KERNEL_PGD_PTRS);
+               paravirt_alloc_pmd_clone(__pa(pgd) >> PAGE_SHIFT,
+                                        __pa(swapper_pg_dir) >> PAGE_SHIFT,
+                                        KERNEL_PGD_BOUNDARY,
+                                        KERNEL_PGD_PTRS);
         }
  
         /* list required to sync kernel mapping updates */
@@ -139,6 +106,17 @@ static void pgd_dtor(void *pgd)
         spin_unlock_irqrestore(&pgd_lock, flags);
  }
  
+/*
+ * List of all pgd's needed for non-PAE so it can invalidate entries
+ * in both cached and uncached pgd's; not needed for PAE since the
+ * kernel pmd is shared. If PAE were not to share the pmd a similar
+ * tactic would be needed. This is essentially codepath-based locking
+ * against pageattr.c; it is the unique case in which a valid change
+ * of kernel pagetables can't be lazily synchronized by vmalloc faults.
+ * vmalloc faults work because attached pagetables are never freed.
+ * -- wli
+ */
+
  #ifdef CONFIG_X86_PAE
  /*
   * Mop up any pmd pages which may still be attached to the pgd.
@@ -158,7 +136,7 @@ static void pgd_mop_up_pmds(struct mm_struct *mm, pgd_t *pgdp)
  
                         pgdp[i] = native_make_pgd(0);
  
-                       paravirt_release_pd(pgd_val(pgd) >> PAGE_SHIFT);
+                       paravirt_release_pmd(pgd_val(pgd) >> PAGE_SHIFT);
                         pmd_free(mm, pmd);
                 }
         }
@@ -191,7 +169,7 @@ static int pgd_prepopulate_pmd(struct mm_struct *mm, pgd_t *pgd)
                         return 0;
                 }
  
-               if (i >= USER_PTRS_PER_PGD)
+               if (i >= KERNEL_PGD_BOUNDARY)
                         memcpy(pmd, (pmd_t *)pgd_page_vaddr(swapper_pg_dir[i]),
                                sizeof(pmd_t) * PTRS_PER_PMD);
  
@@ -200,6 +178,24 @@ static int pgd_prepopulate_pmd(struct mm_struct *mm, pgd_t *pgd)
  
         return 1;
  }
+
+void pud_populate(struct mm_struct *mm, pud_t *pudp, pmd_t *pmd)
+{
+       paravirt_alloc_pmd(mm, __pa(pmd) >> PAGE_SHIFT);
+
+       /* Note: almost everything apart from _PAGE_PRESENT is
+          reserved at the pmd (PDPT) level. */
+       set_pud(pudp, __pud(__pa(pmd) | _PAGE_PRESENT));
+
+       /*
+        * According to Intel App note "TLBs, Paging-Structure Caches,
+        * and Their Invalidation", April 2007, document 317080-001,
+        * section 8.1: in PAE mode we explicitly have to flush the
+        * TLB via cr3 if the top-level pgd is changed...
+        */
+       if (mm == current->active_mm)
+               write_cr3(read_cr3());
+}
  #else  /* !CONFIG_X86_PAE */
  /* No need to prepopulate any pagetable entries in non-PAE modes. */
  static int pgd_prepopulate_pmd(struct mm_struct *mm, pgd_t *pgd)
@@ -216,7 +212,7 @@ pgd_t *pgd_alloc(struct mm_struct *mm)
  {
         pgd_t *pgd = (pgd_t *)__get_free_page(GFP_KERNEL | __GFP_ZERO);
  
-       /* so that alloc_pd can use it */
+       /* so that alloc_pmd can use it */
         mm->pgd = pgd;
         if (pgd)
                 pgd_ctor(pgd);
@@ -236,4 +232,45 @@ void pgd_free(struct mm_struct *mm, pgd_t *pgd)
         pgd_dtor(pgd);
         free_page((unsigned long)pgd);
  }
-#endif
+
+int ptep_set_access_flags(struct vm_area_struct *vma,
+                         unsigned long address, pte_t *ptep,
+                         pte_t entry, int dirty)
+{
+       int changed = !pte_same(*ptep, entry);
+
+       if (changed && dirty) {
+               *ptep = entry;
+               pte_update_defer(vma->vm_mm, address, ptep);
+               flush_tlb_page(vma, address);
+       }
+
+       return changed;
+}
+
+int ptep_test_and_clear_young(struct vm_area_struct *vma,
+                             unsigned long addr, pte_t *ptep)
+{
+       int ret = 0;
+
+       if (pte_young(*ptep))
+               ret = test_and_clear_bit(_PAGE_BIT_ACCESSED,
+                                        &ptep->pte);
+
+       if (ret)
+               pte_update(vma->vm_mm, addr, ptep);
+
+       return ret;
+}
+
+int ptep_clear_flush_young(struct vm_area_struct *vma,
+                          unsigned long address, pte_t *ptep)
+{
+       int young;
+
+       young = ptep_test_and_clear_young(vma, address, ptep);
+       if (young)
+               flush_tlb_page(vma, address);
+
+       return young;
+}