Merge git://git.kernel.org/pub/scm/linux/kernel/git/mingo/linux-2.6-sched
[sfrench/cifs-2.6.git] / block / cfq-iosched.c
index 6a6a5f7930d84ac6f7909131d8de499600a15cf4..e0aa4dad67424ae45bfa93150f14c1856f75140e 100644 (file)
@@ -9,7 +9,6 @@
 #include <linux/module.h>
 #include <linux/blkdev.h>
 #include <linux/elevator.h>
-#include <linux/hash.h>
 #include <linux/rbtree.h>
 #include <linux/ioprio.h>
 
@@ -38,17 +37,6 @@ static int cfq_slice_idle = HZ / 125;
 
 #define CFQ_SLICE_SCALE                (5)
 
-#define CFQ_KEY_ASYNC          (0)
-
-/*
- * for the hash of cfqq inside the cfqd
- */
-#define CFQ_QHASH_SHIFT                6
-#define CFQ_QHASH_ENTRIES      (1 << CFQ_QHASH_SHIFT)
-#define list_entry_qhash(entry)        hlist_entry((entry), struct cfq_queue, cfq_hash)
-
-#define list_entry_cfqq(ptr)   list_entry((ptr), struct cfq_queue, cfq_list)
-
 #define RQ_CIC(rq)             ((struct cfq_io_context*)(rq)->elevator_private)
 #define RQ_CFQQ(rq)            ((rq)->elevator_private2)
 
@@ -65,8 +53,6 @@ static struct completion *ioc_gone;
 #define ASYNC                  (0)
 #define SYNC                   (1)
 
-#define cfq_cfqq_sync(cfqq)    ((cfqq)->key != CFQ_KEY_ASYNC)
-
 #define sample_valid(samples)  ((samples) > 80)
 
 /*
@@ -91,15 +77,10 @@ struct cfq_data {
         * rr list of queues with requests and the count of them
         */
        struct cfq_rb_root service_tree;
-       struct list_head cur_rr;
        unsigned int busy_queues;
 
-       /*
-        * cfqq lookup hash
-        */
-       struct hlist_head *cfq_hash;
-
        int rq_in_driver;
+       int sync_flight;
        int hw_tag;
 
        /*
@@ -110,7 +91,8 @@ struct cfq_data {
 
        struct cfq_queue *active_queue;
        struct cfq_io_context *active_cic;
-       unsigned int dispatch_slice;
+
+       struct cfq_queue *async_cfqq[IOPRIO_BE_NR];
 
        struct timer_list idle_class_timer;
 
@@ -142,12 +124,6 @@ struct cfq_queue {
        atomic_t ref;
        /* parent cfq_data */
        struct cfq_data *cfqd;
-       /* cfqq lookup hash */
-       struct hlist_node cfq_hash;
-       /* hash key */
-       unsigned int key;
-       /* member of the rr/busy/cur/idle cfqd list */
-       struct list_head cfq_list;
        /* service_tree member */
        struct rb_node rb_node;
        /* service_tree key */
@@ -192,6 +168,7 @@ enum cfqq_state_flags {
        CFQ_CFQQ_FLAG_prio_changed,     /* task priority has changed */
        CFQ_CFQQ_FLAG_queue_new,        /* queue never been serviced */
        CFQ_CFQQ_FLAG_slice_new,        /* no requests dispatched in slice */
+       CFQ_CFQQ_FLAG_sync,             /* synchronous queue */
 };
 
 #define CFQ_CFQQ_FNS(name)                                             \
@@ -218,11 +195,38 @@ CFQ_CFQQ_FNS(idle_window);
 CFQ_CFQQ_FNS(prio_changed);
 CFQ_CFQQ_FNS(queue_new);
 CFQ_CFQQ_FNS(slice_new);
+CFQ_CFQQ_FNS(sync);
 #undef CFQ_CFQQ_FNS
 
-static struct cfq_queue *cfq_find_cfq_hash(struct cfq_data *, unsigned int, unsigned short);
 static void cfq_dispatch_insert(request_queue_t *, struct request *);
-static struct cfq_queue *cfq_get_queue(struct cfq_data *cfqd, unsigned int key, struct task_struct *tsk, gfp_t gfp_mask);
+static struct cfq_queue *cfq_get_queue(struct cfq_data *, int,
+                                      struct task_struct *, gfp_t);
+static struct cfq_io_context *cfq_cic_rb_lookup(struct cfq_data *,
+                                               struct io_context *);
+
+static inline struct cfq_queue *cic_to_cfqq(struct cfq_io_context *cic,
+                                           int is_sync)
+{
+       return cic->cfqq[!!is_sync];
+}
+
+static inline void cic_set_cfqq(struct cfq_io_context *cic,
+                               struct cfq_queue *cfqq, int is_sync)
+{
+       cic->cfqq[!!is_sync] = cfqq;
+}
+
+/*
+ * We regard a request as SYNC, if it's either a read or has the SYNC bit
+ * set (in which case it could also be direct WRITE).
+ */
+static inline int cfq_bio_sync(struct bio *bio)
+{
+       if (bio_data_dir(bio) == READ || bio_sync(bio))
+               return 1;
+
+       return 0;
+}
 
 /*
  * scheduler run of queue, if there are requests pending and no one in the
@@ -241,17 +245,6 @@ static int cfq_queue_empty(request_queue_t *q)
        return !cfqd->busy_queues;
 }
 
-static inline pid_t cfq_queue_pid(struct task_struct *task, int rw, int is_sync)
-{
-       /*
-        * Use the per-process queue, for read requests and syncronous writes
-        */
-       if (!(rw & REQ_RW) || is_sync)
-               return task->pid;
-
-       return CFQ_KEY_ASYNC;
-}
-
 /*
  * Scale schedule slice based on io priority. Use the sync time slice only
  * if a queue is marked sync and has sync io queued. A sync queue with async
@@ -389,6 +382,9 @@ cfq_choose_req(struct cfq_data *cfqd, struct request *rq1, struct request *rq2)
        }
 }
 
+/*
+ * The below is leftmost cache rbtree addon
+ */
 static struct rb_node *cfq_rb_first(struct cfq_rb_root *root)
 {
        if (!root->left)
@@ -439,20 +435,29 @@ static unsigned long cfq_slice_offset(struct cfq_data *cfqd,
        /*
         * just an approximation, should be ok.
         */
-       return ((cfqd->busy_queues - 1) * cfq_prio_slice(cfqd, 1, 0));
+       return (cfqd->busy_queues - 1) * (cfq_prio_slice(cfqd, 1, 0) -
+                      cfq_prio_slice(cfqd, cfq_cfqq_sync(cfqq), cfqq->ioprio));
 }
 
+/*
+ * The cfqd->service_tree holds all pending cfq_queue's that have
+ * requests waiting to be processed. It is sorted in the order that
+ * we will service the queues.
+ */
 static void cfq_service_tree_add(struct cfq_data *cfqd,
-                                   struct cfq_queue *cfqq)
+                                   struct cfq_queue *cfqq, int add_front)
 {
        struct rb_node **p = &cfqd->service_tree.rb.rb_node;
        struct rb_node *parent = NULL;
        unsigned long rb_key;
-       int left = 1;
+       int left;
 
-       rb_key = cfq_slice_offset(cfqd, cfqq) + jiffies;
-       rb_key += cfqq->slice_resid;
-       cfqq->slice_resid = 0;
+       if (!add_front) {
+               rb_key = cfq_slice_offset(cfqd, cfqq) + jiffies;
+               rb_key += cfqq->slice_resid;
+               cfqq->slice_resid = 0;
+       } else
+               rb_key = 0;
 
        if (!RB_EMPTY_NODE(&cfqq->rb_node)) {
                /*
@@ -464,6 +469,7 @@ static void cfq_service_tree_add(struct cfq_data *cfqd,
                cfq_rb_erase(&cfqq->rb_node, &cfqd->service_tree);
        }
 
+       left = 1;
        while (*p) {
                struct cfq_queue *__cfqq;
                struct rb_node **n;
@@ -503,17 +509,16 @@ static void cfq_service_tree_add(struct cfq_data *cfqd,
        rb_insert_color(&cfqq->rb_node, &cfqd->service_tree.rb);
 }
 
-static void cfq_resort_rr_list(struct cfq_queue *cfqq, int preempted)
+/*
+ * Update cfqq's position in the service tree.
+ */
+static void cfq_resort_rr_list(struct cfq_data *cfqd, struct cfq_queue *cfqq)
 {
-       struct cfq_data *cfqd = cfqq->cfqd;
-
        /*
         * Resorting requires the cfqq to be on the RR list already.
         */
-       if (!cfq_cfqq_on_rr(cfqq))
-               return;
-
-       cfq_service_tree_add(cfqd, cfqq);
+       if (cfq_cfqq_on_rr(cfqq))
+               cfq_service_tree_add(cfqd, cfqq, 0);
 }
 
 /*
@@ -527,15 +532,18 @@ cfq_add_cfqq_rr(struct cfq_data *cfqd, struct cfq_queue *cfqq)
        cfq_mark_cfqq_on_rr(cfqq);
        cfqd->busy_queues++;
 
-       cfq_resort_rr_list(cfqq, 0);
+       cfq_resort_rr_list(cfqd, cfqq);
 }
 
+/*
+ * Called when the cfqq no longer has requests pending, remove it from
+ * the service tree.
+ */
 static inline void
 cfq_del_cfqq_rr(struct cfq_data *cfqd, struct cfq_queue *cfqq)
 {
        BUG_ON(!cfq_cfqq_on_rr(cfqq));
        cfq_clear_cfqq_on_rr(cfqq);
-       list_del_init(&cfqq->cfq_list);
 
        if (!RB_EMPTY_NODE(&cfqq->rb_node))
                cfq_rb_erase(&cfqq->rb_node, &cfqd->service_tree);
@@ -599,10 +607,14 @@ static struct request *
 cfq_find_rq_fmerge(struct cfq_data *cfqd, struct bio *bio)
 {
        struct task_struct *tsk = current;
-       pid_t key = cfq_queue_pid(tsk, bio_data_dir(bio), bio_sync(bio));
+       struct cfq_io_context *cic;
        struct cfq_queue *cfqq;
 
-       cfqq = cfq_find_cfq_hash(cfqd, key, tsk->ioprio);
+       cic = cfq_cic_rb_lookup(cfqd, tsk->io_context);
+       if (!cic)
+               return NULL;
+
+       cfqq = cic_to_cfqq(cic, cfq_bio_sync(bio));
        if (cfqq) {
                sector_t sector = bio->bi_sector + bio_sectors(bio);
 
@@ -654,8 +666,7 @@ static void cfq_remove_request(struct request *rq)
        }
 }
 
-static int
-cfq_merge(request_queue_t *q, struct request **req, struct bio *bio)
+static int cfq_merge(request_queue_t *q, struct request **req, struct bio *bio)
 {
        struct cfq_data *cfqd = q->elevator->elevator_data;
        struct request *__rq;
@@ -697,23 +708,24 @@ static int cfq_allow_merge(request_queue_t *q, struct request *rq,
                           struct bio *bio)
 {
        struct cfq_data *cfqd = q->elevator->elevator_data;
-       const int rw = bio_data_dir(bio);
+       struct cfq_io_context *cic;
        struct cfq_queue *cfqq;
-       pid_t key;
 
        /*
         * Disallow merge of a sync bio into an async request.
         */
-       if ((bio_data_dir(bio) == READ || bio_sync(bio)) && !rq_is_sync(rq))
+       if (cfq_bio_sync(bio) && !rq_is_sync(rq))
                return 0;
 
        /*
         * Lookup the cfqq that this bio will be queued with. Allow
         * merge only if rq is queued there.
         */
-       key = cfq_queue_pid(current, rw, bio_sync(bio));
-       cfqq = cfq_find_cfq_hash(cfqd, key, current->ioprio);
+       cic = cfq_cic_rb_lookup(cfqd, current->io_context);
+       if (!cic)
+               return 0;
 
+       cfqq = cic_to_cfqq(cic, cfq_bio_sync(bio));
        if (cfqq == RQ_CFQQ(rq))
                return 1;
 
@@ -744,7 +756,7 @@ __cfq_set_active_queue(struct cfq_data *cfqd, struct cfq_queue *cfqq)
  */
 static void
 __cfq_slice_expired(struct cfq_data *cfqd, struct cfq_queue *cfqq,
-                   int preempted, int timed_out)
+                   int timed_out)
 {
        if (cfq_cfqq_wait_request(cfqq))
                del_timer(&cfqd->idle_slice_timer);
@@ -753,13 +765,12 @@ __cfq_slice_expired(struct cfq_data *cfqd, struct cfq_queue *cfqq,
        cfq_clear_cfqq_wait_request(cfqq);
 
        /*
-        * store what was left of this slice, if the queue idled out
-        * or was preempted
+        * store what was left of this slice, if the queue idled/timed out
         */
        if (timed_out && !cfq_cfqq_slice_new(cfqq))
                cfqq->slice_resid = cfqq->slice_end - jiffies;
 
-       cfq_resort_rr_list(cfqq, preempted);
+       cfq_resort_rr_list(cfqd, cfqq);
 
        if (cfqq == cfqd->active_queue)
                cfqd->active_queue = NULL;
@@ -768,51 +779,53 @@ __cfq_slice_expired(struct cfq_data *cfqd, struct cfq_queue *cfqq,
                put_io_context(cfqd->active_cic->ioc);
                cfqd->active_cic = NULL;
        }
-
-       cfqd->dispatch_slice = 0;
 }
 
-static inline void cfq_slice_expired(struct cfq_data *cfqd, int preempted,
-                                    int timed_out)
+static inline void cfq_slice_expired(struct cfq_data *cfqd, int timed_out)
 {
        struct cfq_queue *cfqq = cfqd->active_queue;
 
        if (cfqq)
-               __cfq_slice_expired(cfqd, cfqq, preempted, timed_out);
+               __cfq_slice_expired(cfqd, cfqq, timed_out);
 }
 
+/*
+ * Get next queue for service. Unless we have a queue preemption,
+ * we'll simply select the first cfqq in the service tree.
+ */
 static struct cfq_queue *cfq_get_next_queue(struct cfq_data *cfqd)
 {
-       struct cfq_queue *cfqq = NULL;
+       struct cfq_queue *cfqq;
+       struct rb_node *n;
 
-       if (!list_empty(&cfqd->cur_rr)) {
-               /*
-                * if current list is non-empty, grab first entry.
-                */
-               cfqq = list_entry_cfqq(cfqd->cur_rr.next);
-       } else if (!RB_EMPTY_ROOT(&cfqd->service_tree.rb)) {
-               struct rb_node *n = cfq_rb_first(&cfqd->service_tree);
+       if (RB_EMPTY_ROOT(&cfqd->service_tree.rb))
+               return NULL;
+
+       n = cfq_rb_first(&cfqd->service_tree);
+       cfqq = rb_entry(n, struct cfq_queue, rb_node);
+
+       if (cfq_class_idle(cfqq)) {
                unsigned long end;
 
-               cfqq = rb_entry(n, struct cfq_queue, rb_node);
-               if (cfq_class_idle(cfqq)) {
-                       /*
-                        * if we have idle queues and no rt or be queues had
-                        * pending requests, either allow immediate service if
-                        * the grace period has passed or arm the idle grace
-                        * timer
-                        */
-                       end = cfqd->last_end_request + CFQ_IDLE_GRACE;
-                       if (time_before(jiffies, end)) {
-                               mod_timer(&cfqd->idle_class_timer, end);
-                               cfqq = NULL;
-                       }
+               /*
+                * if we have idle queues and no rt or be queues had
+                * pending requests, either allow immediate service if
+                * the grace period has passed or arm the idle grace
+                * timer
+                */
+               end = cfqd->last_end_request + CFQ_IDLE_GRACE;
+               if (time_before(jiffies, end)) {
+                       mod_timer(&cfqd->idle_class_timer, end);
+                       cfqq = NULL;
                }
        }
 
        return cfqq;
 }
 
+/*
+ * Get and set a new active queue for service.
+ */
 static struct cfq_queue *cfq_set_active_queue(struct cfq_data *cfqd)
 {
        struct cfq_queue *cfqq;
@@ -898,13 +911,20 @@ static void cfq_arm_slice_timer(struct cfq_data *cfqd)
        mod_timer(&cfqd->idle_slice_timer, jiffies + sl);
 }
 
+/*
+ * Move request from internal lists to the request queue dispatch list.
+ */
 static void cfq_dispatch_insert(request_queue_t *q, struct request *rq)
 {
+       struct cfq_data *cfqd = q->elevator->elevator_data;
        struct cfq_queue *cfqq = RQ_CFQQ(rq);
 
        cfq_remove_request(rq);
        cfqq->dispatched++;
        elv_dispatch_sort(q, rq);
+
+       if (cfq_cfqq_sync(cfqq))
+               cfqd->sync_flight++;
 }
 
 /*
@@ -944,7 +964,8 @@ cfq_prio_to_maxrq(struct cfq_data *cfqd, struct cfq_queue *cfqq)
 }
 
 /*
- * get next queue for service
+ * Select a queue for service. If we have a current active queue,
+ * check whether to continue servicing it, or retrieve and set a new one.
  */
 static struct cfq_queue *cfq_select_queue(struct cfq_data *cfqd)
 {
@@ -972,19 +993,24 @@ static struct cfq_queue *cfq_select_queue(struct cfq_data *cfqd)
         * flight or is idling for a new request, allow either of these
         * conditions to happen (or time out) before selecting a new queue.
         */
-       if (cfqq->dispatched || timer_pending(&cfqd->idle_slice_timer)) {
+       if (timer_pending(&cfqd->idle_slice_timer) ||
+           (cfqq->dispatched && cfq_cfqq_idle_window(cfqq))) {
                cfqq = NULL;
                goto keep_queue;
        }
 
 expire:
-       cfq_slice_expired(cfqd, 0, 0);
+       cfq_slice_expired(cfqd, 0);
 new_queue:
        cfqq = cfq_set_active_queue(cfqd);
 keep_queue:
        return cfqq;
 }
 
+/*
+ * Dispatch some requests from cfqq, moving them to the request queue
+ * dispatch list.
+ */
 static int
 __cfq_dispatch_requests(struct cfq_data *cfqd, struct cfq_queue *cfqq,
                        int max_dispatch)
@@ -1007,7 +1033,6 @@ __cfq_dispatch_requests(struct cfq_data *cfqd, struct cfq_queue *cfqq,
                 */
                cfq_dispatch_insert(cfqd->queue, rq);
 
-               cfqd->dispatch_slice++;
                dispatched++;
 
                if (!cfqd->active_cic) {
@@ -1025,10 +1050,10 @@ __cfq_dispatch_requests(struct cfq_data *cfqd, struct cfq_queue *cfqq,
         * queue always expire after 1 dispatch round.
         */
        if (cfqd->busy_queues > 1 && ((!cfq_cfqq_sync(cfqq) &&
-           cfqd->dispatch_slice >= cfq_prio_to_maxrq(cfqd, cfqq)) ||
+           dispatched >= cfq_prio_to_maxrq(cfqd, cfqq)) ||
            cfq_class_idle(cfqq))) {
                cfqq->slice_end = jiffies + 1;
-               cfq_slice_expired(cfqd, 0, 0);
+               cfq_slice_expired(cfqd, 0);
        }
 
        return dispatched;
@@ -1047,18 +1072,10 @@ static inline int __cfq_forced_dispatch_cfqq(struct cfq_queue *cfqq)
        return dispatched;
 }
 
-static int cfq_forced_dispatch_cfqqs(struct list_head *list)
-{
-       struct cfq_queue *cfqq, *next;
-       int dispatched;
-
-       dispatched = 0;
-       list_for_each_entry_safe(cfqq, next, list, cfq_list)
-               dispatched += __cfq_forced_dispatch_cfqq(cfqq);
-
-       return dispatched;
-}
-
+/*
+ * Drain our current requests. Used for barriers and when switching
+ * io schedulers on-the-fly.
+ */
 static int cfq_forced_dispatch(struct cfq_data *cfqd)
 {
        int dispatched = 0;
@@ -1070,9 +1087,7 @@ static int cfq_forced_dispatch(struct cfq_data *cfqd)
                dispatched += __cfq_forced_dispatch_cfqq(cfqq);
        }
 
-       dispatched += cfq_forced_dispatch_cfqqs(&cfqd->cur_rr);
-
-       cfq_slice_expired(cfqd, 0, 0);
+       cfq_slice_expired(cfqd, 0);
 
        BUG_ON(cfqd->busy_queues);
 
@@ -1095,27 +1110,24 @@ static int cfq_dispatch_requests(request_queue_t *q, int force)
        while ((cfqq = cfq_select_queue(cfqd)) != NULL) {
                int max_dispatch;
 
-               if (cfqd->busy_queues > 1) {
-                       /*
-                        * So we have dispatched before in this round, if the
-                        * next queue has idling enabled (must be sync), don't
-                        * allow it service until the previous have completed.
-                        */
-                       if (cfqd->rq_in_driver && cfq_cfqq_idle_window(cfqq) &&
-                           dispatched)
+               max_dispatch = cfqd->cfq_quantum;
+               if (cfq_class_idle(cfqq))
+                       max_dispatch = 1;
+
+               if (cfqq->dispatched >= max_dispatch) {
+                       if (cfqd->busy_queues > 1)
                                break;
-                       if (cfqq->dispatched >= cfqd->cfq_quantum)
+                       if (cfqq->dispatched >= 4 * max_dispatch)
                                break;
                }
 
+               if (cfqd->sync_flight && !cfq_cfqq_sync(cfqq))
+                       break;
+
                cfq_clear_cfqq_must_dispatch(cfqq);
                cfq_clear_cfqq_wait_request(cfqq);
                del_timer(&cfqd->idle_slice_timer);
 
-               max_dispatch = cfqd->cfq_quantum;
-               if (cfq_class_idle(cfqq))
-                       max_dispatch = 1;
-
                dispatched += __cfq_dispatch_requests(cfqd, cfqq, max_dispatch);
        }
 
@@ -1142,47 +1154,21 @@ static void cfq_put_queue(struct cfq_queue *cfqq)
        BUG_ON(cfq_cfqq_on_rr(cfqq));
 
        if (unlikely(cfqd->active_queue == cfqq)) {
-               __cfq_slice_expired(cfqd, cfqq, 0, 0);
+               __cfq_slice_expired(cfqd, cfqq, 0);
                cfq_schedule_dispatch(cfqd);
        }
 
-       /*
-        * it's on the empty list and still hashed
-        */
-       hlist_del(&cfqq->cfq_hash);
        kmem_cache_free(cfq_pool, cfqq);
 }
 
-static struct cfq_queue *
-__cfq_find_cfq_hash(struct cfq_data *cfqd, unsigned int key, unsigned int prio,
-                   const int hashval)
-{
-       struct hlist_head *hash_list = &cfqd->cfq_hash[hashval];
-       struct hlist_node *entry;
-       struct cfq_queue *__cfqq;
-
-       hlist_for_each_entry(__cfqq, entry, hash_list, cfq_hash) {
-               const unsigned short __p = IOPRIO_PRIO_VALUE(__cfqq->org_ioprio_class, __cfqq->org_ioprio);
-
-               if (__cfqq->key == key && (__p == prio || !prio))
-                       return __cfqq;
-       }
-
-       return NULL;
-}
-
-static struct cfq_queue *
-cfq_find_cfq_hash(struct cfq_data *cfqd, unsigned int key, unsigned short prio)
-{
-       return __cfq_find_cfq_hash(cfqd, key, prio, hash_long(key, CFQ_QHASH_SHIFT));
-}
-
 static void cfq_free_io_context(struct io_context *ioc)
 {
        struct cfq_io_context *__cic;
        struct rb_node *n;
        int freed = 0;
 
+       ioc->ioc_data = NULL;
+
        while ((n = rb_first(&ioc->cic_root)) != NULL) {
                __cic = rb_entry(n, struct cfq_io_context, rb_node);
                rb_erase(&__cic->rb_node, &ioc->cic_root);
@@ -1199,7 +1185,7 @@ static void cfq_free_io_context(struct io_context *ioc)
 static void cfq_exit_cfqq(struct cfq_data *cfqd, struct cfq_queue *cfqq)
 {
        if (unlikely(cfqq == cfqd->active_queue)) {
-               __cfq_slice_expired(cfqd, cfqq, 0, 0);
+               __cfq_slice_expired(cfqd, cfqq, 0);
                cfq_schedule_dispatch(cfqd);
        }
 
@@ -1224,10 +1210,6 @@ static void __cfq_exit_single_io_context(struct cfq_data *cfqd,
        }
 }
 
-
-/*
- * Called with interrupts disabled
- */
 static void cfq_exit_single_io_context(struct cfq_io_context *cic)
 {
        struct cfq_data *cfqd = cic->key;
@@ -1241,15 +1223,20 @@ static void cfq_exit_single_io_context(struct cfq_io_context *cic)
        }
 }
 
+/*
+ * The process that ioc belongs to has exited, we need to clean up
+ * and put the internal structures we have that belongs to that process.
+ */
 static void cfq_exit_io_context(struct io_context *ioc)
 {
        struct cfq_io_context *__cic;
        struct rb_node *n;
 
+       ioc->ioc_data = NULL;
+
        /*
         * put the reference this task is holding to the various queues
         */
-
        n = rb_first(&ioc->cic_root);
        while (n != NULL) {
                __cic = rb_entry(n, struct cfq_io_context, rb_node);
@@ -1334,7 +1321,7 @@ static inline void changed_ioprio(struct cfq_io_context *cic)
        cfqq = cic->cfqq[ASYNC];
        if (cfqq) {
                struct cfq_queue *new_cfqq;
-               new_cfqq = cfq_get_queue(cfqd, CFQ_KEY_ASYNC, cic->ioc->task,
+               new_cfqq = cfq_get_queue(cfqd, ASYNC, cic->ioc->task,
                                         GFP_ATOMIC);
                if (new_cfqq) {
                        cic->cfqq[ASYNC] = new_cfqq;
@@ -1366,16 +1353,16 @@ static void cfq_ioc_set_ioprio(struct io_context *ioc)
 }
 
 static struct cfq_queue *
-cfq_get_queue(struct cfq_data *cfqd, unsigned int key, struct task_struct *tsk,
-             gfp_t gfp_mask)
+cfq_find_alloc_queue(struct cfq_data *cfqd, int is_sync,
+                    struct task_struct *tsk, gfp_t gfp_mask)
 {
-       const int hashval = hash_long(key, CFQ_QHASH_SHIFT);
        struct cfq_queue *cfqq, *new_cfqq = NULL;
-       unsigned short ioprio;
+       struct cfq_io_context *cic;
 
 retry:
-       ioprio = tsk->ioprio;
-       cfqq = __cfq_find_cfq_hash(cfqd, key, ioprio, hashval);
+       cic = cfq_cic_rb_lookup(cfqd, tsk->io_context);
+       /* cic always exists here */
+       cfqq = cic_to_cfqq(cic, is_sync);
 
        if (!cfqq) {
                if (new_cfqq) {
@@ -1400,37 +1387,66 @@ retry:
 
                memset(cfqq, 0, sizeof(*cfqq));
 
-               INIT_HLIST_NODE(&cfqq->cfq_hash);
-               INIT_LIST_HEAD(&cfqq->cfq_list);
                RB_CLEAR_NODE(&cfqq->rb_node);
                INIT_LIST_HEAD(&cfqq->fifo);
 
-               cfqq->key = key;
-               hlist_add_head(&cfqq->cfq_hash, &cfqd->cfq_hash[hashval]);
                atomic_set(&cfqq->ref, 0);
                cfqq->cfqd = cfqd;
 
-               if (key != CFQ_KEY_ASYNC)
+               if (is_sync) {
                        cfq_mark_cfqq_idle_window(cfqq);
+                       cfq_mark_cfqq_sync(cfqq);
+               }
 
                cfq_mark_cfqq_prio_changed(cfqq);
                cfq_mark_cfqq_queue_new(cfqq);
+
                cfq_init_prio_data(cfqq);
        }
 
        if (new_cfqq)
                kmem_cache_free(cfq_pool, new_cfqq);
 
-       atomic_inc(&cfqq->ref);
 out:
        WARN_ON((gfp_mask & __GFP_WAIT) && !cfqq);
        return cfqq;
 }
 
+static struct cfq_queue *
+cfq_get_queue(struct cfq_data *cfqd, int is_sync, struct task_struct *tsk,
+             gfp_t gfp_mask)
+{
+       const int ioprio = task_ioprio(tsk);
+       struct cfq_queue *cfqq = NULL;
+
+       if (!is_sync)
+               cfqq = cfqd->async_cfqq[ioprio];
+       if (!cfqq)
+               cfqq = cfq_find_alloc_queue(cfqd, is_sync, tsk, gfp_mask);
+
+       /*
+        * pin the queue now that it's allocated, scheduler exit will prune it
+        */
+       if (!is_sync && !cfqd->async_cfqq[ioprio]) {
+               atomic_inc(&cfqq->ref);
+               cfqd->async_cfqq[ioprio] = cfqq;
+       }
+
+       atomic_inc(&cfqq->ref);
+       return cfqq;
+}
+
+/*
+ * We drop cfq io contexts lazily, so we may find a dead one.
+ */
 static void
 cfq_drop_dead_cic(struct io_context *ioc, struct cfq_io_context *cic)
 {
        WARN_ON(!list_empty(&cic->queue_list));
+
+       if (ioc->ioc_data == cic)
+               ioc->ioc_data = NULL;
+
        rb_erase(&cic->rb_node, &ioc->cic_root);
        kmem_cache_free(cfq_ioc_pool, cic);
        elv_ioc_count_dec(ioc_count);
@@ -1443,6 +1459,16 @@ cfq_cic_rb_lookup(struct cfq_data *cfqd, struct io_context *ioc)
        struct cfq_io_context *cic;
        void *k, *key = cfqd;
 
+       if (unlikely(!ioc))
+               return NULL;
+
+       /*
+        * we maintain a last-hit cache, to avoid browsing over the tree
+        */
+       cic = ioc->ioc_data;
+       if (cic && cic->key == cfqd)
+               return cic;
+
 restart:
        n = ioc->cic_root.rb_node;
        while (n) {
@@ -1458,8 +1484,10 @@ restart:
                        n = n->rb_left;
                else if (key > k)
                        n = n->rb_right;
-               else
+               else {
+                       ioc->ioc_data = cic;
                        return cic;
+               }
        }
 
        return NULL;
@@ -1596,7 +1624,12 @@ static void
 cfq_update_idle_window(struct cfq_data *cfqd, struct cfq_queue *cfqq,
                       struct cfq_io_context *cic)
 {
-       int enable_idle = cfq_cfqq_idle_window(cfqq);
+       int enable_idle;
+
+       if (!cfq_cfqq_sync(cfqq))
+               return;
+
+       enable_idle = cfq_cfqq_idle_window(cfqq);
 
        if (!cic->ioc->task || !cfqd->cfq_slice_idle ||
            (cfqd->hw_tag && CIC_SEEKY(cic)))
@@ -1670,15 +1703,15 @@ cfq_should_preempt(struct cfq_data *cfqd, struct cfq_queue *new_cfqq,
  */
 static void cfq_preempt_queue(struct cfq_data *cfqd, struct cfq_queue *cfqq)
 {
-       cfq_slice_expired(cfqd, 1, 1);
+       cfq_slice_expired(cfqd, 1);
 
        /*
         * Put the new queue at the front of the of the current list,
         * so we know that it will be selected next.
         */
        BUG_ON(!cfq_cfqq_on_rr(cfqq));
-       list_del_init(&cfqq->cfq_list);
-       list_add(&cfqq->cfq_list, &cfqd->cur_rr);
+
+       cfq_service_tree_add(cfqd, cfqq, 1);
 
        cfqq->slice_end = 0;
        cfq_mark_cfqq_slice_new(cfqq);
@@ -1755,6 +1788,9 @@ static void cfq_completed_request(request_queue_t *q, struct request *rq)
        cfqd->rq_in_driver--;
        cfqq->dispatched--;
 
+       if (cfq_cfqq_sync(cfqq))
+               cfqd->sync_flight--;
+
        if (!cfq_class_idle(cfqq))
                cfqd->last_end_request = now;
 
@@ -1771,7 +1807,7 @@ static void cfq_completed_request(request_queue_t *q, struct request *rq)
                        cfq_clear_cfqq_slice_new(cfqq);
                }
                if (cfq_slice_used(cfqq))
-                       cfq_slice_expired(cfqd, 0, 1);
+                       cfq_slice_expired(cfqd, 1);
                else if (sync && RB_EMPTY_ROOT(&cfqq->sort_list))
                        cfq_arm_slice_timer(cfqd);
        }
@@ -1821,10 +1857,8 @@ static int cfq_may_queue(request_queue_t *q, int rw)
 {
        struct cfq_data *cfqd = q->elevator->elevator_data;
        struct task_struct *tsk = current;
+       struct cfq_io_context *cic;
        struct cfq_queue *cfqq;
-       unsigned int key;
-
-       key = cfq_queue_pid(tsk, rw, rw & REQ_RW_SYNC);
 
        /*
         * don't force setup of a queue from here, as a call to may_queue
@@ -1832,7 +1866,11 @@ static int cfq_may_queue(request_queue_t *q, int rw)
         * so just lookup a possibly existing queue, or return 'may queue'
         * if that fails
         */
-       cfqq = cfq_find_cfq_hash(cfqd, key, tsk->ioprio);
+       cic = cfq_cic_rb_lookup(cfqd, tsk->io_context);
+       if (!cic)
+               return ELV_MQUEUE_MAY;
+
+       cfqq = cic_to_cfqq(cic, rw & REQ_RW_SYNC);
        if (cfqq) {
                cfq_init_prio_data(cfqq);
                cfq_prio_boost(cfqq);
@@ -1876,7 +1914,6 @@ cfq_set_request(request_queue_t *q, struct request *rq, gfp_t gfp_mask)
        struct cfq_io_context *cic;
        const int rw = rq_data_dir(rq);
        const int is_sync = rq_is_sync(rq);
-       pid_t key = cfq_queue_pid(tsk, rw, is_sync);
        struct cfq_queue *cfqq;
        unsigned long flags;
 
@@ -1889,14 +1926,15 @@ cfq_set_request(request_queue_t *q, struct request *rq, gfp_t gfp_mask)
        if (!cic)
                goto queue_fail;
 
-       if (!cic->cfqq[is_sync]) {
-               cfqq = cfq_get_queue(cfqd, key, tsk, gfp_mask);
+       cfqq = cic_to_cfqq(cic, is_sync);
+       if (!cfqq) {
+               cfqq = cfq_get_queue(cfqd, is_sync, tsk, gfp_mask);
+
                if (!cfqq)
                        goto queue_fail;
 
-               cic->cfqq[is_sync] = cfqq;
-       } else
-               cfqq = cic->cfqq[is_sync];
+               cic_set_cfqq(cic, cfqq, is_sync);
+       }
 
        cfqq->allocated[rw]++;
        cfq_clear_cfqq_must_alloc(cfqq);
@@ -1966,7 +2004,7 @@ static void cfq_idle_slice_timer(unsigned long data)
                }
        }
 expire:
-       cfq_slice_expired(cfqd, 0, timed_out);
+       cfq_slice_expired(cfqd, timed_out);
 out_kick:
        cfq_schedule_dispatch(cfqd);
 out_cont:
@@ -2006,13 +2044,14 @@ static void cfq_exit_queue(elevator_t *e)
 {
        struct cfq_data *cfqd = e->elevator_data;
        request_queue_t *q = cfqd->queue;
+       int i;
 
        cfq_shutdown_timer_wq(cfqd);
 
        spin_lock_irq(q->queue_lock);
 
        if (cfqd->active_queue)
-               __cfq_slice_expired(cfqd, cfqd->active_queue, 0, 0);
+               __cfq_slice_expired(cfqd, cfqd->active_queue, 0);
 
        while (!list_empty(&cfqd->cic_list)) {
                struct cfq_io_context *cic = list_entry(cfqd->cic_list.next,
@@ -2022,18 +2061,23 @@ static void cfq_exit_queue(elevator_t *e)
                __cfq_exit_single_io_context(cfqd, cic);
        }
 
+       /*
+        * Put the async queues
+        */
+       for (i = 0; i < IOPRIO_BE_NR; i++)
+               if (cfqd->async_cfqq[i])        
+                       cfq_put_queue(cfqd->async_cfqq[i]);
+
        spin_unlock_irq(q->queue_lock);
 
        cfq_shutdown_timer_wq(cfqd);
 
-       kfree(cfqd->cfq_hash);
        kfree(cfqd);
 }
 
 static void *cfq_init_queue(request_queue_t *q)
 {
        struct cfq_data *cfqd;
-       int i;
 
        cfqd = kmalloc_node(sizeof(*cfqd), GFP_KERNEL, q->node);
        if (!cfqd)
@@ -2042,16 +2086,8 @@ static void *cfq_init_queue(request_queue_t *q)
        memset(cfqd, 0, sizeof(*cfqd));
 
        cfqd->service_tree = CFQ_RB_ROOT;
-       INIT_LIST_HEAD(&cfqd->cur_rr);
        INIT_LIST_HEAD(&cfqd->cic_list);
 
-       cfqd->cfq_hash = kmalloc_node(sizeof(struct hlist_head) * CFQ_QHASH_ENTRIES, GFP_KERNEL, q->node);
-       if (!cfqd->cfq_hash)
-               goto out_free;
-
-       for (i = 0; i < CFQ_QHASH_ENTRIES; i++)
-               INIT_HLIST_HEAD(&cfqd->cfq_hash[i]);
-
        cfqd->queue = q;
 
        init_timer(&cfqd->idle_slice_timer);
@@ -2075,9 +2111,6 @@ static void *cfq_init_queue(request_queue_t *q)
        cfqd->cfq_slice_idle = cfq_slice_idle;
 
        return cfqd;
-out_free:
-       kfree(cfqd);
-       return NULL;
 }
 
 static void cfq_slab_kill(void)
@@ -2090,13 +2123,11 @@ static void cfq_slab_kill(void)
 
 static int __init cfq_slab_setup(void)
 {
-       cfq_pool = kmem_cache_create("cfq_pool", sizeof(struct cfq_queue), 0, 0,
-                                       NULL, NULL);
+       cfq_pool = KMEM_CACHE(cfq_queue, 0);
        if (!cfq_pool)
                goto fail;
 
-       cfq_ioc_pool = kmem_cache_create("cfq_ioc_pool",
-                       sizeof(struct cfq_io_context), 0, 0, NULL, NULL);
+       cfq_ioc_pool = KMEM_CACHE(cfq_io_context, 0);
        if (!cfq_ioc_pool)
                goto fail;