Merge tag 'mmc-v4.13-2' of git://git.kernel.org/pub/scm/linux/kernel/git/ulfh/mmc
[sfrench/cifs-2.6.git] / drivers / thermal / cpu_cooling.c
1 /*
2  *  linux/drivers/thermal/cpu_cooling.c
3  *
4  *  Copyright (C) 2012  Samsung Electronics Co., Ltd(http://www.samsung.com)
5  *  Copyright (C) 2012  Amit Daniel <amit.kachhap@linaro.org>
6  *
7  *  Copyright (C) 2014  Viresh Kumar <viresh.kumar@linaro.org>
8  *
9  * ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
10  *  This program is free software; you can redistribute it and/or modify
11  *  it under the terms of the GNU General Public License as published by
12  *  the Free Software Foundation; version 2 of the License.
13  *
14  *  This program is distributed in the hope that it will be useful, but
15  *  WITHOUT ANY WARRANTY; without even the implied warranty of
16  *  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the GNU
17  *  General Public License for more details.
18  *
19  *  You should have received a copy of the GNU General Public License along
20  *  with this program; if not, write to the Free Software Foundation, Inc.,
21  *  59 Temple Place, Suite 330, Boston, MA 02111-1307 USA.
22  *
23  * ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
24  */
25 #include <linux/module.h>
26 #include <linux/thermal.h>
27 #include <linux/cpufreq.h>
28 #include <linux/err.h>
29 #include <linux/idr.h>
30 #include <linux/pm_opp.h>
31 #include <linux/slab.h>
32 #include <linux/cpu.h>
33 #include <linux/cpu_cooling.h>
34
35 #include <trace/events/thermal.h>
36
37 /*
38  * Cooling state <-> CPUFreq frequency
39  *
40  * Cooling states are translated to frequencies throughout this driver and this
41  * is the relation between them.
42  *
43  * Highest cooling state corresponds to lowest possible frequency.
44  *
45  * i.e.
46  *      level 0 --> 1st Max Freq
47  *      level 1 --> 2nd Max Freq
48  *      ...
49  */
50
51 /**
52  * struct power_table - frequency to power conversion
53  * @frequency:  frequency in KHz
54  * @power:      power in mW
55  *
56  * This structure is built when the cooling device registers and helps
57  * in translating frequency to power and viceversa.
58  */
59 struct power_table {
60         u32 frequency;
61         u32 power;
62 };
63
64 /**
65  * struct cpufreq_cooling_device - data for cooling device with cpufreq
66  * @id: unique integer value corresponding to each cpufreq_cooling_device
67  *      registered.
68  * @cool_dev: thermal_cooling_device pointer to keep track of the
69  *      registered cooling device.
70  * @cpufreq_state: integer value representing the current state of cpufreq
71  *      cooling devices.
72  * @clipped_freq: integer value representing the absolute value of the clipped
73  *      frequency.
74  * @max_level: maximum cooling level. One less than total number of valid
75  *      cpufreq frequencies.
76  * @allowed_cpus: all the cpus involved for this cpufreq_cooling_device.
77  * @node: list_head to link all cpufreq_cooling_device together.
78  * @last_load: load measured by the latest call to cpufreq_get_requested_power()
79  * @time_in_idle: previous reading of the absolute time that this cpu was idle
80  * @time_in_idle_timestamp: wall time of the last invocation of
81  *      get_cpu_idle_time_us()
82  * @dyn_power_table: array of struct power_table for frequency to power
83  *      conversion, sorted in ascending order.
84  * @dyn_power_table_entries: number of entries in the @dyn_power_table array
85  * @cpu_dev: the first cpu_device from @allowed_cpus that has OPPs registered
86  * @plat_get_static_power: callback to calculate the static power
87  *
88  * This structure is required for keeping information of each registered
89  * cpufreq_cooling_device.
90  */
91 struct cpufreq_cooling_device {
92         int id;
93         struct thermal_cooling_device *cool_dev;
94         unsigned int cpufreq_state;
95         unsigned int clipped_freq;
96         unsigned int max_level;
97         unsigned int *freq_table;       /* In descending order */
98         struct cpumask allowed_cpus;
99         struct list_head node;
100         u32 last_load;
101         u64 *time_in_idle;
102         u64 *time_in_idle_timestamp;
103         struct power_table *dyn_power_table;
104         int dyn_power_table_entries;
105         struct device *cpu_dev;
106         get_static_t plat_get_static_power;
107 };
108 static DEFINE_IDA(cpufreq_ida);
109
110 static DEFINE_MUTEX(cooling_list_lock);
111 static LIST_HEAD(cpufreq_dev_list);
112
113 /* Below code defines functions to be used for cpufreq as cooling device */
114
115 /**
116  * get_level: Find the level for a particular frequency
117  * @cpufreq_dev: cpufreq_dev for which the property is required
118  * @freq: Frequency
119  *
120  * Return: level on success, THERMAL_CSTATE_INVALID on error.
121  */
122 static unsigned long get_level(struct cpufreq_cooling_device *cpufreq_dev,
123                                unsigned int freq)
124 {
125         unsigned long level;
126
127         for (level = 0; level <= cpufreq_dev->max_level; level++) {
128                 if (freq == cpufreq_dev->freq_table[level])
129                         return level;
130
131                 if (freq > cpufreq_dev->freq_table[level])
132                         break;
133         }
134
135         return THERMAL_CSTATE_INVALID;
136 }
137
138 /**
139  * cpufreq_cooling_get_level - for a given cpu, return the cooling level.
140  * @cpu: cpu for which the level is required
141  * @freq: the frequency of interest
142  *
143  * This function will match the cooling level corresponding to the
144  * requested @freq and return it.
145  *
146  * Return: The matched cooling level on success or THERMAL_CSTATE_INVALID
147  * otherwise.
148  */
149 unsigned long cpufreq_cooling_get_level(unsigned int cpu, unsigned int freq)
150 {
151         struct cpufreq_cooling_device *cpufreq_dev;
152
153         mutex_lock(&cooling_list_lock);
154         list_for_each_entry(cpufreq_dev, &cpufreq_dev_list, node) {
155                 if (cpumask_test_cpu(cpu, &cpufreq_dev->allowed_cpus)) {
156                         mutex_unlock(&cooling_list_lock);
157                         return get_level(cpufreq_dev, freq);
158                 }
159         }
160         mutex_unlock(&cooling_list_lock);
161
162         pr_err("%s: cpu:%d not part of any cooling device\n", __func__, cpu);
163         return THERMAL_CSTATE_INVALID;
164 }
165 EXPORT_SYMBOL_GPL(cpufreq_cooling_get_level);
166
167 /**
168  * cpufreq_thermal_notifier - notifier callback for cpufreq policy change.
169  * @nb: struct notifier_block * with callback info.
170  * @event: value showing cpufreq event for which this function invoked.
171  * @data: callback-specific data
172  *
173  * Callback to hijack the notification on cpufreq policy transition.
174  * Every time there is a change in policy, we will intercept and
175  * update the cpufreq policy with thermal constraints.
176  *
177  * Return: 0 (success)
178  */
179 static int cpufreq_thermal_notifier(struct notifier_block *nb,
180                                     unsigned long event, void *data)
181 {
182         struct cpufreq_policy *policy = data;
183         unsigned long clipped_freq;
184         struct cpufreq_cooling_device *cpufreq_dev;
185
186         if (event != CPUFREQ_ADJUST)
187                 return NOTIFY_DONE;
188
189         mutex_lock(&cooling_list_lock);
190         list_for_each_entry(cpufreq_dev, &cpufreq_dev_list, node) {
191                 if (!cpumask_test_cpu(policy->cpu, &cpufreq_dev->allowed_cpus))
192                         continue;
193
194                 /*
195                  * policy->max is the maximum allowed frequency defined by user
196                  * and clipped_freq is the maximum that thermal constraints
197                  * allow.
198                  *
199                  * If clipped_freq is lower than policy->max, then we need to
200                  * readjust policy->max.
201                  *
202                  * But, if clipped_freq is greater than policy->max, we don't
203                  * need to do anything.
204                  */
205                 clipped_freq = cpufreq_dev->clipped_freq;
206
207                 if (policy->max > clipped_freq)
208                         cpufreq_verify_within_limits(policy, 0, clipped_freq);
209                 break;
210         }
211         mutex_unlock(&cooling_list_lock);
212
213         return NOTIFY_OK;
214 }
215
216 /**
217  * build_dyn_power_table() - create a dynamic power to frequency table
218  * @cpufreq_device:     the cpufreq cooling device in which to store the table
219  * @capacitance: dynamic power coefficient for these cpus
220  *
221  * Build a dynamic power to frequency table for this cpu and store it
222  * in @cpufreq_device.  This table will be used in cpu_power_to_freq() and
223  * cpu_freq_to_power() to convert between power and frequency
224  * efficiently.  Power is stored in mW, frequency in KHz.  The
225  * resulting table is in ascending order.
226  *
227  * Return: 0 on success, -EINVAL if there are no OPPs for any CPUs,
228  * -ENOMEM if we run out of memory or -EAGAIN if an OPP was
229  * added/enabled while the function was executing.
230  */
231 static int build_dyn_power_table(struct cpufreq_cooling_device *cpufreq_device,
232                                  u32 capacitance)
233 {
234         struct power_table *power_table;
235         struct dev_pm_opp *opp;
236         struct device *dev = NULL;
237         int num_opps = 0, cpu, i, ret = 0;
238         unsigned long freq;
239
240         for_each_cpu(cpu, &cpufreq_device->allowed_cpus) {
241                 dev = get_cpu_device(cpu);
242                 if (!dev) {
243                         dev_warn(&cpufreq_device->cool_dev->device,
244                                  "No cpu device for cpu %d\n", cpu);
245                         continue;
246                 }
247
248                 num_opps = dev_pm_opp_get_opp_count(dev);
249                 if (num_opps > 0)
250                         break;
251                 else if (num_opps < 0)
252                         return num_opps;
253         }
254
255         if (num_opps == 0)
256                 return -EINVAL;
257
258         power_table = kcalloc(num_opps, sizeof(*power_table), GFP_KERNEL);
259         if (!power_table)
260                 return -ENOMEM;
261
262         for (freq = 0, i = 0;
263              opp = dev_pm_opp_find_freq_ceil(dev, &freq), !IS_ERR(opp);
264              freq++, i++) {
265                 u32 freq_mhz, voltage_mv;
266                 u64 power;
267
268                 if (i >= num_opps) {
269                         ret = -EAGAIN;
270                         goto free_power_table;
271                 }
272
273                 freq_mhz = freq / 1000000;
274                 voltage_mv = dev_pm_opp_get_voltage(opp) / 1000;
275                 dev_pm_opp_put(opp);
276
277                 /*
278                  * Do the multiplication with MHz and millivolt so as
279                  * to not overflow.
280                  */
281                 power = (u64)capacitance * freq_mhz * voltage_mv * voltage_mv;
282                 do_div(power, 1000000000);
283
284                 /* frequency is stored in power_table in KHz */
285                 power_table[i].frequency = freq / 1000;
286
287                 /* power is stored in mW */
288                 power_table[i].power = power;
289         }
290
291         if (i != num_opps) {
292                 ret = PTR_ERR(opp);
293                 goto free_power_table;
294         }
295
296         cpufreq_device->cpu_dev = dev;
297         cpufreq_device->dyn_power_table = power_table;
298         cpufreq_device->dyn_power_table_entries = i;
299
300         return 0;
301
302 free_power_table:
303         kfree(power_table);
304
305         return ret;
306 }
307
308 static u32 cpu_freq_to_power(struct cpufreq_cooling_device *cpufreq_device,
309                              u32 freq)
310 {
311         int i;
312         struct power_table *pt = cpufreq_device->dyn_power_table;
313
314         for (i = 1; i < cpufreq_device->dyn_power_table_entries; i++)
315                 if (freq < pt[i].frequency)
316                         break;
317
318         return pt[i - 1].power;
319 }
320
321 static u32 cpu_power_to_freq(struct cpufreq_cooling_device *cpufreq_device,
322                              u32 power)
323 {
324         int i;
325         struct power_table *pt = cpufreq_device->dyn_power_table;
326
327         for (i = 1; i < cpufreq_device->dyn_power_table_entries; i++)
328                 if (power < pt[i].power)
329                         break;
330
331         return pt[i - 1].frequency;
332 }
333
334 /**
335  * get_load() - get load for a cpu since last updated
336  * @cpufreq_device:     &struct cpufreq_cooling_device for this cpu
337  * @cpu:        cpu number
338  * @cpu_idx:    index of the cpu in cpufreq_device->allowed_cpus
339  *
340  * Return: The average load of cpu @cpu in percentage since this
341  * function was last called.
342  */
343 static u32 get_load(struct cpufreq_cooling_device *cpufreq_device, int cpu,
344                     int cpu_idx)
345 {
346         u32 load;
347         u64 now, now_idle, delta_time, delta_idle;
348
349         now_idle = get_cpu_idle_time(cpu, &now, 0);
350         delta_idle = now_idle - cpufreq_device->time_in_idle[cpu_idx];
351         delta_time = now - cpufreq_device->time_in_idle_timestamp[cpu_idx];
352
353         if (delta_time <= delta_idle)
354                 load = 0;
355         else
356                 load = div64_u64(100 * (delta_time - delta_idle), delta_time);
357
358         cpufreq_device->time_in_idle[cpu_idx] = now_idle;
359         cpufreq_device->time_in_idle_timestamp[cpu_idx] = now;
360
361         return load;
362 }
363
364 /**
365  * get_static_power() - calculate the static power consumed by the cpus
366  * @cpufreq_device:     struct &cpufreq_cooling_device for this cpu cdev
367  * @tz:         thermal zone device in which we're operating
368  * @freq:       frequency in KHz
369  * @power:      pointer in which to store the calculated static power
370  *
371  * Calculate the static power consumed by the cpus described by
372  * @cpu_actor running at frequency @freq.  This function relies on a
373  * platform specific function that should have been provided when the
374  * actor was registered.  If it wasn't, the static power is assumed to
375  * be negligible.  The calculated static power is stored in @power.
376  *
377  * Return: 0 on success, -E* on failure.
378  */
379 static int get_static_power(struct cpufreq_cooling_device *cpufreq_device,
380                             struct thermal_zone_device *tz, unsigned long freq,
381                             u32 *power)
382 {
383         struct dev_pm_opp *opp;
384         unsigned long voltage;
385         struct cpumask *cpumask = &cpufreq_device->allowed_cpus;
386         unsigned long freq_hz = freq * 1000;
387
388         if (!cpufreq_device->plat_get_static_power ||
389             !cpufreq_device->cpu_dev) {
390                 *power = 0;
391                 return 0;
392         }
393
394         opp = dev_pm_opp_find_freq_exact(cpufreq_device->cpu_dev, freq_hz,
395                                          true);
396         if (IS_ERR(opp)) {
397                 dev_warn_ratelimited(cpufreq_device->cpu_dev,
398                                      "Failed to find OPP for frequency %lu: %ld\n",
399                                      freq_hz, PTR_ERR(opp));
400                 return -EINVAL;
401         }
402
403         voltage = dev_pm_opp_get_voltage(opp);
404         dev_pm_opp_put(opp);
405
406         if (voltage == 0) {
407                 dev_err_ratelimited(cpufreq_device->cpu_dev,
408                                     "Failed to get voltage for frequency %lu\n",
409                                     freq_hz);
410                 return -EINVAL;
411         }
412
413         return cpufreq_device->plat_get_static_power(cpumask, tz->passive_delay,
414                                                      voltage, power);
415 }
416
417 /**
418  * get_dynamic_power() - calculate the dynamic power
419  * @cpufreq_device:     &cpufreq_cooling_device for this cdev
420  * @freq:       current frequency
421  *
422  * Return: the dynamic power consumed by the cpus described by
423  * @cpufreq_device.
424  */
425 static u32 get_dynamic_power(struct cpufreq_cooling_device *cpufreq_device,
426                              unsigned long freq)
427 {
428         u32 raw_cpu_power;
429
430         raw_cpu_power = cpu_freq_to_power(cpufreq_device, freq);
431         return (raw_cpu_power * cpufreq_device->last_load) / 100;
432 }
433
434 /* cpufreq cooling device callback functions are defined below */
435
436 /**
437  * cpufreq_get_max_state - callback function to get the max cooling state.
438  * @cdev: thermal cooling device pointer.
439  * @state: fill this variable with the max cooling state.
440  *
441  * Callback for the thermal cooling device to return the cpufreq
442  * max cooling state.
443  *
444  * Return: 0 on success, an error code otherwise.
445  */
446 static int cpufreq_get_max_state(struct thermal_cooling_device *cdev,
447                                  unsigned long *state)
448 {
449         struct cpufreq_cooling_device *cpufreq_device = cdev->devdata;
450
451         *state = cpufreq_device->max_level;
452         return 0;
453 }
454
455 /**
456  * cpufreq_get_cur_state - callback function to get the current cooling state.
457  * @cdev: thermal cooling device pointer.
458  * @state: fill this variable with the current cooling state.
459  *
460  * Callback for the thermal cooling device to return the cpufreq
461  * current cooling state.
462  *
463  * Return: 0 on success, an error code otherwise.
464  */
465 static int cpufreq_get_cur_state(struct thermal_cooling_device *cdev,
466                                  unsigned long *state)
467 {
468         struct cpufreq_cooling_device *cpufreq_device = cdev->devdata;
469
470         *state = cpufreq_device->cpufreq_state;
471
472         return 0;
473 }
474
475 /**
476  * cpufreq_set_cur_state - callback function to set the current cooling state.
477  * @cdev: thermal cooling device pointer.
478  * @state: set this variable to the current cooling state.
479  *
480  * Callback for the thermal cooling device to change the cpufreq
481  * current cooling state.
482  *
483  * Return: 0 on success, an error code otherwise.
484  */
485 static int cpufreq_set_cur_state(struct thermal_cooling_device *cdev,
486                                  unsigned long state)
487 {
488         struct cpufreq_cooling_device *cpufreq_device = cdev->devdata;
489         unsigned int cpu = cpumask_any(&cpufreq_device->allowed_cpus);
490         unsigned int clip_freq;
491
492         /* Request state should be less than max_level */
493         if (WARN_ON(state > cpufreq_device->max_level))
494                 return -EINVAL;
495
496         /* Check if the old cooling action is same as new cooling action */
497         if (cpufreq_device->cpufreq_state == state)
498                 return 0;
499
500         clip_freq = cpufreq_device->freq_table[state];
501         cpufreq_device->cpufreq_state = state;
502         cpufreq_device->clipped_freq = clip_freq;
503
504         cpufreq_update_policy(cpu);
505
506         return 0;
507 }
508
509 /**
510  * cpufreq_get_requested_power() - get the current power
511  * @cdev:       &thermal_cooling_device pointer
512  * @tz:         a valid thermal zone device pointer
513  * @power:      pointer in which to store the resulting power
514  *
515  * Calculate the current power consumption of the cpus in milliwatts
516  * and store it in @power.  This function should actually calculate
517  * the requested power, but it's hard to get the frequency that
518  * cpufreq would have assigned if there were no thermal limits.
519  * Instead, we calculate the current power on the assumption that the
520  * immediate future will look like the immediate past.
521  *
522  * We use the current frequency and the average load since this
523  * function was last called.  In reality, there could have been
524  * multiple opps since this function was last called and that affects
525  * the load calculation.  While it's not perfectly accurate, this
526  * simplification is good enough and works.  REVISIT this, as more
527  * complex code may be needed if experiments show that it's not
528  * accurate enough.
529  *
530  * Return: 0 on success, -E* if getting the static power failed.
531  */
532 static int cpufreq_get_requested_power(struct thermal_cooling_device *cdev,
533                                        struct thermal_zone_device *tz,
534                                        u32 *power)
535 {
536         unsigned long freq;
537         int i = 0, cpu, ret;
538         u32 static_power, dynamic_power, total_load = 0;
539         struct cpufreq_cooling_device *cpufreq_device = cdev->devdata;
540         u32 *load_cpu = NULL;
541
542         cpu = cpumask_any_and(&cpufreq_device->allowed_cpus, cpu_online_mask);
543
544         /*
545          * All the CPUs are offline, thus the requested power by
546          * the cdev is 0
547          */
548         if (cpu >= nr_cpu_ids) {
549                 *power = 0;
550                 return 0;
551         }
552
553         freq = cpufreq_quick_get(cpu);
554
555         if (trace_thermal_power_cpu_get_power_enabled()) {
556                 u32 ncpus = cpumask_weight(&cpufreq_device->allowed_cpus);
557
558                 load_cpu = kcalloc(ncpus, sizeof(*load_cpu), GFP_KERNEL);
559         }
560
561         for_each_cpu(cpu, &cpufreq_device->allowed_cpus) {
562                 u32 load;
563
564                 if (cpu_online(cpu))
565                         load = get_load(cpufreq_device, cpu, i);
566                 else
567                         load = 0;
568
569                 total_load += load;
570                 if (trace_thermal_power_cpu_limit_enabled() && load_cpu)
571                         load_cpu[i] = load;
572
573                 i++;
574         }
575
576         cpufreq_device->last_load = total_load;
577
578         dynamic_power = get_dynamic_power(cpufreq_device, freq);
579         ret = get_static_power(cpufreq_device, tz, freq, &static_power);
580         if (ret) {
581                 kfree(load_cpu);
582                 return ret;
583         }
584
585         if (load_cpu) {
586                 trace_thermal_power_cpu_get_power(
587                         &cpufreq_device->allowed_cpus,
588                         freq, load_cpu, i, dynamic_power, static_power);
589
590                 kfree(load_cpu);
591         }
592
593         *power = static_power + dynamic_power;
594         return 0;
595 }
596
597 /**
598  * cpufreq_state2power() - convert a cpu cdev state to power consumed
599  * @cdev:       &thermal_cooling_device pointer
600  * @tz:         a valid thermal zone device pointer
601  * @state:      cooling device state to be converted
602  * @power:      pointer in which to store the resulting power
603  *
604  * Convert cooling device state @state into power consumption in
605  * milliwatts assuming 100% load.  Store the calculated power in
606  * @power.
607  *
608  * Return: 0 on success, -EINVAL if the cooling device state could not
609  * be converted into a frequency or other -E* if there was an error
610  * when calculating the static power.
611  */
612 static int cpufreq_state2power(struct thermal_cooling_device *cdev,
613                                struct thermal_zone_device *tz,
614                                unsigned long state, u32 *power)
615 {
616         unsigned int freq, num_cpus;
617         cpumask_var_t cpumask;
618         u32 static_power, dynamic_power;
619         int ret;
620         struct cpufreq_cooling_device *cpufreq_device = cdev->devdata;
621
622         if (!alloc_cpumask_var(&cpumask, GFP_KERNEL))
623                 return -ENOMEM;
624
625         cpumask_and(cpumask, &cpufreq_device->allowed_cpus, cpu_online_mask);
626         num_cpus = cpumask_weight(cpumask);
627
628         /* None of our cpus are online, so no power */
629         if (num_cpus == 0) {
630                 *power = 0;
631                 ret = 0;
632                 goto out;
633         }
634
635         freq = cpufreq_device->freq_table[state];
636         if (!freq) {
637                 ret = -EINVAL;
638                 goto out;
639         }
640
641         dynamic_power = cpu_freq_to_power(cpufreq_device, freq) * num_cpus;
642         ret = get_static_power(cpufreq_device, tz, freq, &static_power);
643         if (ret)
644                 goto out;
645
646         *power = static_power + dynamic_power;
647 out:
648         free_cpumask_var(cpumask);
649         return ret;
650 }
651
652 /**
653  * cpufreq_power2state() - convert power to a cooling device state
654  * @cdev:       &thermal_cooling_device pointer
655  * @tz:         a valid thermal zone device pointer
656  * @power:      power in milliwatts to be converted
657  * @state:      pointer in which to store the resulting state
658  *
659  * Calculate a cooling device state for the cpus described by @cdev
660  * that would allow them to consume at most @power mW and store it in
661  * @state.  Note that this calculation depends on external factors
662  * such as the cpu load or the current static power.  Calling this
663  * function with the same power as input can yield different cooling
664  * device states depending on those external factors.
665  *
666  * Return: 0 on success, -ENODEV if no cpus are online or -EINVAL if
667  * the calculated frequency could not be converted to a valid state.
668  * The latter should not happen unless the frequencies available to
669  * cpufreq have changed since the initialization of the cpu cooling
670  * device.
671  */
672 static int cpufreq_power2state(struct thermal_cooling_device *cdev,
673                                struct thermal_zone_device *tz, u32 power,
674                                unsigned long *state)
675 {
676         unsigned int cpu, cur_freq, target_freq;
677         int ret;
678         s32 dyn_power;
679         u32 last_load, normalised_power, static_power;
680         struct cpufreq_cooling_device *cpufreq_device = cdev->devdata;
681
682         cpu = cpumask_any_and(&cpufreq_device->allowed_cpus, cpu_online_mask);
683
684         /* None of our cpus are online */
685         if (cpu >= nr_cpu_ids)
686                 return -ENODEV;
687
688         cur_freq = cpufreq_quick_get(cpu);
689         ret = get_static_power(cpufreq_device, tz, cur_freq, &static_power);
690         if (ret)
691                 return ret;
692
693         dyn_power = power - static_power;
694         dyn_power = dyn_power > 0 ? dyn_power : 0;
695         last_load = cpufreq_device->last_load ?: 1;
696         normalised_power = (dyn_power * 100) / last_load;
697         target_freq = cpu_power_to_freq(cpufreq_device, normalised_power);
698
699         *state = cpufreq_cooling_get_level(cpu, target_freq);
700         if (*state == THERMAL_CSTATE_INVALID) {
701                 dev_err_ratelimited(&cdev->device,
702                                     "Failed to convert %dKHz for cpu %d into a cdev state\n",
703                                     target_freq, cpu);
704                 return -EINVAL;
705         }
706
707         trace_thermal_power_cpu_limit(&cpufreq_device->allowed_cpus,
708                                       target_freq, *state, power);
709         return 0;
710 }
711
712 /* Bind cpufreq callbacks to thermal cooling device ops */
713
714 static struct thermal_cooling_device_ops cpufreq_cooling_ops = {
715         .get_max_state = cpufreq_get_max_state,
716         .get_cur_state = cpufreq_get_cur_state,
717         .set_cur_state = cpufreq_set_cur_state,
718 };
719
720 static struct thermal_cooling_device_ops cpufreq_power_cooling_ops = {
721         .get_max_state          = cpufreq_get_max_state,
722         .get_cur_state          = cpufreq_get_cur_state,
723         .set_cur_state          = cpufreq_set_cur_state,
724         .get_requested_power    = cpufreq_get_requested_power,
725         .state2power            = cpufreq_state2power,
726         .power2state            = cpufreq_power2state,
727 };
728
729 /* Notifier for cpufreq policy change */
730 static struct notifier_block thermal_cpufreq_notifier_block = {
731         .notifier_call = cpufreq_thermal_notifier,
732 };
733
734 static unsigned int find_next_max(struct cpufreq_frequency_table *table,
735                                   unsigned int prev_max)
736 {
737         struct cpufreq_frequency_table *pos;
738         unsigned int max = 0;
739
740         cpufreq_for_each_valid_entry(pos, table) {
741                 if (pos->frequency > max && pos->frequency < prev_max)
742                         max = pos->frequency;
743         }
744
745         return max;
746 }
747
748 /**
749  * __cpufreq_cooling_register - helper function to create cpufreq cooling device
750  * @np: a valid struct device_node to the cooling device device tree node
751  * @clip_cpus: cpumask of cpus where the frequency constraints will happen.
752  * Normally this should be same as cpufreq policy->related_cpus.
753  * @capacitance: dynamic power coefficient for these cpus
754  * @plat_static_func: function to calculate the static power consumed by these
755  *                    cpus (optional)
756  *
757  * This interface function registers the cpufreq cooling device with the name
758  * "thermal-cpufreq-%x". This api can support multiple instances of cpufreq
759  * cooling devices. It also gives the opportunity to link the cooling device
760  * with a device tree node, in order to bind it via the thermal DT code.
761  *
762  * Return: a valid struct thermal_cooling_device pointer on success,
763  * on failure, it returns a corresponding ERR_PTR().
764  */
765 static struct thermal_cooling_device *
766 __cpufreq_cooling_register(struct device_node *np,
767                         const struct cpumask *clip_cpus, u32 capacitance,
768                         get_static_t plat_static_func)
769 {
770         struct cpufreq_policy *policy;
771         struct thermal_cooling_device *cool_dev;
772         struct cpufreq_cooling_device *cpufreq_dev;
773         char dev_name[THERMAL_NAME_LENGTH];
774         struct cpufreq_frequency_table *pos, *table;
775         cpumask_var_t temp_mask;
776         unsigned int freq, i, num_cpus;
777         int ret;
778         struct thermal_cooling_device_ops *cooling_ops;
779         bool first;
780
781         if (!alloc_cpumask_var(&temp_mask, GFP_KERNEL))
782                 return ERR_PTR(-ENOMEM);
783
784         cpumask_and(temp_mask, clip_cpus, cpu_online_mask);
785         policy = cpufreq_cpu_get(cpumask_first(temp_mask));
786         if (!policy) {
787                 pr_debug("%s: CPUFreq policy not found\n", __func__);
788                 cool_dev = ERR_PTR(-EPROBE_DEFER);
789                 goto free_cpumask;
790         }
791
792         table = policy->freq_table;
793         if (!table) {
794                 pr_debug("%s: CPUFreq table not found\n", __func__);
795                 cool_dev = ERR_PTR(-ENODEV);
796                 goto put_policy;
797         }
798
799         cpufreq_dev = kzalloc(sizeof(*cpufreq_dev), GFP_KERNEL);
800         if (!cpufreq_dev) {
801                 cool_dev = ERR_PTR(-ENOMEM);
802                 goto put_policy;
803         }
804
805         num_cpus = cpumask_weight(clip_cpus);
806         cpufreq_dev->time_in_idle = kcalloc(num_cpus,
807                                             sizeof(*cpufreq_dev->time_in_idle),
808                                             GFP_KERNEL);
809         if (!cpufreq_dev->time_in_idle) {
810                 cool_dev = ERR_PTR(-ENOMEM);
811                 goto free_cdev;
812         }
813
814         cpufreq_dev->time_in_idle_timestamp =
815                 kcalloc(num_cpus, sizeof(*cpufreq_dev->time_in_idle_timestamp),
816                         GFP_KERNEL);
817         if (!cpufreq_dev->time_in_idle_timestamp) {
818                 cool_dev = ERR_PTR(-ENOMEM);
819                 goto free_time_in_idle;
820         }
821
822         /* Find max levels */
823         cpufreq_for_each_valid_entry(pos, table)
824                 cpufreq_dev->max_level++;
825
826         cpufreq_dev->freq_table = kmalloc(sizeof(*cpufreq_dev->freq_table) *
827                                           cpufreq_dev->max_level, GFP_KERNEL);
828         if (!cpufreq_dev->freq_table) {
829                 cool_dev = ERR_PTR(-ENOMEM);
830                 goto free_time_in_idle_timestamp;
831         }
832
833         /* max_level is an index, not a counter */
834         cpufreq_dev->max_level--;
835
836         cpumask_copy(&cpufreq_dev->allowed_cpus, clip_cpus);
837
838         if (capacitance) {
839                 cpufreq_dev->plat_get_static_power = plat_static_func;
840
841                 ret = build_dyn_power_table(cpufreq_dev, capacitance);
842                 if (ret) {
843                         cool_dev = ERR_PTR(ret);
844                         goto free_table;
845                 }
846
847                 cooling_ops = &cpufreq_power_cooling_ops;
848         } else {
849                 cooling_ops = &cpufreq_cooling_ops;
850         }
851
852         ret = ida_simple_get(&cpufreq_ida, 0, 0, GFP_KERNEL);
853         if (ret < 0) {
854                 cool_dev = ERR_PTR(ret);
855                 goto free_power_table;
856         }
857         cpufreq_dev->id = ret;
858
859         /* Fill freq-table in descending order of frequencies */
860         for (i = 0, freq = -1; i <= cpufreq_dev->max_level; i++) {
861                 freq = find_next_max(table, freq);
862                 cpufreq_dev->freq_table[i] = freq;
863
864                 /* Warn for duplicate entries */
865                 if (!freq)
866                         pr_warn("%s: table has duplicate entries\n", __func__);
867                 else
868                         pr_debug("%s: freq:%u KHz\n", __func__, freq);
869         }
870
871         snprintf(dev_name, sizeof(dev_name), "thermal-cpufreq-%d",
872                  cpufreq_dev->id);
873
874         cool_dev = thermal_of_cooling_device_register(np, dev_name, cpufreq_dev,
875                                                       cooling_ops);
876         if (IS_ERR(cool_dev))
877                 goto remove_ida;
878
879         cpufreq_dev->clipped_freq = cpufreq_dev->freq_table[0];
880         cpufreq_dev->cool_dev = cool_dev;
881
882         mutex_lock(&cooling_list_lock);
883         /* Register the notifier for first cpufreq cooling device */
884         first = list_empty(&cpufreq_dev_list);
885         list_add(&cpufreq_dev->node, &cpufreq_dev_list);
886         mutex_unlock(&cooling_list_lock);
887
888         if (first)
889                 cpufreq_register_notifier(&thermal_cpufreq_notifier_block,
890                                           CPUFREQ_POLICY_NOTIFIER);
891
892         goto put_policy;
893
894 remove_ida:
895         ida_simple_remove(&cpufreq_ida, cpufreq_dev->id);
896 free_power_table:
897         kfree(cpufreq_dev->dyn_power_table);
898 free_table:
899         kfree(cpufreq_dev->freq_table);
900 free_time_in_idle_timestamp:
901         kfree(cpufreq_dev->time_in_idle_timestamp);
902 free_time_in_idle:
903         kfree(cpufreq_dev->time_in_idle);
904 free_cdev:
905         kfree(cpufreq_dev);
906 put_policy:
907         cpufreq_cpu_put(policy);
908 free_cpumask:
909         free_cpumask_var(temp_mask);
910         return cool_dev;
911 }
912
913 /**
914  * cpufreq_cooling_register - function to create cpufreq cooling device.
915  * @clip_cpus: cpumask of cpus where the frequency constraints will happen.
916  *
917  * This interface function registers the cpufreq cooling device with the name
918  * "thermal-cpufreq-%x". This api can support multiple instances of cpufreq
919  * cooling devices.
920  *
921  * Return: a valid struct thermal_cooling_device pointer on success,
922  * on failure, it returns a corresponding ERR_PTR().
923  */
924 struct thermal_cooling_device *
925 cpufreq_cooling_register(const struct cpumask *clip_cpus)
926 {
927         return __cpufreq_cooling_register(NULL, clip_cpus, 0, NULL);
928 }
929 EXPORT_SYMBOL_GPL(cpufreq_cooling_register);
930
931 /**
932  * of_cpufreq_cooling_register - function to create cpufreq cooling device.
933  * @np: a valid struct device_node to the cooling device device tree node
934  * @clip_cpus: cpumask of cpus where the frequency constraints will happen.
935  *
936  * This interface function registers the cpufreq cooling device with the name
937  * "thermal-cpufreq-%x". This api can support multiple instances of cpufreq
938  * cooling devices. Using this API, the cpufreq cooling device will be
939  * linked to the device tree node provided.
940  *
941  * Return: a valid struct thermal_cooling_device pointer on success,
942  * on failure, it returns a corresponding ERR_PTR().
943  */
944 struct thermal_cooling_device *
945 of_cpufreq_cooling_register(struct device_node *np,
946                             const struct cpumask *clip_cpus)
947 {
948         if (!np)
949                 return ERR_PTR(-EINVAL);
950
951         return __cpufreq_cooling_register(np, clip_cpus, 0, NULL);
952 }
953 EXPORT_SYMBOL_GPL(of_cpufreq_cooling_register);
954
955 /**
956  * cpufreq_power_cooling_register() - create cpufreq cooling device with power extensions
957  * @clip_cpus:  cpumask of cpus where the frequency constraints will happen
958  * @capacitance:        dynamic power coefficient for these cpus
959  * @plat_static_func:   function to calculate the static power consumed by these
960  *                      cpus (optional)
961  *
962  * This interface function registers the cpufreq cooling device with
963  * the name "thermal-cpufreq-%x".  This api can support multiple
964  * instances of cpufreq cooling devices.  Using this function, the
965  * cooling device will implement the power extensions by using a
966  * simple cpu power model.  The cpus must have registered their OPPs
967  * using the OPP library.
968  *
969  * An optional @plat_static_func may be provided to calculate the
970  * static power consumed by these cpus.  If the platform's static
971  * power consumption is unknown or negligible, make it NULL.
972  *
973  * Return: a valid struct thermal_cooling_device pointer on success,
974  * on failure, it returns a corresponding ERR_PTR().
975  */
976 struct thermal_cooling_device *
977 cpufreq_power_cooling_register(const struct cpumask *clip_cpus, u32 capacitance,
978                                get_static_t plat_static_func)
979 {
980         return __cpufreq_cooling_register(NULL, clip_cpus, capacitance,
981                                 plat_static_func);
982 }
983 EXPORT_SYMBOL(cpufreq_power_cooling_register);
984
985 /**
986  * of_cpufreq_power_cooling_register() - create cpufreq cooling device with power extensions
987  * @np: a valid struct device_node to the cooling device device tree node
988  * @clip_cpus:  cpumask of cpus where the frequency constraints will happen
989  * @capacitance:        dynamic power coefficient for these cpus
990  * @plat_static_func:   function to calculate the static power consumed by these
991  *                      cpus (optional)
992  *
993  * This interface function registers the cpufreq cooling device with
994  * the name "thermal-cpufreq-%x".  This api can support multiple
995  * instances of cpufreq cooling devices.  Using this API, the cpufreq
996  * cooling device will be linked to the device tree node provided.
997  * Using this function, the cooling device will implement the power
998  * extensions by using a simple cpu power model.  The cpus must have
999  * registered their OPPs using the OPP library.
1000  *
1001  * An optional @plat_static_func may be provided to calculate the
1002  * static power consumed by these cpus.  If the platform's static
1003  * power consumption is unknown or negligible, make it NULL.
1004  *
1005  * Return: a valid struct thermal_cooling_device pointer on success,
1006  * on failure, it returns a corresponding ERR_PTR().
1007  */
1008 struct thermal_cooling_device *
1009 of_cpufreq_power_cooling_register(struct device_node *np,
1010                                   const struct cpumask *clip_cpus,
1011                                   u32 capacitance,
1012                                   get_static_t plat_static_func)
1013 {
1014         if (!np)
1015                 return ERR_PTR(-EINVAL);
1016
1017         return __cpufreq_cooling_register(np, clip_cpus, capacitance,
1018                                 plat_static_func);
1019 }
1020 EXPORT_SYMBOL(of_cpufreq_power_cooling_register);
1021
1022 /**
1023  * cpufreq_cooling_unregister - function to remove cpufreq cooling device.
1024  * @cdev: thermal cooling device pointer.
1025  *
1026  * This interface function unregisters the "thermal-cpufreq-%x" cooling device.
1027  */
1028 void cpufreq_cooling_unregister(struct thermal_cooling_device *cdev)
1029 {
1030         struct cpufreq_cooling_device *cpufreq_dev;
1031         bool last;
1032
1033         if (!cdev)
1034                 return;
1035
1036         cpufreq_dev = cdev->devdata;
1037
1038         mutex_lock(&cooling_list_lock);
1039         list_del(&cpufreq_dev->node);
1040         /* Unregister the notifier for the last cpufreq cooling device */
1041         last = list_empty(&cpufreq_dev_list);
1042         mutex_unlock(&cooling_list_lock);
1043
1044         if (last)
1045                 cpufreq_unregister_notifier(&thermal_cpufreq_notifier_block,
1046                                             CPUFREQ_POLICY_NOTIFIER);
1047
1048         thermal_cooling_device_unregister(cpufreq_dev->cool_dev);
1049         ida_simple_remove(&cpufreq_ida, cpufreq_dev->id);
1050         kfree(cpufreq_dev->dyn_power_table);
1051         kfree(cpufreq_dev->time_in_idle_timestamp);
1052         kfree(cpufreq_dev->time_in_idle);
1053         kfree(cpufreq_dev->freq_table);
1054         kfree(cpufreq_dev);
1055 }
1056 EXPORT_SYMBOL_GPL(cpufreq_cooling_unregister);