Palacios Public Git Repository

To checkout Palacios execute

  git clone http://v3vee.org/palacios/palacios.web/palacios.git
This will give you the master branch. You probably want the devel branch or one of the release branches. To switch to the devel branch, simply execute
  cd palacios
  git checkout --track -b devel origin/devel
The other branches are similar.


Fixups to let us run multiple guests on a single CPU again, and started fixing
[palacios.git] / palacios / src / palacios / vmm_time.c
1 /* 
2  * This file is part of the Palacios Virtual Machine Monitor developed
3  * by the V3VEE Project with funding from the United States National 
4  * Science Foundation and the Department of Energy.  
5  *
6  * The V3VEE Project is a joint project between Northwestern University
7  * and the University of New Mexico.  You can find out more at 
8  * http://www.v3vee.org
9  *
10  * Copyright (c) 2008, Jack Lange <jarusl@cs.northwestern.edu> 
11  * Copyright (c) 2008, The V3VEE Project <http://www.v3vee.org> 
12  * All rights reserved.
13  *
14  * Author: Jack Lange <jarusl@cs.northwestern.edu>
15  *         Patrick G. Bridges <bridges@cs.unm.edu>
16  *
17  * This is free software.  You are permitted to use,
18  * redistribute, and modify it as specified in the file "V3VEE_LICENSE".
19  */
20
21 #include <palacios/vmm_time.h>
22 #include <palacios/vmm.h>
23 #include <palacios/vm_guest.h>
24
25 #ifndef CONFIG_DEBUG_TIME
26 #undef PrintDebug
27 #define PrintDebug(fmt, args...)
28 #endif
29
30 /* Overview 
31  *
32  * Time handling in VMMs is challenging, and Palacios uses the highest 
33  * resolution, lowest overhead timer on modern CPUs that it can - the 
34  * processor timestamp counter (TSC). Note that on somewhat old processors
35  * this can be problematic; in particular, older AMD processors did not 
36  * have a constant rate timestamp counter in the face of power management
37  * events. However, the latest Intel and AMD CPUs all do (should...) have a 
38  * constant rate TSC, and Palacios relies on this fact.
39  * 
40  * Basically, Palacios keeps track of three quantities as it runs to manage
41  * the passage of time:
42  * (1) The host timestamp counter - read directly from HW and never written
43  * (2) A monotonic guest timestamp counter used to measure the progression of
44  *     time in the guest. This is computed using an offsets from (1) above.
45  * (3) The actual guest timestamp counter (which can be written by
46  *     writing to the guest TSC MSR - MSR 0x10) from the monotonic guest TSC.
47  *     This is also computed as an offset from (2) above when the TSC and
48  *     this offset is updated when the TSC MSR is written.
49  *
50  * The value used to offset the guest TSC from the host TSC is the *sum* of all
51  * of these offsets (2 and 3) above
52  * 
53  * Because all other devices are slaved off of the passage of time in the guest,
54  * it is (2) above that drives the firing of other timers in the guest, 
55  * including timer devices such as the Programmable Interrupt Timer (PIT).
56  *
57  * Future additions:
58  * (1) Add support for temporarily skewing guest time off of where it should
59  *     be to support slack simulation of guests. The idea is that simulators
60  *     set this skew to be the difference between how much time passed for a 
61  *     simulated feature and a real implementation of that feature, making 
62  *     pass at a different rate from real time on this core. The VMM will then
63  *     attempt to move this skew back towards 0 subject to resolution/accuracy
64  *     constraints from various system timers.
65  *   
66  *     The main effort in doing this will be to get accuracy/resolution 
67  *     information from each local timer and to use this to bound how much skew
68  *     is removed on each exit.
69  */
70
71
72 static int handle_cpufreq_hcall(struct guest_info * info, uint_t hcall_id, void * priv_data) {
73     struct vm_time * time_state = &(info->time_state);
74
75     info->vm_regs.rbx = time_state->guest_cpu_freq;
76
77     PrintDebug("Guest request cpu frequency: return %ld\n", (long)info->vm_regs.rbx);
78     
79     return 0;
80 }
81
82
83
84 int v3_start_time(struct guest_info * info) {
85     /* We start running with guest_time == host_time */
86     uint64_t t = v3_get_host_time(&info->time_state); 
87
88     PrintDebug("Starting initial guest time as %llu\n", t);
89 #ifdef CONFIG_TIME_HIDE_VM_COST
90     info->time_state.pause_time = t; 
91 #else
92     info->time_state.pause_time = 0; 
93 #endif
94     info->time_state.last_update = t;
95     info->time_state.initial_time = t;
96     info->yield_start_cycle = t;
97     return 0;
98 }
99
100 // If the guest is supposed to run slower than the host, yield out until
101 // the host time is appropriately far along;
102 int v3_adjust_time(struct guest_info * info) {
103     struct vm_time * time_state = &(info->time_state);
104
105     if (time_state->host_cpu_freq != time_state->guest_cpu_freq) {
106         uint64_t guest_time, host_time, target_host_time;
107         sint64_t guest_elapsed, desired_elapsed;
108
109         guest_time = v3_get_guest_time(time_state);
110
111         /* Compute what host time this guest time should correspond to. */
112         guest_elapsed = (guest_time - time_state->initial_time);
113         desired_elapsed = (guest_elapsed * time_state->host_cpu_freq) / time_state->guest_cpu_freq;
114         target_host_time = time_state->initial_time + desired_elapsed;
115
116         /* Yield until that host time is reached */
117         host_time = v3_get_host_time(time_state);
118
119         if (host_time < target_host_time) {
120             PrintDebug("Yielding until host time (%llu) greater than target (%llu).\n", host_time, target_host_time);
121         }
122
123         while (host_time < target_host_time) {
124             v3_yield(info);
125             host_time = v3_get_host_time(time_state);
126         }
127
128 #ifndef CONFIG_TIME_HIDE_VM_COST
129         // XXX This should turn into a target offset we want to move towards XXX
130         time_state->guest_host_offset = 
131                 (sint64_t)guest_time - (sint64_t)host_time;
132 #endif
133     }
134
135     return 0;
136 }
137
138 int 
139 v3_pause_time( struct guest_info * info ) 
140 {
141     struct vm_time * time_state = &(info->time_state);
142     if (time_state->pause_time == 0) {
143         time_state->pause_time = v3_get_host_time(time_state);
144 //      PrintDebug("Pausing at host time %llu.\n", time_state->pause_time);
145     } else {
146         PrintError("Palacios timekeeping paused when already paused.\n");
147     }
148     return 0;
149 }
150
151 int 
152 v3_restart_time( struct guest_info * info )
153 {
154     struct vm_time * time_state = &(info->time_state);
155
156     if (time_state->pause_time) {
157         sint64_t pause_diff = (v3_get_host_time(time_state) - time_state->pause_time);
158         time_state->guest_host_offset -= pause_diff;
159         time_state->pause_time = 0;
160 //      PrintDebug("Resuming time after %lld cycles with offset %lld.\n", pause_diff, time_state->guest_host_offset);
161     } else {
162         PrintError( "Palacios time keeping restarted when not paused.");
163     }
164
165     return 0;
166 }
167         
168 int v3_offset_time( struct guest_info * info, sint64_t offset )
169 {
170     struct vm_time * time_state = &(info->time_state);
171 //    PrintDebug("Adding additional offset of %lld to guest time.\n", offset);
172     time_state->guest_host_offset += offset;
173     return 0;
174 }
175            
176 struct v3_timer * v3_add_timer(struct guest_info * info, 
177                                struct v3_timer_ops * ops, 
178                                void * private_data) {
179     struct v3_timer * timer = NULL;
180     timer = (struct v3_timer *)V3_Malloc(sizeof(struct v3_timer));
181     V3_ASSERT(timer != NULL);
182
183     timer->ops = ops;
184     timer->private_data = private_data;
185
186     list_add(&(timer->timer_link), &(info->time_state.timers));
187     info->time_state.num_timers++;
188
189     return timer;
190 }
191
192 int v3_remove_timer(struct guest_info * info, struct v3_timer * timer) {
193     list_del(&(timer->timer_link));
194     info->time_state.num_timers--;
195
196     V3_Free(timer);
197     return 0;
198 }
199
200 void v3_update_timers(struct guest_info * info) {
201     struct vm_time *time_state = &info->time_state;
202     struct v3_timer * tmp_timer;
203     uint64_t old_time = info->time_state.last_update;
204     sint64_t cycles;
205
206     time_state->last_update = v3_get_guest_time(time_state);
207     cycles = time_state->last_update - old_time;
208
209     //    PrintDebug("Updating timer for %lld elapsed cycles (pt=%llu, offset=%lld).\n", 
210     //         cycles, time_state->pause_time, time_state->guest_host_offset);
211
212     list_for_each_entry(tmp_timer, &(time_state->timers), timer_link) {
213         tmp_timer->ops->update_timer(info, cycles, time_state->guest_cpu_freq, tmp_timer->private_data);
214     }
215 }
216
217 /* 
218  * Handle full virtualization of the time stamp counter.  As noted
219  * above, we don't store the actual value of the TSC, only the guest's
220  * offset from monotonic guest's time. If the guest writes to the TSC, we
221  * handle this by changing that offset.
222  *
223  * Possible TODO: Proper hooking of TSC read/writes?
224  */ 
225
226 int v3_rdtsc(struct guest_info * info) {
227     uint64_t tscval = v3_get_guest_tsc(&info->time_state);
228     info->vm_regs.rdx = tscval >> 32;
229     info->vm_regs.rax = tscval & 0xffffffffLL;
230     return 0;
231 }
232
233 int v3_handle_rdtsc(struct guest_info * info) {
234     v3_rdtsc(info);
235     
236     info->vm_regs.rax &= 0x00000000ffffffffLL;
237     info->vm_regs.rdx &= 0x00000000ffffffffLL;
238
239     info->rip += 2;
240     
241     return 0;
242 }
243
244 int v3_rdtscp(struct guest_info * info) {
245     int ret;
246     /* First get the MSR value that we need. It's safe to futz with
247      * ra/c/dx here since they're modified by this instruction anyway. */
248     info->vm_regs.rcx = TSC_AUX_MSR; 
249     ret = v3_handle_msr_read(info);
250
251     if (ret != 0) {
252         return ret;
253     }
254
255     info->vm_regs.rcx = info->vm_regs.rax;
256
257     /* Now do the TSC half of the instruction */
258     ret = v3_rdtsc(info);
259
260     if (ret != 0) {
261         return ret;
262     }
263
264     return 0;
265 }
266
267
268 int v3_handle_rdtscp(struct guest_info * info) {
269   PrintDebug("Handling virtual RDTSCP call.\n");
270
271     v3_rdtscp(info);
272
273     info->vm_regs.rax &= 0x00000000ffffffffLL;
274     info->vm_regs.rcx &= 0x00000000ffffffffLL;
275     info->vm_regs.rdx &= 0x00000000ffffffffLL;
276
277     info->rip += 3;
278     
279     return 0;
280 }
281
282 static int tsc_aux_msr_read_hook(struct guest_info *info, uint_t msr_num, 
283                                  struct v3_msr *msr_val, void *priv) {
284     struct vm_time * time_state = &(info->time_state);
285
286     V3_ASSERT(msr_num == TSC_AUX_MSR);
287
288     msr_val->lo = time_state->tsc_aux.lo;
289     msr_val->hi = time_state->tsc_aux.hi;
290
291     return 0;
292 }
293
294 static int tsc_aux_msr_write_hook(struct guest_info *info, uint_t msr_num, 
295                               struct v3_msr msr_val, void *priv) {
296     struct vm_time * time_state = &(info->time_state);
297
298     V3_ASSERT(msr_num == TSC_AUX_MSR);
299
300     time_state->tsc_aux.lo = msr_val.lo;
301     time_state->tsc_aux.hi = msr_val.hi;
302
303     return 0;
304 }
305
306 static int tsc_msr_read_hook(struct guest_info *info, uint_t msr_num,
307                              struct v3_msr *msr_val, void *priv) {
308     uint64_t time = v3_get_guest_tsc(&info->time_state);
309
310     V3_ASSERT(msr_num == TSC_MSR);
311
312     msr_val->hi = time >> 32;
313     msr_val->lo = time & 0xffffffffLL;
314     
315     return 0;
316 }
317
318 static int tsc_msr_write_hook(struct guest_info *info, uint_t msr_num,
319                              struct v3_msr msr_val, void *priv) {
320     struct vm_time * time_state = &(info->time_state);
321     uint64_t guest_time, new_tsc;
322
323     V3_ASSERT(msr_num == TSC_MSR);
324
325     new_tsc = (((uint64_t)msr_val.hi) << 32) | (uint64_t)msr_val.lo;
326     guest_time = v3_get_guest_time(time_state);
327     time_state->tsc_guest_offset = (sint64_t)new_tsc - (sint64_t)guest_time; 
328
329     return 0;
330 }
331
332
333 int v3_init_time_vm(struct v3_vm_info * vm) {
334     int ret;
335
336     PrintDebug("Installing TSC MSR hook.\n");
337     ret = v3_hook_msr(vm, TSC_MSR, 
338                       tsc_msr_read_hook, tsc_msr_write_hook, NULL);
339
340     if (ret != 0) {
341         return ret;
342     }
343
344     PrintDebug("Installing TSC_AUX MSR hook.\n");
345     ret = v3_hook_msr(vm, TSC_AUX_MSR, tsc_aux_msr_read_hook, 
346                       tsc_aux_msr_write_hook, NULL);
347
348     if (ret != 0) {
349         return ret;
350     }
351
352     PrintDebug("Registering TIME_CPUFREQ hypercall.\n");
353     ret = v3_register_hypercall(vm, TIME_CPUFREQ_HCALL, 
354                                 handle_cpufreq_hcall, NULL);
355
356     return ret;
357 }
358
359 void v3_deinit_time_vm(struct v3_vm_info * vm) {
360     v3_unhook_msr(vm, TSC_MSR);
361     v3_unhook_msr(vm, TSC_AUX_MSR);
362
363     v3_remove_hypercall(vm, TIME_CPUFREQ_HCALL);
364 }
365
366 void v3_init_time_core(struct guest_info * info) {
367     struct vm_time * time_state = &(info->time_state);
368     v3_cfg_tree_t * cfg_tree = info->core_cfg_data;
369     char * khz = NULL;
370
371     time_state->host_cpu_freq = V3_CPU_KHZ();
372     khz = v3_cfg_val(cfg_tree, "khz");
373
374     if (khz) {
375         time_state->guest_cpu_freq = atoi(khz);
376         PrintDebug("Core %d CPU frequency requested at %d khz.\n", 
377                    info->cpu_id, time_state->guest_cpu_freq);
378     } 
379     
380     if ((khz == NULL) || (time_state->guest_cpu_freq <= 0) 
381         || (time_state->guest_cpu_freq > time_state->host_cpu_freq)) {
382         time_state->guest_cpu_freq = time_state->host_cpu_freq;
383     }
384
385     PrintDebug("Core %d CPU frequency set to %d KHz (host CPU frequency = %d KHz).\n", 
386                info->cpu_id, 
387                time_state->guest_cpu_freq, 
388                time_state->host_cpu_freq);
389
390     time_state->initial_time = 0;
391     time_state->last_update = 0;
392     time_state->guest_host_offset = 0;
393     time_state->tsc_guest_offset = 0;
394
395     INIT_LIST_HEAD(&(time_state->timers));
396     time_state->num_timers = 0;
397     
398     time_state->tsc_aux.lo = 0;
399     time_state->tsc_aux.hi = 0;
400
401
402 }
403
404
405 void v3_deinit_time_core(struct guest_info * core) {
406     struct vm_time * time_state = &(core->time_state);
407     struct v3_timer * tmr = NULL;
408     struct v3_timer * tmp = NULL;
409
410     list_for_each_entry_safe(tmr, tmp, &(time_state->timers), timer_link) {
411         v3_remove_timer(core, tmr);
412     }
413
414 }
415
416
417
418
419
420