X-Git-Url: http://v3vee.org/palacios/gitweb/gitweb.cgi?a=blobdiff_plain;f=palacios%2Fsrc%2Fpalacios%2Fvmm.c;h=e16e2fa60f580e7b36f00f8e3fe1f66b393b7d4d;hb=928297a7cf5ffbf3a210fcaf7556e681bbb436d5;hp=a162da5ab3dc644a5bf3178f0dfa137c12a1f75b;hpb=2fff50d3e72abf29655326449ed4dc5cf6e8f429;p=palacios.git

diff --git a/palacios/src/palacios/vmm.c b/palacios/src/palacios/vmm.c
index a162da5..e16e2fa 100644
--- a/palacios/src/palacios/vmm.c
+++ b/palacios/src/palacios/vmm.c
@@ -18,6 +18,7 @@
  */
 
 #include <palacios/vmm.h>
+#include <palacios/vmm_mem.h>
 #include <palacios/vmm_intr.h>
 #include <palacios/vmm_config.h>
 #include <palacios/vm_guest.h>
@@ -28,6 +29,9 @@
 #include <palacios/vmm_timeout.h>
 #include <palacios/vmm_options.h>
 #include <palacios/vmm_cpu_mapper.h>
+#include <palacios/vmm_direct_paging.h>
+#include <interfaces/vmm_numa.h>
+#include <interfaces/vmm_file.h>
 
 #ifdef V3_CONFIG_SVM
 #include <palacios/svm.h>
@@ -49,10 +53,11 @@ int v3_dbg_enable = 0;
 
 
 
-
 static void init_cpu(void * arg) {
     uint32_t cpu_id = (uint32_t)(addr_t)arg;
 
+    v3_init_fp();
+
 #ifdef V3_CONFIG_SVM
     if (v3_is_svm_capable()) {
         PrintDebug(VM_NONE, VCORE_NONE, "Machine is SVM Capable\n");
@@ -98,7 +103,21 @@ static void deinit_cpu(void * arg) {
 	    PrintError(VM_NONE, VCORE_NONE, "CPU has no virtualization Extensions\n");
 	    break;
     }
+
+    v3_deinit_fp();
+
+}
+
+
+static int in_long_mode()
+{
+  uint32_t high, low;
+
+  v3_get_msr(0xc0000080,&high,&low); // EFER
+  
+  return ((low & 0x500)== 0x500);  // LMA and LME set
 }
+  
 
 void Init_V3(struct v3_os_hooks * hooks, char * cpu_mask, int num_cpus, char *options) {
     int i = 0;
@@ -107,9 +126,24 @@ void Init_V3(struct v3_os_hooks * hooks, char * cpu_mask, int num_cpus, char *op
 
     V3_Print(VM_NONE, VCORE_NONE, "V3 Print statement to fix a Kitten page fault bug\n");
 
+
+
+#ifndef __V3_64BIT__
+#error Palacios does not support compilation for a 32 bit host OS!!!!
+#else
+    if (!in_long_mode()) { 
+      PrintError(VM_NONE,VCORE_NONE,"Palacios supports execution only in long mode (64 bit).\n");
+      return;
+    }
+#endif
+
     // Set global variables. 
     os_hooks = hooks;
 
+    if (num_cpus>V3_CONFIG_MAX_CPUS) { 
+	PrintError(VM_NONE,VCORE_NONE, "Requesting as many as %d cpus, but Palacios is compiled for a maximum of %d.  Only the first %d cpus will be considered\n", num_cpus, V3_CONFIG_MAX_CPUS, V3_CONFIG_MAX_CPUS);
+    }
+
     // Determine the global machine type
     v3_mach_type = V3_INVALID_CPU;
 
@@ -120,12 +154,19 @@ void Init_V3(struct v3_os_hooks * hooks, char * cpu_mask, int num_cpus, char *op
     // Parse host-os defined options into an easily-accessed format.
     v3_parse_options(options);
 
+    // Memory manager initialization
+    v3_init_mem();
+
     // Register all the possible device types
     V3_init_devices();
 
     // Register all shadow paging handlers
     V3_init_shdw_paging();
 
+#ifdef V3_CONFIG_SWAPPING
+    v3_init_swapping();
+#endif
+
     // Initialize the cpu_mapper framework (must be before extensions)
     V3_init_cpu_mapper();
 
@@ -152,7 +193,7 @@ void Init_V3(struct v3_os_hooks * hooks, char * cpu_mask, int num_cpus, char *op
 
     if ((hooks) && (hooks->call_on_cpu)) {
 
-        for (i = 0; i < num_cpus; i++) {
+        for (i = 0; i < num_cpus && i < V3_CONFIG_MAX_CPUS; i++) {
             major = i / 8;
             minor = i % 8;
 
@@ -173,19 +214,9 @@ void Init_V3(struct v3_os_hooks * hooks, char * cpu_mask, int num_cpus, char *op
 void Shutdown_V3() {
     int i;
 
-    V3_deinit_devices();
-    V3_deinit_shdw_paging();
-
-    V3_deinit_extensions();
-
-#ifdef V3_CONFIG_SYMMOD
-    V3_deinit_symmod();
-#endif
-
-#ifdef V3_CONFIG_CHECKPOINT
-    V3_deinit_checkpoint();
-#endif
+    // Reverse order of Init_V3
 
+    // bring down CPUs
 
     if ((os_hooks) && (os_hooks->call_on_cpu)) {
 	for (i = 0; i < V3_CONFIG_MAX_CPUS; i++) {
@@ -196,6 +227,37 @@ void Shutdown_V3() {
 	}
     }
 
+#ifdef V3_CONFIG_CHECKPOINT
+    V3_deinit_checkpoint();
+#endif
+
+#ifdef V3_CONFIG_SYMMOD
+    V3_deinit_symmod();
+#endif
+
+    V3_disable_scheduler();
+
+    V3_disable_cpu_mapper();
+
+    V3_deinit_extensions();
+
+    V3_deinit_scheduling();
+    
+    V3_deinit_cpu_mapper();
+
+#ifdef V3_CONFIG_SWAPPING
+    v3_deinit_swapping();
+#endif
+    
+    V3_deinit_shdw_paging();
+    
+    V3_deinit_devices();
+
+    v3_deinit_mem();
+    
+    v3_deinit_options();
+    
+
 }
 
 
@@ -223,6 +285,11 @@ struct v3_vm_info * v3_create_vm(void * cfg, void * priv_data, char * name) {
     memset(vm->name, 0, 128);
     strncpy(vm->name, name, 127);
 
+    if(v3_cpu_mapper_register_vm(vm) == -1) {
+
+        PrintError(vm, VCORE_NONE,"Error registering VM with cpu_mapper\n");
+    }
+
     /*
      * Register this VM with the palacios scheduler. It will ask for admission
      * prior to launch.
@@ -278,25 +345,11 @@ int v3_start_vm(struct v3_vm_info * vm, unsigned int cpu_mask) {
     uint32_t avail_cores = 0;
     int vcore_id = 0;
 
-
     if (vm->run_state != VM_STOPPED) {
         PrintError(vm, VCORE_NONE, "VM has already been launched (state=%d)\n", (int)vm->run_state);
         return -1;
     }
 
-    
-    // Do not run if any core is using shadow paging and we are out of 4 GB bounds
-    for (i=0;i<vm->num_cores;i++) { 
-	if (vm->cores[i].shdw_pg_mode == SHADOW_PAGING) {
-	    if ((vm->mem_map.base_region.host_addr + vm->mem_size ) >= 0x100000000ULL) {
-		PrintError(vm, VCORE_NONE, "Base memory region exceeds 4 GB boundary with shadow paging enabled on core %d.\n",i);
-		PrintError(vm, VCORE_NONE, "Any use of non-64 bit mode in the guest is likely to fail in this configuration.\n");
-		PrintError(vm, VCORE_NONE, "If you would like to proceed anyway, remove this check and recompile Palacios.\n");
-		PrintError(vm, VCORE_NONE, "Alternatively, change this VM to use nested paging.\n");
-		return -1;
-	    }
-	}
-    }
 
     /// CHECK IF WE ARE MULTICORE ENABLED....
 
@@ -320,21 +373,16 @@ int v3_start_vm(struct v3_vm_info * vm, unsigned int cpu_mask) {
 
     vm->avail_cores = avail_cores;
  
-    if (v3_scheduler_admit_vm(vm) != 0){
-       PrintError(vm, VCORE_NONE,"Error admitting VM %s for scheduling", vm->name);
+    if (v3_cpu_mapper_admit_vm(vm,cpu_mask) != 0){
+        PrintError(vm, VCORE_NONE,"Error admitting VM %s for mapping", vm->name);
     }
 
-    if (v3_cpu_mapper_admit_vm(vm) != 0){
-        PrintError(vm, VCORE_NONE,"Error admitting VM %s for mapping", vm->name);
+    if (v3_scheduler_admit_vm(vm) != 0){
+       PrintError(vm, VCORE_NONE,"Error admitting VM %s for scheduling", vm->name);
     }
 
     vm->run_state = VM_RUNNING;
 
-    if(v3_cpu_mapper_register_vm(vm,cpu_mask) == -1) {
-
-        PrintError(vm, VCORE_NONE,"Error registering VM with cpu_mapper\n");
-    }
-
 
     for (vcore_id = 0; vcore_id < vm->num_cores; vcore_id++) {
 
@@ -348,7 +396,14 @@ int v3_start_vm(struct v3_vm_info * vm, unsigned int cpu_mask) {
         PrintDebug(vm, VCORE_NONE, "run: core=%u, func=0x%p, arg=0x%p, name=%s\n",
 		   core->pcpu_id, start_core, core, core->exec_name);
 
-	core->core_run_state = CORE_STOPPED;  // core zero will turn itself on
+	if (core->core_run_state==CORE_INVALID) { 
+	  // launch of a fresh VM
+	  core->core_run_state = CORE_STOPPED;  
+	  // core zero will turn itself on
+	} else {
+	  // this is a resume - use whatever its current run_state is
+	}
+
 	core->core_thread = V3_CREATE_THREAD_ON_CPU(core->pcpu_id, start_core, core, core->exec_name);
 
 	if (core->core_thread == NULL) {
@@ -461,10 +516,124 @@ int v3_move_vm_core(struct v3_vm_info * vm, int vcore_id, int target_cpu) {
     return 0;
 }
 
+/* move a memory region to memory with affinity for a specific physical core */
+int v3_move_vm_mem(struct v3_vm_info * vm, void *gpa, int target_cpu) {
+    int old_node;
+    int new_node;
+    struct v3_mem_region *reg;
+    void *new_hpa;
+    int num_pages;
+    void *old_hpa;
+    int i;
+
+    old_node = v3_numa_gpa_to_node(vm,(addr_t)gpa);
+
+    if (old_node<0) { 
+	PrintError(vm, VCORE_NONE, "Cannot determine current node of gpa %p\n",gpa);
+	return -1;
+    }
+
+    new_node = v3_numa_cpu_to_node(target_cpu);
+
+    if (new_node<0) { 
+	PrintError(vm, VCORE_NONE, "Cannot determine current node of cpu %d\n",target_cpu);
+	return -1;
+    }
+
+    if (new_node==old_node) { 
+	PrintDebug(vm, VCORE_NONE, "Affinity is already established - ignoring request\n");
+	return 0;
+    }
+
+    // We are now going to change the universe, so 
+    // we'll barrier everyone first
+
+    while (v3_raise_barrier(vm, NULL) == -1);
+
+    // get region
+    
+    reg = v3_get_mem_region(vm, V3_MEM_CORE_ANY, (addr_t) gpa);
+
+    if (!reg) { 
+	PrintError(vm, VCORE_NONE, "Attempt to migrate non-existent memory\n");
+	goto out_fail;
+    }
+    
+    if (!(reg->flags.base) || !(reg->flags.alloced)) { 
+	PrintError(vm, VCORE_NONE, "Attempt to migrate invalid region: base=%d alloced=%d\n", reg->flags.base, reg->flags.alloced);
+	goto out_fail;
+    }
+
+    // we now have the allocated base region corresponding to  - and not a copy
+    // we will rewrite this region after moving its contents
+    
+    // first, let's double check that we are in fact changing the numa_id...
+
+    if (reg->numa_id==new_node) { 
+	PrintDebug(vm, VCORE_NONE, "Affinity for this base region is already established - ignoring...\n");
+	goto out_success;
+    }
+
+    // region uses exclusive addressing [guest_start,guest_end)
+    num_pages = (reg->guest_end-reg->guest_start)/PAGE_SIZE;
+
+    new_hpa = V3_AllocPagesExtended(num_pages,
+				    PAGE_SIZE_4KB,
+				    new_node,
+				    0);  // no constraints given new shadow pager impl
+
+    if (!new_hpa) { 
+	PrintError(vm, VCORE_NONE, "Cannot allocate memory for new base region...\n");
+	goto out_fail;
+    }
+
+    // Note, assumes virtual contiguity in the host OS... 
+    memcpy(V3_VAddr((void*)new_hpa), V3_VAddr((void*)(reg->host_addr)), num_pages*PAGE_SIZE);
+
+    old_hpa = (void*)(reg->host_addr);
+    old_node = (int)(reg->numa_id);
 
+    reg->host_addr = (addr_t)new_hpa;
+    reg->numa_id = v3_numa_hpa_to_node((addr_t)new_hpa);
+
+    // flush all page tables / kill all humans 
+
+    for (i=0;i<vm->num_cores;i++) { 
+	if (vm->cores[i].shdw_pg_mode==SHADOW_PAGING) { 
+	    v3_invalidate_shadow_pts(&(vm->cores[i]));
+	} else if (vm->cores[i].shdw_pg_mode==NESTED_PAGING) { 
+	    // nested invalidator uses inclusive addressing [start,end], not [start,end)
+	  v3_invalidate_nested_addr_range(&(vm->cores[i]),reg->guest_start,reg->guest_end-1,NULL,NULL);
+	} else {
+	    PrintError(vm,VCORE_NONE, "Cannot determine how to invalidate paging structures! Reverting to previous region.\n");
+	    // We'll restore things...
+	    reg->host_addr = (addr_t) old_hpa;
+	    reg->numa_id = old_node;
+	    V3_FreePages(new_hpa,num_pages);
+	    goto out_fail;
+	}
+    }
+    
+    // Now the old region can go away...
+    V3_FreePages(old_hpa,num_pages);
+    
+    PrintDebug(vm,VCORE_NONE,"Migration of memory complete - new region is %p to %p\n",
+	       (void*)(reg->host_addr),(void*)(reg->host_addr+num_pages*PAGE_SIZE-1));
+    
+ out_success:
+    v3_lower_barrier(vm);
+    return 0;
+    
+    
+ out_fail:
+    v3_lower_barrier(vm);
+    return -1;
+}
 
 int v3_stop_vm(struct v3_vm_info * vm) {
 
+    struct guest_info * running_core;
+
     if ((vm->run_state != VM_RUNNING) && 
 	(vm->run_state != VM_SIMULATING)) {
         PrintError(vm, VCORE_NONE,"Tried to stop VM in invalid runstate (%d)\n", vm->run_state);
@@ -486,6 +655,7 @@ int v3_stop_vm(struct v3_vm_info * vm) {
 
 	for (i = 0; i < vm->num_cores; i++) {
 	    if (vm->cores[i].core_run_state != CORE_STOPPED) {
+                running_core = &vm->cores[i];
 		still_running = 1;
 	    }
 	}
@@ -494,7 +664,7 @@ int v3_stop_vm(struct v3_vm_info * vm) {
  	    break;
 	}
 
-	v3_yield(NULL,-1);
+        v3_scheduler_stop_core(running_core);
     }
     
     V3_Print(vm, VCORE_NONE,"VM stopped. Returning\n");
@@ -542,6 +712,7 @@ static int sim_callback(struct guest_info * core, void * private_data) {
     V3_Print(core->vm_info, core, "Simulation callback activated (guest_rip=%p)\n", (void *)core->rip);
 
     while (v3_bitmap_check(timeout_map, core->vcpu_id) == 1) {
+        // We spin here if there is noone to yield to
 	v3_yield(NULL,-1);
     }
 
@@ -612,7 +783,8 @@ int v3_simulate_vm(struct v3_vm_info * vm, unsigned int msecs) {
 	if (all_blocked == 1) {
 	    break;
 	}
-
+	
+	// Intentionally spin if there is no one to yield to
 	v3_yield(NULL,-1);
     }
 
@@ -633,59 +805,76 @@ int v3_simulate_vm(struct v3_vm_info * vm, unsigned int msecs) {
 
 }
 
-int v3_get_state_vm(struct v3_vm_info *vm, struct v3_vm_state *s)
+int v3_get_state_vm(struct v3_vm_info        *vm, 
+		    struct v3_vm_base_state  *base,
+		    struct v3_vm_core_state  *core,
+		    struct v3_vm_mem_state   *mem)
 {
-  uint32_t i;
-  uint32_t numcores = s->num_vcores > vm->num_cores ? vm->num_cores : s->num_vcores;
-
-  switch (vm->run_state) { 
-  case VM_INVALID: s->state = V3_VM_INVALID; break;
-  case VM_RUNNING: s->state = V3_VM_RUNNING; break;
-  case VM_STOPPED: s->state = V3_VM_STOPPED; break;
-  case VM_PAUSED: s->state = V3_VM_PAUSED; break;
-  case VM_ERROR: s->state = V3_VM_ERROR; break;
-  case VM_SIMULATING: s->state = V3_VM_SIMULATING; break;
-  default: s->state = V3_VM_UNKNOWN; break;
-  }
+    uint32_t i;
+    uint32_t numcores = core->num_vcores > vm->num_cores ? vm->num_cores : core->num_vcores;
+    uint32_t numregions = mem->num_regions > vm->mem_map.num_base_regions ? vm->mem_map.num_base_regions : mem->num_regions;
+    extern uint64_t v3_mem_block_size;
+
+    switch (vm->run_state) { 
+	case VM_INVALID: base->state = V3_VM_INVALID; break;
+	case VM_RUNNING: base->state = V3_VM_RUNNING; break;
+	case VM_STOPPED: base->state = V3_VM_STOPPED; break;
+	case VM_PAUSED: base->state = V3_VM_PAUSED; break;
+	case VM_ERROR: base->state = V3_VM_ERROR; break;
+	case VM_SIMULATING: base->state = V3_VM_SIMULATING; break;
+	default: base->state = V3_VM_UNKNOWN; break;
+    }
 
-  s->mem_base_paddr = (void*)(vm->mem_map.base_region.host_addr);
-  s->mem_size = vm->mem_size;
-
-  s->num_vcores = numcores;
-
-  for (i=0;i<numcores;i++) {
-    switch (vm->cores[i].core_run_state) {
-    case CORE_INVALID: s->vcore[i].state = V3_VCORE_INVALID; break;
-    case CORE_RUNNING: s->vcore[i].state = V3_VCORE_RUNNING; break;
-    case CORE_STOPPED: s->vcore[i].state = V3_VCORE_STOPPED; break;
-    default: s->vcore[i].state = V3_VCORE_UNKNOWN; break;
-    }
-    switch (vm->cores[i].cpu_mode) {
-    case REAL: s->vcore[i].cpu_mode = V3_VCORE_CPU_REAL; break;
-    case PROTECTED: s->vcore[i].cpu_mode = V3_VCORE_CPU_PROTECTED; break;
-    case PROTECTED_PAE: s->vcore[i].cpu_mode = V3_VCORE_CPU_PROTECTED_PAE; break;
-    case LONG: s->vcore[i].cpu_mode = V3_VCORE_CPU_LONG; break;
-    case LONG_32_COMPAT: s->vcore[i].cpu_mode = V3_VCORE_CPU_LONG_32_COMPAT; break;
-    case LONG_16_COMPAT: s->vcore[i].cpu_mode = V3_VCORE_CPU_LONG_16_COMPAT; break;
-    default: s->vcore[i].cpu_mode = V3_VCORE_CPU_UNKNOWN; break;
-    }
-    switch (vm->cores[i].shdw_pg_mode) { 
-    case SHADOW_PAGING: s->vcore[i].mem_state = V3_VCORE_MEM_STATE_SHADOW; break;
-    case NESTED_PAGING: s->vcore[i].mem_state = V3_VCORE_MEM_STATE_NESTED; break;
-    default: s->vcore[i].mem_state = V3_VCORE_MEM_STATE_UNKNOWN; break;
-    }
-    switch (vm->cores[i].mem_mode) { 
-    case PHYSICAL_MEM: s->vcore[i].mem_mode = V3_VCORE_MEM_MODE_PHYSICAL; break;
-    case VIRTUAL_MEM: s->vcore[i].mem_mode=V3_VCORE_MEM_MODE_VIRTUAL; break;
-    default: s->vcore[i].mem_mode=V3_VCORE_MEM_MODE_UNKNOWN; break;
-    }
-
-    s->vcore[i].pcore=vm->cores[i].pcpu_id;
-    s->vcore[i].last_rip=(void*)(vm->cores[i].rip);
-    s->vcore[i].num_exits=vm->cores[i].num_exits;
-  }
+    for (i=0;i<numcores;i++) {
+	switch (vm->cores[i].core_run_state) {
+	    case CORE_INVALID: core->vcore[i].state = V3_VCORE_INVALID; break;
+	    case CORE_RUNNING: core->vcore[i].state = V3_VCORE_RUNNING; break;
+	    case CORE_STOPPED: core->vcore[i].state = V3_VCORE_STOPPED; break;
+	    default: core->vcore[i].state = V3_VCORE_UNKNOWN; break;
+	}
+	switch (vm->cores[i].cpu_mode) {
+	    case REAL: core->vcore[i].cpu_mode = V3_VCORE_CPU_REAL; break;
+	    case PROTECTED: core->vcore[i].cpu_mode = V3_VCORE_CPU_PROTECTED; break;
+	    case PROTECTED_PAE: core->vcore[i].cpu_mode = V3_VCORE_CPU_PROTECTED_PAE; break;
+	    case LONG: core->vcore[i].cpu_mode = V3_VCORE_CPU_LONG; break;
+	    case LONG_32_COMPAT: core->vcore[i].cpu_mode = V3_VCORE_CPU_LONG_32_COMPAT; break;
+	    case LONG_16_COMPAT: core->vcore[i].cpu_mode = V3_VCORE_CPU_LONG_16_COMPAT; break;
+	    default: core->vcore[i].cpu_mode = V3_VCORE_CPU_UNKNOWN; break;
+	}
+	switch (vm->cores[i].shdw_pg_mode) { 
+	    case SHADOW_PAGING: core->vcore[i].mem_state = V3_VCORE_MEM_STATE_SHADOW; break;
+	    case NESTED_PAGING: core->vcore[i].mem_state = V3_VCORE_MEM_STATE_NESTED; break;
+	    default: core->vcore[i].mem_state = V3_VCORE_MEM_STATE_UNKNOWN; break;
+	}
+	switch (vm->cores[i].mem_mode) { 
+	    case PHYSICAL_MEM: core->vcore[i].mem_mode = V3_VCORE_MEM_MODE_PHYSICAL; break;
+	    case VIRTUAL_MEM: core->vcore[i].mem_mode=V3_VCORE_MEM_MODE_VIRTUAL; break;
+	    default: core->vcore[i].mem_mode=V3_VCORE_MEM_MODE_UNKNOWN; break;
+	}
+	
+	core->vcore[i].pcore=vm->cores[i].pcpu_id;
+	core->vcore[i].last_rip=(void*)(vm->cores[i].rip);
+	core->vcore[i].num_exits=vm->cores[i].num_exits;
+    }
+    
+    core->num_vcores=numcores;
+
+    for (i=0;i<vm->mem_map.num_base_regions;i++) {
+	mem->region[i].host_paddr =  (void*)(vm->mem_map.base_regions[i].host_addr);
+	mem->region[i].size = v3_mem_block_size;
+#ifdef V3_CONFIG_SWAPPING
+	mem->region[i].swapped = vm->mem_map.base_regions[i].flags.swapped;
+	mem->region[i].pinned = vm->mem_map.base_regions[i].flags.pinned;
+#else
+	mem->region[i].swapped = 0;
+	mem->region[i].pinned = 0;
+#endif
 
-  return 0;
+    }
+
+    mem->num_regions=numregions;
+    
+    return 0;
 }
 
 
@@ -729,10 +918,12 @@ int v3_free_vm(struct v3_vm_info * vm) {
 
     // free cores
     for (i = 0; i < vm->num_cores; i++) {
+        v3_scheduler_free_core(&(vm->cores[i]));
 	v3_free_core(&(vm->cores[i]));
     }
 
     // free vm
+    v3_scheduler_free_vm(vm);
     v3_free_vm_internal(vm);
 
     v3_free_config(vm);