Palacios Public Git Repository

To checkout Palacios execute

  git clone http://v3vee.org/palacios/palacios.web/palacios.git
This will give you the master branch. You probably want the devel branch or one of the release branches. To switch to the devel branch, simply execute
  cd palacios
  git checkout --track -b devel origin/devel
The other branches are similar.


Restructure of direct host network bridge.
[palacios.git] / palacios / src / devices / lnx_virtio_nic.c
index 56bf74e..400cb0c 100644 (file)
@@ -1,3 +1,4 @@
+
 /* 
  * This file is part of the Palacios Virtual Machine Monitor developed
  * by the V3VEE Project with funding from the United States National 
 #include <devices/lnx_virtio_pci.h>
 #include <palacios/vm_guest_mem.h>
 #include <palacios/vmm_sprintf.h>
-#include <palacios/vmm_vnet.h>
+#include <vnet/vnet.h>
 #include <palacios/vmm_lock.h>
 #include <palacios/vmm_util.h>
 #include <devices/pci.h>
 #include <palacios/vmm_ethernet.h>
+#include <palacios/vmm_time.h>
 
 
-#ifndef CONFIG_DEBUG_VIRTIO_NET
+#ifndef V3_CONFIG_DEBUG_VIRTIO_NET
 #undef PrintDebug
 #define PrintDebug(fmt, args...)
 #endif
 
-#define VIRTIO_NET_S_LINK_UP   1       /* Link is up */
+#ifndef V3_CONFIG_VNET
+static int net_debug = 0;
+#endif
+
+#define TX_QUEUE_SIZE 4096
+#define RX_QUEUE_SIZE 4096
+#define CTRL_QUEUE_SIZE 64
+
+/* The feature bitmap for virtio nic
+  * from Linux */
+#define VIRTIO_NET_F_CSUM       0       /* Host handles pkts w/ partial csum */
+#define VIRTIO_NET_F_GUEST_CSUM 1       /* Guest handles pkts w/ partial csum */
+#define VIRTIO_NET_F_MAC        5       /* Host has given MAC address. */
+#define VIRTIO_NET_F_GSO        6       /* Host handles pkts w/ any GSO type */
+#define VIRTIO_NET_F_GUEST_TSO4 7       /* Guest can handle TSOv4 in. */
+#define VIRTIO_NET_F_GUEST_TSO6 8       /* Guest can handle TSOv6 in. */
+#define VIRTIO_NET_F_GUEST_ECN  9       /* Guest can handle TSO[6] w/ ECN in. */
+#define VIRTIO_NET_F_GUEST_UFO  10      /* Guest can handle UFO in. */
+#define VIRTIO_NET_F_HOST_TSO4  11      /* Host can handle TSOv4 in. */
+#define VIRTIO_NET_F_HOST_TSO6  12      /* Host can handle TSOv6 in. */
+#define VIRTIO_NET_F_HOST_ECN   13      /* Host can handle TSO[6] w/ ECN in. */
+#define VIRTIO_NET_F_HOST_UFO   14      /* Host can handle UFO in. */
+#define VIRTIO_NET_F_MRG_RXBUF  15      /* Host can merge receive buffers. */
+#define VIRTIO_NET_F_STATUS     16      /* virtio_net_config.status available */
+
+/* Port to get virtio config */
+#define VIRTIO_NET_CONFIG 20  
+
 #define VIRTIO_NET_MAX_BUFSIZE (sizeof(struct virtio_net_hdr) + (64 << 10))
 
+/* for gso_type in virtio_net_hdr */
+#define VIRTIO_NET_HDR_GSO_NONE         0      
+#define VIRTIO_NET_HDR_GSO_TCPV4        1     /* GSO frame, IPv4 TCP (TSO) */
+#define VIRTIO_NET_HDR_GSO_UDP          3       /* GSO frame, IPv4 UDP (UFO) */
+#define VIRTIO_NET_HDR_GSO_TCPV6        4       /* GSO frame, IPv6 TCP */
+#define VIRTIO_NET_HDR_GSO_ECN          0x80    /* TCP has ECN set */  
 
-struct virtio_net_hdr {
-       uint8_t flags;
 
-#define VIRTIO_NET_HDR_GSO_NONE                0       /* Not a GSO frame */
-       uint8_t gso_type;
-       uint16_t hdr_len;               /* Ethernet + IP + tcp/udp hdrs */
-       uint16_t gso_size;              /* Bytes to append to hdr_len per frame */
-       uint16_t csum_start;            /* Position to start checksumming from */
-       uint16_t csum_offset;           /* Offset after that to place checksum */
+/* for flags in virtio_net_hdr */
+#define VIRTIO_NET_HDR_F_NEEDS_CSUM     1       /* Use csum_start, csum_offset */
+
+
+/* First element of the scatter-gather list, used with GSO or CSUM features */
+struct virtio_net_hdr
+{
+    uint8_t flags;
+    uint8_t gso_type;
+    uint16_t hdr_len;          /* Ethernet + IP + tcp/udp hdrs */
+    uint16_t gso_size;         /* Bytes to append to hdr_len per frame */
+    uint16_t csum_start;       /* Position to start checksumming from */
+    uint16_t csum_offset;      /* Offset after that to place checksum */
 }__attribute__((packed));
 
 
-/* This is the version of the header to use when the MRG_RXBUF
+/* The header to use when the MRG_RXBUF 
  * feature has been negotiated. */
 struct virtio_net_hdr_mrg_rxbuf {
-       struct virtio_net_hdr hdr;
-       uint16_t num_buffers;   /* Number of merged rx buffers */
+    struct virtio_net_hdr hdr;
+    uint16_t num_buffers;      /* Number of merged rx buffers */
 };
 
-       
-#define TX_QUEUE_SIZE 64
-#define RX_QUEUE_SIZE 1024
-#define CTRL_QUEUE_SIZE 64
-
-#define VIRTIO_NET_F_MRG_RXBUF 15      /* Host can merge receive buffers. */
-#define VIRTIO_NET_F_MAC       5       /* Host has given MAC address. */
-#define VIRTIO_NET_F_GSO       6       /* Host handles pkts w/ any GSO type */
-#define VIRTIO_NET_F_HOST_TSO4 11      /* Host can handle TSOv4 in. */
-
-/* this is not how virtio supposed to be,
- * we may need a separately implemented virtio_pci
- * In order to make guest to get virtio MAC from host
- * I added it here  -- Lei
- */
- #define VIRTIO_NET_CONFIG 20  
-
-
 struct virtio_net_config
 {
     uint8_t mac[ETH_ALEN];     /* VIRTIO_NET_F_MAC */
@@ -89,44 +111,41 @@ struct virtio_dev_state {
     struct list_head dev_list;
     struct v3_vm_info *vm;
 
-    char mac[ETH_ALEN];
+    uint8_t mac[ETH_ALEN];
 };
 
 struct virtio_net_state {
     struct virtio_net_config net_cfg;
     struct virtio_config virtio_cfg;
 
+    struct v3_vm_info * vm;
     struct vm_device * dev;
     struct pci_device * pci_dev; 
     int io_range_size;
+
+    uint16_t status;
     
-    struct virtio_queue rx_vq;         /* idx 0, pkts to guest */
-    struct virtio_queue tx_vq;         /* idx 1, pkts from guest */
-    struct virtio_queue ctrl_vq;       /* idx 2 */
+    struct virtio_queue rx_vq;         /* idx 0*/
+    struct virtio_queue tx_vq;         /* idx 1*/
+    struct virtio_queue ctrl_vq;       /* idx 2*/
 
-    int buffed_rx;
-    int tx_disabled;                   /* stop TX pkts from guest */
+    uint8_t mergeable_rx_bufs;
 
-    uint64_t pkt_sent, pkt_recv, pkt_drop;
+    struct v3_timer * timer;
+    struct nic_statistics stats;
 
     struct v3_dev_net_ops * net_ops;
     v3_lock_t rx_lock, tx_lock;
 
+    uint8_t tx_notify, rx_notify;
+    uint32_t tx_pkts, rx_pkts;
+    uint64_t past_us;
+
     void * backend_data;
     struct virtio_dev_state * virtio_dev;
     struct list_head dev_link;
 };
 
-/* virtio nic error type */
-#define ERR_VIRTIO_OTHER  1
-#define ERR_VIRTIO_RXQ_FULL  2
-#define ERR_VIRTIO_RXQ_NOSET  3
-#define ERR_VIRTIO_TXQ_NOSET 4
-#define ERR_VIRTIO_TXQ_FULL 5
-#define ERR_VIRTIO_TXQ_DISABLED 6
-
-
-
 
 static int virtio_init_state(struct virtio_net_state * virtio) 
 {
@@ -153,60 +172,73 @@ static int virtio_init_state(struct virtio_net_state * virtio)
     virtio->ctrl_vq.cur_avail_idx = 0;
 
     virtio->virtio_cfg.pci_isr = 0;
+
+    virtio->mergeable_rx_bufs = 1;
        
     virtio->virtio_cfg.host_features = 0 | (1 << VIRTIO_NET_F_MAC);
+    if(virtio->mergeable_rx_bufs) {
+       virtio->virtio_cfg.host_features |= (1 << VIRTIO_NET_F_MRG_RXBUF);
+    }
 
     if ((v3_lock_init(&(virtio->rx_lock)) == -1) ||
        (v3_lock_init(&(virtio->tx_lock)) == -1)){
         PrintError("Virtio NIC: Failure to init locks for net_state\n");
     }
 
-    virtio->pkt_sent = virtio->pkt_recv = virtio->pkt_drop = 0;
-    virtio->buffed_rx = 0;
-
     return 0;
 }
 
-static int 
-pkt_tx(struct guest_info * core, 
-       struct virtio_net_state * virtio, 
-       struct vring_desc * buf_desc) 
+static int tx_one_pkt(struct guest_info * core, 
+                     struct virtio_net_state * virtio, 
+                     struct vring_desc * buf_desc) 
 {
     uint8_t * buf = NULL;
     uint32_t len = buf_desc->length;
 
     if (v3_gpa_to_hva(core, buf_desc->addr_gpa, (addr_t *)&(buf)) == -1) {
-       PrintError("Could not translate buffer address\n");
-       return -ERR_VIRTIO_OTHER;
+       PrintDebug("Could not translate buffer address\n");
+       return -1;
+    }
+    
+    V3_Net_Print(2, "Virtio-NIC: virtio_tx: size: %d\n", len);
+    if(net_debug >= 4){
+       v3_hexdump(buf, len, NULL, 0);
     }
 
-    return virtio->net_ops->send(buf, len, virtio->backend_data);
+    if(virtio->net_ops->send(buf, len, virtio->backend_data) < 0){
+       virtio->stats.tx_dropped ++;
+       return -1;
+    }
+    
+    virtio->stats.tx_pkts ++;
+    virtio->stats.tx_bytes += len;
+    
+    return 0;
 }
 
 
-static int 
-copy_data_to_desc(struct guest_info * core, 
-                 struct virtio_net_state * virtio_state, 
-                 struct vring_desc * desc, 
-                 uchar_t * buf, 
-                 uint_t buf_len,
-                 uint_t offset)
-{
+/*copy data into ring buffer */
+static inline int copy_data_to_desc(struct guest_info * core, 
+                                   struct virtio_net_state * virtio_state, 
+                                   struct vring_desc * desc, 
+                                   uchar_t * buf, 
+                                   uint_t buf_len,
+                                   uint_t dst_offset){
     uint32_t len;
     uint8_t * desc_buf = NULL;
-
+    
     if (v3_gpa_to_hva(core, desc->addr_gpa, (addr_t *)&(desc_buf)) == -1) {
-       PrintError("Could not translate buffer address\n");
+       PrintDebug("Could not translate buffer address\n");
        return -1;
     }
-    len = (desc->length < buf_len)?(desc->length - offset):buf_len;
-    memcpy(desc_buf+offset, buf, len);
+    len = (desc->length < (buf_len+dst_offset))?(desc->length - dst_offset):buf_len;
+    memcpy(desc_buf + dst_offset, buf, len);
 
     return len;
 }
 
 
-static int get_desc_count(struct virtio_queue * q, int index) {
+static inline int get_desc_count(struct virtio_queue * q, int index) {
     struct vring_desc * tmp_desc = &(q->desc[index]);
     int cnt = 1;
     
@@ -219,69 +251,41 @@ static int get_desc_count(struct virtio_queue * q, int index) {
 }
 
 static inline void enable_cb(struct virtio_queue *queue){
-    queue->used->flags &= ~ VRING_NO_NOTIFY_FLAG;
+    if(queue->used){
+       queue->used->flags &= ~ VRING_NO_NOTIFY_FLAG;
+    }
 }
 
 static inline void disable_cb(struct virtio_queue *queue) {
-    queue->used->flags |= VRING_NO_NOTIFY_FLAG;
-}
-
-
-/* interrupt the guest, so the guest core get EXIT to Palacios
- * this happens when there are either incoming pkts for the guest
- * or the guest can start TX pkts again */
-static inline void notify_guest(struct virtio_net_state * virtio){
-    v3_interrupt_cpu(virtio->virtio_dev->vm, virtio->virtio_dev->vm->cores[0].cpu_id, 0);
-}
-
-
-/* guest free some pkts from rx queue */
-static int handle_rx_kick(struct guest_info *core, 
-                         struct virtio_net_state * virtio) 
-{
-    unsigned long flags;
-
-    flags = v3_lock_irqsave(virtio->rx_lock);
-
-    if(virtio->net_ops->start_rx != NULL){
-       virtio->net_ops->start_rx(virtio->backend_data);
+    if(queue->used){
+       queue->used->flags |= VRING_NO_NOTIFY_FLAG;
     }
-       //disable_cb(&virtio->rx_vq);
-
-    v3_unlock_irqrestore(virtio->rx_lock, flags);
-       
-    return 0;
-}
-
-
-static int handle_ctrl(struct guest_info *core, 
-                      struct virtio_net_state * virtio) {
-       
-    return 0;
 }
 
-static int handle_pkt_tx(struct guest_info *core, 
-                        struct virtio_net_state * virtio_state) 
+static int handle_pkt_tx(struct guest_info * core, 
+                        struct virtio_net_state * virtio_state,
+                        int quote)
 {
-    struct virtio_queue * q = &(virtio_state->tx_vq);
-    struct virtio_net_hdr * hdr = NULL;
-    int recved = 0;
+    struct virtio_queue *q = &(virtio_state->tx_vq);
+    int txed = 0, left = 0;
     unsigned long flags;
 
-    if (!q->ring_avail_addr) 
-       return -ERR_VIRTIO_TXQ_NOSET;
-
-    if(virtio_state->tx_disabled)
-       return -ERR_VIRTIO_TXQ_DISABLED;
+    if (!q->ring_avail_addr) {
+       return -1;
+    }
 
     flags = v3_lock_irqsave(virtio_state->tx_lock);
     while (q->cur_avail_idx != q->avail->index) {
+       struct virtio_net_hdr_mrg_rxbuf * hdr = NULL;
        struct vring_desc * hdr_desc = NULL;
        addr_t hdr_addr = 0;
        uint16_t desc_idx = q->avail->ring[q->cur_avail_idx % q->queue_size];
        int desc_cnt = get_desc_count(q, desc_idx);
-       uint32_t req_len = 0;
-       int i = 0;
+
+       if(desc_cnt != 2){
+           PrintError("VNIC: merged rx buffer not supported, desc_cnt %d\n", desc_cnt);
+           goto exit_error;
+       }
 
        hdr_desc = &(q->desc[desc_idx]);
        if (v3_gpa_to_hva(core, hdr_desc->addr_gpa, &(hdr_addr)) == -1) {
@@ -289,51 +293,54 @@ static int handle_pkt_tx(struct guest_info *core,
            goto exit_error;
        }
 
-       hdr = (struct virtio_net_hdr*)hdr_addr;
+       hdr = (struct virtio_net_hdr_mrg_rxbuf *)hdr_addr;
        desc_idx = hdr_desc->next;
 
-       if(desc_cnt > 2){
-           PrintError("VNIC: merged rx buffer not supported\n");
-           goto exit_error;
-       }
-
-       /* here we assumed that one ethernet pkt is not splitted into multiple virtio buffer */
-       for (i = 0; i < desc_cnt - 1; i++) {    
-           struct vring_desc * buf_desc = &(q->desc[desc_idx]);
-           if (pkt_tx(core, virtio_state, buf_desc) == -1) {
-               PrintError("Error handling nic operation\n");
-               goto exit_error;
-           }
+       V3_Net_Print(2, "Virtio NIC: TX hdr count : %d\n", hdr->num_buffers);
 
-           req_len += buf_desc->length;
-           desc_idx = buf_desc->next;
+       /* here we assumed that one ethernet pkt is not splitted into multiple buffer */        
+       struct vring_desc * buf_desc = &(q->desc[desc_idx]);
+       if (tx_one_pkt(core, virtio_state, buf_desc) == -1) {
+           PrintError("Virtio NIC: Fails to send packet\n");
        }
-       virtio_state->pkt_sent ++;
-       recved ++;
-
-       q->used->ring[q->used->index % q->queue_size].id = q->avail->ring[q->cur_avail_idx % q->queue_size];
-       q->used->ring[q->used->index % q->queue_size].length = req_len; // What do we set this to????
-       q->used->index ++;
+       if(buf_desc->next & VIRTIO_NEXT_FLAG){
+           PrintError("Virtio NIC: TX more buffer need to read\n");
+       }
+       
+       q->used->ring[q->used->index % q->queue_size].id = 
+           q->avail->ring[q->cur_avail_idx % q->queue_size];
+       
+       q->used->ring[q->used->index % q->queue_size].length = 
+           buf_desc->length; /* What do we set this to???? */
        
+       q->used->index ++;
        q->cur_avail_idx ++;
+       
+       if(++txed >= quote && quote > 0){
+           left = (q->cur_avail_idx != q->avail->index);
+           break;
+       }
     }
-
+    
     v3_unlock_irqrestore(virtio_state->tx_lock, flags);
-
-    if(!recved)
-       return 0;
-       
-    if (!(q->avail->flags & VIRTIO_NO_IRQ_FLAG)) {
-       v3_pci_raise_irq(virtio_state->virtio_dev->pci_bus, 0, virtio_state->pci_dev);
+    
+    if (txed && !(q->avail->flags & VIRTIO_NO_IRQ_FLAG)) {
+       v3_pci_raise_irq(virtio_state->virtio_dev->pci_bus, 
+                        0, virtio_state->pci_dev);
        virtio_state->virtio_cfg.pci_isr = 0x1;
+       virtio_state->stats.rx_interrupts ++;
     }
 
-    return 0;
+    if(txed > 0) {
+       V3_Net_Print(2, "Virtio Handle TX: txed pkts: %d, left %d\n", txed, left);
+    }
 
-exit_error:
-       
+    return left;
+    
+ exit_error:
+    
     v3_unlock_irqrestore(virtio_state->tx_lock, flags);
-    return -ERR_VIRTIO_OTHER;
+    return -1;
 }
 
 
@@ -384,8 +391,9 @@ static int virtio_io_write(struct guest_info *core,
     struct virtio_net_state * virtio = (struct virtio_net_state *)private_data;
     int port_idx = port % virtio->io_range_size;
 
-    PrintDebug("VIRTIO NIC %p Write for port %d (index=%d) len=%d, value=%x\n", private_data,
-              port, port_idx,  length, *(uint32_t *)src);
+    PrintDebug("VIRTIO NIC %p Write for port %d (index=%d) len=%d, value=%x\n",
+              private_data, port, port_idx,  
+              length, *(uint32_t *)src);
 
     switch (port_idx) {
        case GUEST_FEATURES_PORT:
@@ -406,15 +414,23 @@ static int virtio_io_write(struct guest_info *core,
            uint16_t queue_idx = virtio->virtio_cfg.vring_queue_selector;
            switch (queue_idx) {
                case 0:
-                   virtio_setup_queue(core, virtio, &virtio->rx_vq, pfn, page_addr);
-                   //disable_cb(&virtio->rx_vq);
+                   virtio_setup_queue(core, virtio,
+                                      &virtio->rx_vq, 
+                                      pfn, page_addr);
                    break;
                case 1:
-                   virtio_setup_queue(core, virtio, &virtio->tx_vq, pfn, page_addr);
-                   //disable_cb(&virtio->tx_vq);
+                   virtio_setup_queue(core, virtio, 
+                                      &virtio->tx_vq, 
+                                      pfn, page_addr);
+                   if(virtio->tx_notify == 0){
+                       disable_cb(&virtio->tx_vq);
+                   }
+                   virtio->status = 1;
                    break;
                case 2:
-                   virtio_setup_queue(core, virtio, &virtio->ctrl_vq, pfn, page_addr);
+                   virtio_setup_queue(core, virtio, 
+                                      &virtio->ctrl_vq, 
+                                      pfn, page_addr);
                    break;          
                default:
                    break;
@@ -434,19 +450,18 @@ static int virtio_io_write(struct guest_info *core,
            {
                uint16_t queue_idx = *(uint16_t *)src;                  
                if (queue_idx == 0){
-                   handle_rx_kick(core, virtio);
+                   /* receive queue refill */
+                   virtio->stats.tx_interrupts ++;
                } else if (queue_idx == 1){
-                   if (handle_pkt_tx(core, virtio) == -1) {
-                       PrintError("Could not handle NIC Notification\n");
+                   if (handle_pkt_tx(core, virtio, 0) < 0) {
+                       PrintError("Virtio NIC: Error to handle packet TX\n");
                        return -1;
                    }
+                   virtio->stats.tx_interrupts ++;
                } else if (queue_idx == 2){
-                   if (handle_ctrl(core, virtio) == -1) {
-                       PrintError("Could not handle NIC Notification\n");
-                       return -1;
-                   }
+                   /* ctrl */
                } else {
-                   PrintError("Wrong queue index %d\n", queue_idx);
+                   PrintError("Virtio NIC: Wrong queue index %d\n", queue_idx);
                }       
                break;          
            }
@@ -454,7 +469,6 @@ static int virtio_io_write(struct guest_info *core,
        case VIRTIO_STATUS_PORT:
            virtio->virtio_cfg.status = *(uint8_t *)src;
            if (virtio->virtio_cfg.status == 0) {
-               PrintDebug("Resetting device\n");
                virtio_init_state(virtio);
            }
            break;
@@ -479,21 +493,21 @@ static int virtio_io_read(struct guest_info *core,
     int port_idx = port % virtio->io_range_size;
     uint16_t queue_idx = virtio->virtio_cfg.vring_queue_selector;
 
-    PrintDebug("Virtio NIC %p: Read  for port 0x%x (index =%d), length=%d\n", private_data,
-              port, port_idx, length);
+    PrintDebug("Virtio NIC %p: Read  for port 0x%x (index =%d), length=%d\n", 
+              private_data, port, port_idx, length);
        
     switch (port_idx) {
        case HOST_FEATURES_PORT:
            if (length != 4) {
-               PrintError("Illegal read length for host features\n");
-               return -1;
+               PrintError("Virtio NIC: Illegal read length for host features\n");
+               //return -1;
            }
            *(uint32_t *)dst = virtio->virtio_cfg.host_features;
            break;
 
        case VRING_PG_NUM_PORT:
            if (length != 4) {
-               PrintError("Illegal read length for page frame number\n");
+               PrintError("Virtio NIC: Illegal read length for page frame number\n");
                return -1;
            }
            switch (queue_idx) {
@@ -513,7 +527,7 @@ static int virtio_io_read(struct guest_info *core,
 
        case VRING_SIZE_PORT:
            if (length != 2) {
-               PrintError("Illegal read length for vring size\n");
+               PrintError("Virtio NIC: Illegal read length for vring size\n");
                return -1;
            }
            switch (queue_idx) {
@@ -533,7 +547,7 @@ static int virtio_io_read(struct guest_info *core,
 
        case VIRTIO_STATUS_PORT:
            if (length != 1) {
-               PrintError("Illegal read length for status\n");
+               PrintError("Virtio NIC: Illegal read length for status\n");
                return -1;
            }
            *(uint8_t *)dst = virtio->virtio_cfg.status;
@@ -542,7 +556,8 @@ static int virtio_io_read(struct guest_info *core,
        case VIRTIO_ISR_PORT:
            *(uint8_t *)dst = virtio->virtio_cfg.pci_isr;
            virtio->virtio_cfg.pci_isr = 0;
-           v3_pci_lower_irq(virtio->virtio_dev->pci_bus, 0, virtio->pci_dev);
+           v3_pci_lower_irq(virtio->virtio_dev->pci_bus, 
+                            0, virtio->pci_dev);
            break;
 
        case VIRTIO_NET_CONFIG ... VIRTIO_NET_CONFIG + ETH_ALEN:
@@ -550,7 +565,8 @@ static int virtio_io_read(struct guest_info *core,
            break;
 
        default:
-           PrintError("Virtio NIC: Read of Unhandled Virtio Read:%d\n", port_idx);
+           PrintError("Virtio NIC: Read of Unhandled Virtio Read:%d\n", 
+                      port_idx);
            return -1;
     }
 
@@ -558,110 +574,163 @@ static int virtio_io_read(struct guest_info *core,
 }
 
 
+/* receiving raw ethernet pkt from backend */
 static int virtio_rx(uint8_t * buf, uint32_t size, void * private_data) {
     struct virtio_net_state * virtio = (struct virtio_net_state *)private_data;
     struct virtio_queue * q = &(virtio->rx_vq);
     struct virtio_net_hdr_mrg_rxbuf hdr;
-    uint32_t hdr_len = sizeof(struct virtio_net_hdr_mrg_rxbuf);
-    uint32_t data_len = size;
-    uint32_t offset = 0;
     unsigned long flags;
-    int ret_val = -ERR_VIRTIO_OTHER;
-    int raw = 1;
-
-#ifndef CONFIG_DEBUG_VIRTIO_NET
-   {
-       PrintDebug("Virtio-NIC: virtio_rx: size: %d\n", size);  
-       //v3_hexdump(buf, size, NULL, 0);
-   }
-#endif
+    uint8_t kick_guest = 0;
 
-    flags = v3_lock_irqsave(virtio->rx_lock);
+    V3_Net_Print(2, "Virtio NIC: virtio_rx: size: %d\n", size);
 
-    virtio->pkt_recv ++;
-    if (!raw)
-       data_len -= hdr_len;
+    if (!q->ring_avail_addr) {
+       V3_Net_Print(2, "Virtio NIC: RX Queue not set\n");
+       virtio->stats.rx_dropped ++;
+       
+       return -1;
+    }
 
-    if (!raw)
-        memcpy(&hdr, buf, sizeof(struct virtio_net_hdr_mrg_rxbuf));
-    else
-        memset(&hdr, 0, sizeof(struct virtio_net_hdr_mrg_rxbuf));
+    memset(&hdr, 0, sizeof(struct virtio_net_hdr_mrg_rxbuf));
 
-    if (q->ring_avail_addr == 0) {
-       PrintError("Queue is not set\n");
-       ret_val = -ERR_VIRTIO_RXQ_NOSET;
-       goto exit;
-    }
+    flags = v3_lock_irqsave(virtio->rx_lock);
 
     if (q->cur_avail_idx != q->avail->index){
-       addr_t hdr_addr = 0;
-       uint16_t hdr_idx = q->avail->ring[q->cur_avail_idx % q->queue_size];
-       uint16_t buf_idx = 0;
-       struct vring_desc * hdr_desc = NULL;
+       uint16_t buf_idx;
+       struct vring_desc * buf_desc;
+       uint32_t hdr_len, len;
+       uint32_t offset = 0;
+
+       hdr_len = (virtio->mergeable_rx_bufs)?
+           sizeof(struct virtio_net_hdr_mrg_rxbuf):
+           sizeof(struct virtio_net_hdr);
+
+       if(virtio->mergeable_rx_bufs){/* merged buffer */
+           struct vring_desc * hdr_desc;
+           uint16_t old_idx = q->cur_avail_idx;
+
+           buf_idx = q->avail->ring[q->cur_avail_idx % q->queue_size];
+           hdr_desc = &(q->desc[buf_idx]);
+
+           len = copy_data_to_desc(&(virtio->virtio_dev->vm->cores[0]), 
+                                   virtio, hdr_desc, buf, size, hdr_len);
+           if(len < 0){
+               goto err_exit;
+           }
+           offset += len;
 
-       hdr_desc = &(q->desc[hdr_idx]);
-       if (v3_gpa_to_hva(&(virtio->virtio_dev->vm->cores[0]), hdr_desc->addr_gpa, &(hdr_addr)) == -1) {
-           PrintError("Could not translate receive buffer address\n");
-           goto exit;
-       }
-       hdr.num_buffers = 1;
-       memcpy((void *)hdr_addr, &hdr, sizeof(struct virtio_net_hdr_mrg_rxbuf));
-       if (offset >= data_len) {
-           hdr_desc->flags &= ~VIRTIO_NEXT_FLAG;
-       }
+           q->used->ring[q->used->index % q->queue_size].id = q->avail->ring[q->cur_avail_idx % q->queue_size];
+           q->used->ring[q->used->index % q->queue_size].length = hdr_len + offset;
+           q->cur_avail_idx ++;
+           hdr.num_buffers ++;
+
+           while(offset < size) {
+               buf_idx = q->avail->ring[q->cur_avail_idx % q->queue_size];
+               buf_desc = &(q->desc[buf_idx]);
+
+               len = copy_data_to_desc(&(virtio->virtio_dev->vm->cores[0]), 
+                                       virtio, buf_desc, buf+offset, size-offset, 0);  
+               if (len < 0){
+                   V3_Net_Print(2, "Virtio NIC: merged buffer, %d buffer size %d\n", 
+                                hdr.num_buffers, len);
+                   q->cur_avail_idx = old_idx;
+                   goto err_exit;
+               }
+               offset += len;
+               buf_desc->flags &= ~VIRTIO_NEXT_FLAG;
+
+               q->used->ring[(q->used->index + hdr.num_buffers) % q->queue_size].id = q->avail->ring[q->cur_avail_idx % q->queue_size];
+               q->used->ring[(q->used->index + hdr.num_buffers) % q->queue_size].length = len;
+               q->cur_avail_idx ++;   
+
+               hdr.num_buffers ++;
+           }
 
-       struct vring_desc * buf_desc = NULL;
-       for (buf_idx = hdr_desc->next; offset < data_len; buf_idx = q->desc[hdr_idx].next) {
-           uint32_t len = 0;
+           copy_data_to_desc(&(virtio->virtio_dev->vm->cores[0]), 
+                             virtio, hdr_desc, (uchar_t *)&hdr, hdr_len, 0);
+           q->used->index += hdr.num_buffers;
+       }else{
+           buf_idx = q->avail->ring[q->cur_avail_idx % q->queue_size];
            buf_desc = &(q->desc[buf_idx]);
 
-           len = copy_data_to_desc(&(virtio->virtio_dev->vm->cores[0]), virtio, buf_desc, buf + offset, data_len - offset, 0);     
+           /* copy header */
+           len = copy_data_to_desc(&(virtio->virtio_dev->vm->cores[0]), 
+                                   virtio, buf_desc, (uchar_t *)&(hdr.hdr), hdr_len, 0);
+           if(len < hdr_len){
+               V3_Net_Print(2, "Virtio NIC: rx copy header error %d, hdr_len %d\n", 
+                            len, hdr_len);
+               goto err_exit;
+           }
+
+           len = copy_data_to_desc(&(virtio->virtio_dev->vm->cores[0]), 
+                                   virtio, buf_desc, buf, size, hdr_len);
+           if(len < 0){
+               V3_Net_Print(2, "Virtio NIC: rx copy data error %d\n", len);
+               goto err_exit;
+           }
            offset += len;
-           if (offset < data_len) {
-               buf_desc->flags = VIRTIO_NEXT_FLAG;             
+
+           /* copy rest of data */
+           while(offset < size && 
+                 (buf_desc->flags & VIRTIO_NEXT_FLAG)){
+               buf_desc = &(q->desc[buf_desc->next]);
+               len = copy_data_to_desc(&(virtio->virtio_dev->vm->cores[0]), 
+                                       virtio, buf_desc, buf+offset, size-offset, 0);      
+               if (len < 0) {
+                   break;
+               }
+               offset += len;
            }
-           buf_desc->length = len;
-       }
-       buf_desc->flags &= ~VIRTIO_NEXT_FLAG;
-       
-       q->used->ring[q->used->index % q->queue_size].id = q->avail->ring[q->cur_avail_idx % q->queue_size];
-       q->used->ring[q->used->index % q->queue_size].length = data_len + hdr_len; /* This should be the total length of data sent to guest (header+pkt_data) */
-       q->used->index++;
-       q->cur_avail_idx++;
-
-       /* if there are certain num of pkts in the RX queue, notify guest 
-         * so guest will exit to palacios
-         * when it returns, guest gets the virtio rx interrupt */
-       if((++virtio->buffed_rx > q->queue_size/5) &&
-           (q->avail->flags & VIRTIO_NO_IRQ_FLAG)) {
-           if(virtio->virtio_dev->vm->cores[0].cpu_id != V3_Get_CPU()){
-                 notify_guest(virtio);
+           buf_desc->flags &= ~VIRTIO_NEXT_FLAG;
+
+           if(offset < size){
+               V3_Net_Print(2, "Virtio NIC: rx not enough ring buffer, buffer size %d\n", 
+                            len);
+               goto err_exit;
            }
-           virtio->buffed_rx = 0;
-       }
+               
+           q->used->ring[q->used->index % q->queue_size].id = q->avail->ring[q->cur_avail_idx % q->queue_size];
+           q->used->ring[q->used->index % q->queue_size].length = size + hdr_len; /* This should be the total length of data sent to guest (header+pkt_data) */
+           q->used->index ++;
+           q->cur_avail_idx ++;
+       } 
+
+       virtio->stats.rx_pkts ++;
+       virtio->stats.rx_bytes += size;
     } else {
-       virtio->pkt_drop++;
-       /* RX queue is full,  tell backend to stop RX on this device */
-       virtio->net_ops->stop_rx(virtio->backend_data);
-       enable_cb(&virtio->rx_vq);
-       
-       ret_val = -ERR_VIRTIO_RXQ_FULL;
-       goto exit;
+       V3_Net_Print(2, "Virtio NIC: Guest RX queue is full\n");
+       virtio->stats.rx_dropped ++;
+
+       /* kick guest to refill RX queue */
+       kick_guest = 1;
     }
 
-    if (!(q->avail->flags & VIRTIO_NO_IRQ_FLAG)) {
-       PrintDebug("Raising IRQ %d\n",  virtio->pci_dev->config_header.intr_line);
+    v3_unlock_irqrestore(virtio->rx_lock, flags);
+
+    if (!(q->avail->flags & VIRTIO_NO_IRQ_FLAG) || kick_guest) {
+       V3_Net_Print(2, "Virtio NIC: RX Raising IRQ %d\n",  
+                    virtio->pci_dev->config_header.intr_line);
+
+       virtio->virtio_cfg.pci_isr = 0x1;       
        v3_pci_raise_irq(virtio->virtio_dev->pci_bus, 0, virtio->pci_dev);
-       virtio->virtio_cfg.pci_isr = 0x1;
+       virtio->stats.rx_interrupts ++;
     }
 
-    ret_val = offset;
+    /* notify guest if it is in guest mode */
+    if((kick_guest || virtio->rx_notify == 1) && 
+       V3_Get_CPU() != virtio->virtio_dev->vm->cores[0].pcpu_id){
+       v3_interrupt_cpu(virtio->virtio_dev->vm, 
+                        virtio->virtio_dev->vm->cores[0].pcpu_id, 
+                        0);
+    }
 
-exit:
+    return 0;
 
+err_exit:
+    virtio->stats.rx_dropped ++;
     v3_unlock_irqrestore(virtio->rx_lock, flags);
  
-    return ret_val;
+    return -1;
 }
 
 static int virtio_free(struct virtio_dev_state * virtio) {
@@ -687,45 +756,17 @@ static struct v3_device_ops dev_ops = {
 };
 
 
-/* TODO: Issue here: which vm info it needs? calling VM or the device's own VM? */
-static void virtio_nic_poll(struct v3_vm_info * vm, void * data){
-    struct virtio_net_state * virtio = (struct virtio_net_state *)data;
-       
-    handle_pkt_tx(&(vm->cores[0]), virtio);
-}
-
-static void virtio_start_tx(void * data){
-    struct virtio_net_state * virtio = (struct virtio_net_state *)data;
-    unsigned long flags;
+static int virtio_poll(int quote, void * data){
+    struct virtio_net_state * virtio  = (struct virtio_net_state *)data;
 
-    flags = v3_lock_irqsave(virtio->tx_lock);
-    virtio->tx_disabled = 0;
+    if (virtio->status) {
 
-    /* notify the device's guest to start sending pkt */
-    if(virtio->virtio_dev->vm->cores[0].cpu_id != V3_Get_CPU()){
-       notify_guest(virtio);
-    }
-    v3_unlock_irqrestore(virtio->tx_lock, flags);      
-}
-
-static void virtio_stop_tx(void * data){
-    struct virtio_net_state * virtio = (struct virtio_net_state *)data;
-    unsigned long flags;
-
-    flags = v3_lock_irqsave(virtio->tx_lock);
-    virtio->tx_disabled = 1;
-
-    /* stop the guest to exit to palacios for sending pkt? */
-    if(virtio->virtio_dev->vm->cores[0].cpu_id != V3_Get_CPU()){
-       disable_cb(&virtio->tx_vq);
-    }
+       return handle_pkt_tx(&(virtio->vm->cores[0]), virtio, quote);
+    } 
 
-    v3_unlock_irqrestore(virtio->tx_lock, flags);
+    return 0;
 }
 
-       
-
-
 static int register_dev(struct virtio_dev_state * virtio, 
                        struct virtio_net_state * net_state) 
 {
@@ -735,15 +776,16 @@ static int register_dev(struct virtio_dev_state * virtio,
     int tmp_ports = num_ports;
     int i;
 
-    // This gets the number of ports, rounded up to a power of 2
-    net_state->io_range_size = 1; // must be a power of 2
+    /* This gets the number of ports, rounded up to a power of 2 */
+    net_state->io_range_size = 1;
     while (tmp_ports > 0) {
        tmp_ports >>= 1;
        net_state->io_range_size <<= 1;
     }
        
-    // this is to account for any low order bits being set in num_ports
-    // if there are none, then num_ports was already a power of 2 so we shift right to reset it
+    /* this is to account for any low order bits being set in num_ports
+     * if there are none, then num_ports was already a power of 2 so we shift right to reset it
+     */
     if ((num_ports & ((net_state->io_range_size >> 1) - 1)) == 0) {
        net_state->io_range_size >>= 1;
     }
@@ -752,7 +794,8 @@ static int register_dev(struct virtio_dev_state * virtio,
        bars[i].type = PCI_BAR_NONE;
     }
     
-    PrintDebug("Virtio-NIC io_range_size = %d\n", net_state->io_range_size);
+    PrintDebug("Virtio NIC: io_range_size = %d\n", 
+              net_state->io_range_size);
     
     bars[0].type = PCI_BAR_IO;
     bars[0].default_base_port = -1;
@@ -762,7 +805,7 @@ static int register_dev(struct virtio_dev_state * virtio,
     bars[0].private_data = net_state;
     
     pci_dev = v3_pci_register_device(virtio->pci_bus, PCI_STD_DEVICE, 
-                                    0, 4/*PCI_AUTO_DEV_NUM*/, 0,
+                                    0, PCI_AUTO_DEV_NUM, 0,
                                     "LNX_VIRTIO_NIC", bars,
                                     NULL, NULL, NULL, net_state);
     
@@ -791,12 +834,83 @@ static int register_dev(struct virtio_dev_state * virtio,
        
     virtio_init_state(net_state);
 
+    V3_Print("Virtio NIC: Registered Intr Line %d\n", pci_dev->config_header.intr_line);
+
     /* Add backend to list of devices */
     list_add(&(net_state->dev_link), &(virtio->dev_list));
 
     return 0;
 }
 
+#define RATE_UPPER_THRESHOLD 10  /* 10000 pkts per second, around 100Mbits */
+#define RATE_LOWER_THRESHOLD 1
+#define PROFILE_PERIOD 10000 /*us*/
+
+static void virtio_nic_timer(struct guest_info * core, 
+                            uint64_t cpu_cycles, uint64_t cpu_freq, 
+                            void * priv_data) {
+    struct virtio_net_state * net_state = (struct virtio_net_state *)priv_data;
+    uint64_t period_us;
+    static int profile_ms = 0;
+
+    if(!net_state->status){ /* VNIC is not in working status */
+       return;
+    }
+
+    period_us = (1000*cpu_cycles)/cpu_freq;
+    net_state->past_us += period_us;
+
+    if(net_state->past_us > PROFILE_PERIOD){ 
+       uint32_t tx_rate, rx_rate;
+       
+       tx_rate = (net_state->stats.tx_pkts - net_state->tx_pkts)/(net_state->past_us/1000); /* pkts/per ms */
+       rx_rate = (net_state->stats.rx_pkts - net_state->rx_pkts)/(net_state->past_us/1000);
+
+       net_state->tx_pkts = net_state->stats.tx_pkts;
+       net_state->rx_pkts = net_state->stats.rx_pkts;
+
+       if(tx_rate > RATE_UPPER_THRESHOLD && net_state->tx_notify == 1){
+           V3_Print("Virtio NIC: Switch TX to VMM driven mode\n");
+           disable_cb(&(net_state->tx_vq));
+           net_state->tx_notify = 0;
+       }
+
+       if(tx_rate < RATE_LOWER_THRESHOLD && net_state->tx_notify == 0){
+           V3_Print("Virtio NIC: Switch TX to Guest  driven mode\n");
+           enable_cb(&(net_state->tx_vq));
+           net_state->tx_notify = 1;
+       }
+
+       if(rx_rate > RATE_UPPER_THRESHOLD && net_state->rx_notify == 1){
+           V3_Print("Virtio NIC: Switch RX to VMM None notify mode\n");
+           net_state->rx_notify = 0;
+       }
+
+       if(rx_rate < RATE_LOWER_THRESHOLD && net_state->rx_notify == 0){
+           V3_Print("Virtio NIC: Switch RX to VMM notify mode\n");
+           net_state->rx_notify = 1;
+       }
+
+       net_state->past_us = 0;
+    }
+
+    profile_ms += period_us/1000;
+    if(profile_ms > 20000){
+       V3_Net_Print(1, "Virtio NIC: TX: Pkt: %lld, Bytes: %lld\n\t\tRX Pkt: %lld. Bytes: %lld\n\t\tDropped: tx %lld, rx %lld\nInterrupts: tx %d, rx %d\nTotal Exit: %lld\n",
+               net_state->stats.tx_pkts, net_state->stats.tx_bytes,
+               net_state->stats.rx_pkts, net_state->stats.rx_bytes,
+               net_state->stats.tx_dropped, net_state->stats.rx_dropped,
+               net_state->stats.tx_interrupts, net_state->stats.rx_interrupts,
+               net_state->vm->cores[0].num_exits);
+       profile_ms = 0;
+    }
+}
+
+static struct v3_timer_ops timer_ops = {
+    .update_timer = virtio_nic_timer,
+};
+
+
 static int connect_fn(struct v3_vm_info * info, 
                      void * frontend_data, 
                      struct v3_dev_net_ops * ops, 
@@ -808,58 +922,38 @@ static int connect_fn(struct v3_vm_info * info,
     memset(net_state, 0, sizeof(struct virtio_net_state));
     register_dev(virtio, net_state);
 
+    net_state->vm = info;
     net_state->net_ops = ops;
     net_state->backend_data = private_data;
     net_state->virtio_dev = virtio;
+    
+    net_state->tx_notify = 1;
+    net_state->rx_notify = 1;
        
+    net_state->timer = v3_add_timer(&(info->cores[0]),
+                                &timer_ops,net_state);
 
     ops->recv = virtio_rx;
-    ops->poll = virtio_nic_poll;
-    ops->start_tx = virtio_start_tx;
-    ops->stop_tx = virtio_stop_tx;
-    ops->frontend_data = net_state;
-    memcpy(ops->fnt_mac, virtio->mac, ETH_ALEN);
+    ops->poll = virtio_poll;
+    ops->config.frontend_data = net_state;
+    ops->config.poll = 1;
+    ops->config.quote = 64;
+    ops->config.fnt_mac = V3_Malloc(ETH_ALEN);  
+    memcpy(ops->config.fnt_mac, virtio->mac, ETH_ALEN);
 
     return 0;
 }
 
-
-static int str2mac(char * macstr, char * mac){
-    char hex[2], *s = macstr;
-    int i = 0;
-
-    while(s){
-       memcpy(hex, s, 2);
-       mac[i++] = (char)atox(hex);     
-       if (i == ETH_ALEN) return 0;
-       s=strchr(s, ':');
-       if(s) s++;
-    }
-
-    return -1;
-}
-
-static inline void random_ethaddr(uchar_t * addr)
-{
-    uint64_t val;
-
-    /* using current rdtsc as random number */
-    rdtscll(val);
-    *(uint64_t *)addr = val;
-       
-    addr [0] &= 0xfe;  /* clear multicast bit */
-    addr [0] |= 0x02;  /* set local assignment bit (IEEE802) */
-}
-
-
 static int virtio_init(struct v3_vm_info * vm, v3_cfg_tree_t * cfg) {
     struct vm_device * pci_bus = v3_find_dev(vm, v3_cfg_val(cfg, "bus"));
     struct virtio_dev_state * virtio_state = NULL;
     char * dev_id = v3_cfg_val(cfg, "ID");
-    char * macstr = v3_cfg_val(cfg, "mac");
+    char macstr[128];
+    char * str = v3_cfg_val(cfg, "mac");
+    memcpy(macstr, str, strlen(str));
 
     if (pci_bus == NULL) {
-       PrintError("Virtio NIC: VirtIO devices require a PCI Bus");
+       PrintError("Virtio NIC: Virtio device require a PCI Bus");
        return -1;
     }
 
@@ -873,7 +967,6 @@ static int virtio_init(struct v3_vm_info * vm, v3_cfg_tree_t * cfg) {
     if (macstr != NULL && !str2mac(macstr, virtio_state->mac)) {
        PrintDebug("Virtio NIC: Mac specified %s\n", macstr);
     }else {
-       PrintDebug("Virtio NIC: MAC not specified\n");
        random_ethaddr(virtio_state->mac);
     }