]> pd.if.org Git - nbds/blobdiff - struct/hashtable.c
generalize list into an updatable list-based map
[nbds] / struct / hashtable.c
index 45c9ffc6f9f98ad479c33b4dd5ff00a557515a1e..5406d4242c038160047df62eb9ca43682f2e3289 100644 (file)
 #include "murmur.h"
 #include "mem.h"
 #include "struct.h"
+#include "nstring.h"
 
-#define GET_PTR(x) ((string_t *)((x) & MASK(48))) // low-order 48 bits is a pointer to a string_t
+#define GET_PTR(x) ((nstring_t *)((x) & MASK(48))) // low-order 48 bits is a pointer to a nstring_t
 
 typedef struct ht_entry {
-    uint64_t key;
+    uint64_t key; // ptr to nstring_t
     uint64_t value;
 } entry_t;
 
-typedef struct string {
-    uint32_t len;
-    char val[];
-} string_t;
-
-typedef struct hash_table_i {
+typedef struct hti {
     volatile entry_t *table;
-    hash_table_t *ht; // parent ht;
-    struct hash_table_i *next;
-    struct hash_table_i *next_free;
+    hashtable_t *ht; // parent ht;
+    struct hti *next;
+    struct hti *next_free;
     unsigned int scale;
     int max_probe;
     int count; // TODO: make these counters distributed
     int num_entries_copied;
     int scan;
-} hash_table_i_t;
+} hashtable_i_t;
+
+struct ht {
+    hashtable_i_t *hti;
+};
 
 static const uint64_t COPIED_VALUE           = -1;
 static const uint64_t TOMBSTONE              = STRIP_TAG(-1);
@@ -49,8 +49,7 @@ static const unsigned ENTRIES_PER_COPY_CHUNK = CACHE_LINE_SIZE/sizeof(entry_t)*2
 static const unsigned MIN_SCALE              = 4; // min 16 entries (4 buckets)
 static const unsigned MAX_BUCKETS_TO_PROBE   = 250;
 
-static int hti_copy_entry 
-    (hash_table_i_t *ht1, volatile entry_t *e, uint32_t e_key_hash, hash_table_i_t *ht2);
+static int hti_copy_entry (hashtable_i_t *ht1, volatile entry_t *e, uint32_t e_key_hash, hashtable_i_t *ht2);
 
 // Choose the next bucket to probe using the high-order bits of <key_hash>.
 static inline int get_next_ndx(int old_ndx, uint32_t key_hash, int ht_scale) {
@@ -67,9 +66,7 @@ static inline int get_next_ndx(int old_ndx, uint32_t key_hash, int ht_scale) {
 static inline int ht_key_equals (uint64_t a, uint32_t b_hash, const char *b_value, uint32_t b_len) {
     if ((b_hash >> 16) != (a >> 48)) // high-order 16 bits are from the hash value
         return FALSE;
-    const string_t *a_key = GET_PTR(a); 
-    assert(a_key);
-    return a_key->len == b_len && memcmp(a_key->val, b_value, b_len) == 0;
+    return ns_cmp_raw(GET_PTR(a), b_value, b_len) == 0;
 }
 
 // Lookup <key> in <hti>. 
@@ -80,8 +77,8 @@ static inline int ht_key_equals (uint64_t a, uint32_t b_hash, const char *b_valu
 //
 // Record if the entry being returned is empty. Otherwise the caller will have to waste time with
 // ht_key_equals() to confirm that it did not lose a race to fill an empty entry.
-static volatile entry_t *hti_lookup (hash_table_i_t *hti, uint32_t key_hash, const char *key_val, uint32_t key_len, int *is_empty) {
-    TRACE("h2", "hti_lookup(key %p in hti %p)", key_val, hti);
+static volatile entry_t *hti_lookup (hashtable_i_t *hti, uint32_t key_hash, const char *key_data, uint32_t key_len, int *is_empty) {
+    TRACE("h2", "hti_lookup(key %p in hti %p)", key_data, hti);
     *is_empty = 0;
 
     // Probe one cache line at a time
@@ -97,13 +94,13 @@ static volatile entry_t *hti_lookup (hash_table_i_t *hti, uint32_t key_hash, con
 
             uint64_t e_key = e->key;
             if (e_key == DOES_NOT_EXIST) {
-                TRACE("h1", "hti_lookup: entry %p for key \"%s\" is empty", e, GET_PTR(e_key)->val);
+                TRACE("h1", "hti_lookup: entry %p for key \"%s\" is empty", e, GET_PTR(e_key)->data);
                 *is_empty = 1; // indicate an empty so the caller avoids an expensive ht_key_equals
                 return e;
             }
 
-            if (ht_key_equals(e_key, key_hash, key_val, key_len)) {
-                TRACE("h1", "hti_lookup: entry %p key \"%s\"", e, GET_PTR(e_key)->val);
+            if (ht_key_equals(e_key, key_hash, key_data, key_len)) {
+                TRACE("h1", "hti_lookup: entry %p key \"%s\"", e, GET_PTR(e_key)->data);
                 TRACE("h2", "hti_lookup: entry key len %llu, value %p", GET_PTR(e_key)->len, e->value);
                 return e;
             }
@@ -117,16 +114,16 @@ static volatile entry_t *hti_lookup (hash_table_i_t *hti, uint32_t key_hash, con
     return NULL;
 }
 
-// Allocate and initialize a hash_table_i_t with 2^<scale> entries.
-static hash_table_i_t *hti_alloc (hash_table_t *parent, int scale) {
+// Allocate and initialize a hashtable_i_t with 2^<scale> entries.
+static hashtable_i_t *hti_alloc (hashtable_t *parent, int scale) {
     // Include enough slop to align the actual table on a cache line boundry
-    size_t n = sizeof(hash_table_i_t) 
+    size_t n = sizeof(hashtable_i_t) 
              + sizeof(entry_t) * (1 << scale) 
              + (CACHE_LINE_SIZE - 1);
-    hash_table_i_t *hti = (hash_table_i_t *)calloc(n, 1);
+    hashtable_i_t *hti = (hashtable_i_t *)calloc(n, 1);
 
     // Align the table of hash entries on a cache line boundry.
-    hti->table = (entry_t *)(((uint64_t)hti + sizeof(hash_table_i_t) + (CACHE_LINE_SIZE-1)) 
+    hti->table = (entry_t *)(((uint64_t)hti + sizeof(hashtable_i_t) + (CACHE_LINE_SIZE-1)) 
                             & ~(CACHE_LINE_SIZE-1));
 
     hti->scale = scale;
@@ -148,8 +145,8 @@ static hash_table_i_t *hti_alloc (hash_table_t *parent, int scale) {
 
 // Called when <hti> runs out of room for new keys.
 //
-// Initiates a copy by creating a larger hash_table_i_t and installing it in <hti->next>.
-static void hti_start_copy (hash_table_i_t *hti) {
+// Initiates a copy by creating a larger hashtable_i_t and installing it in <hti->next>.
+static void hti_start_copy (hashtable_i_t *hti) {
     TRACE("h0", "hti_start_copy(hti %p scale %llu)", hti, hti->scale);
 
     // heuristics to determine the size of the new table
@@ -159,8 +156,8 @@ static void hti_start_copy (hash_table_i_t *hti) {
     new_scale += (count > (1 << (new_scale - 2))); // double size again if more than 1/2 full
 
     // Allocate the new table and attempt to install it.
-    hash_table_i_t *next = hti_alloc(hti->ht, new_scale);
-    hash_table_i_t *old_next = SYNC_CAS(&hti->next, NULL, next);
+    hashtable_i_t *next = hti_alloc(hti->ht, new_scale);
+    hashtable_i_t *old_next = SYNC_CAS(&hti->next, NULL, next);
     if (old_next != NULL) {
         // Another thread beat us to it.
         TRACE("h0", "hti_start_copy: lost race to install new hti; found %p", old_next, 0);
@@ -174,8 +171,8 @@ static void hti_start_copy (hash_table_i_t *hti) {
 //
 // Return 1 unless <ht1_e> is already copied (then return 0), so the caller can account for the total
 // number of entries left to copy.
-static int hti_copy_entry (hash_table_i_t *ht1, volatile entry_t *ht1_e, uint32_t key_hash, 
-                           hash_table_i_t *ht2) {
+static int hti_copy_entry (hashtable_i_t *ht1, volatile entry_t *ht1_e, uint32_t key_hash, 
+                           hashtable_i_t *ht2) {
     TRACE("h2", "hti_copy_entry: entry %p to table %p", ht1_e, ht2);
     assert(ht1);
     assert(ht1->next);
@@ -216,25 +213,24 @@ static int hti_copy_entry (hash_table_i_t *ht1, volatile entry_t *ht1_e, uint32_
     // to be freed.
     assert(COPIED_VALUE == TAG_VALUE(TOMBSTONE));
     if (ht1_e_value == TOMBSTONE) {
-        TRACE("h1", "hti_copy_entry: entry %p old value was deleted, now freeing key %p", ht1_e, 
-                    GET_PTR(ht1_e->key));
+        TRACE("h1", "hti_copy_entry: entry %p old value was deleted, now freeing key %p", ht1_e, GET_PTR(ht1_e->key));
         nbd_defer_free(GET_PTR(ht1_e->key));
         return TRUE; 
     }
 
     // Install the key in the new table.
     uint64_t key = ht1_e->key;
-    string_t *key_string = GET_PTR(key);
+    nstring_t *key_string = GET_PTR(key);
     uint64_t value = STRIP_TAG(ht1_e_value);
 
     // We use 0 to indicate that <key_hash> isn't initiallized. Occasionally the <key_hash> will
     // really be 0 and we will waste time recomputing it. That is rare enough that it is OK. 
     if (key_hash == 0) { 
-        key_hash = murmur32(key_string->val, key_string->len);
+        key_hash = murmur32(key_string->data, key_string->len);
     }
 
     int is_empty;
-    volatile entry_t *ht2_e = hti_lookup(ht2, key_hash, key_string->val, key_string->len, &is_empty);
+    volatile entry_t *ht2_e = hti_lookup(ht2, key_hash, key_string->data, key_string->len, &is_empty);
     TRACE("h0", "hti_copy_entry: copy entry %p to entry %p", ht1_e, ht2_e);
 
     // it is possible that there is not any room in the new table either
@@ -270,7 +266,7 @@ static int hti_copy_entry (hash_table_i_t *ht1, volatile entry_t *ht1_e, uint32_
 
     // Update the count if we were the one that completed the copy.
     if (old_ht2_e_value == DOES_NOT_EXIST) {
-        TRACE("h0", "hti_copy_entry: key \"%s\" value %p copied to new entry", key_string->val, value);
+        TRACE("h0", "hti_copy_entry: key \"%s\" value %p copied to new entry", key_string->data, value);
         SYNC_ADD(&ht1->count, -1);
         SYNC_ADD(&ht2->count, 1);
         return TRUE;
@@ -291,20 +287,20 @@ static int hti_copy_entry (hash_table_i_t *ht1, volatile entry_t *ht1_e, uint32_
 //
 // NOTE: the returned value matches <expected> iff the set succeeds
 //
-// Certain values of <expected> have special meaning. If <expected> is HT_EXPECT_EXISTS then any 
+// Certain values of <expected> have special meaning. If <expected> is EXPECT_EXISTS then any 
 // real value matches (i.e. not a TOMBSTONE or DOES_NOT_EXIST) as long as <key> is in the table. If
-// <expected> is HT_EXPECT_WHATEVER then skip the test entirely.
+// <expected> is EXPECT_WHATEVER then skip the test entirely.
 //
-static uint64_t hti_compare_and_set (hash_table_i_t *hti, uint32_t key_hash, const char *key_val
+static uint64_t hti_compare_and_set (hashtable_i_t *hti, uint32_t key_hash, const char *key_data
                                     uint32_t key_len, uint64_t expected, uint64_t new) {
-    TRACE("h1", "hti_compare_and_set: hti %p key %p", hti, key_val);
+    TRACE("h1", "hti_compare_and_set: hti %p key %p", hti, key_data);
     TRACE("h1", "hti_compare_and_set: value %p expect %p", new, expected);
     assert(hti);
     assert(new != DOES_NOT_EXIST && !IS_TAGGED(new));
-    assert(key_val);
+    assert(key_data);
 
     int is_empty;
-    volatile entry_t *e = hti_lookup(hti, key_hash, key_val, key_len, &is_empty);
+    volatile entry_t *e = hti_lookup(hti, key_hash, key_data, key_len, &is_empty);
 
     // There is no room for <key>, grow the table and try again.
     if (e == NULL) {
@@ -317,7 +313,7 @@ static uint64_t hti_compare_and_set (hash_table_i_t *hti, uint32_t key_hash, con
     // Install <key> in the table if it doesn't exist.
     if (is_empty) {
         TRACE("h0", "hti_compare_and_set: entry %p is empty", e, 0);
-        if (expected != HT_EXPECT_WHATEVER && expected != HT_EXPECT_NOT_EXISTS)
+        if (expected != EXPECT_WHATEVER && expected != EXPECT_DOES_NOT_EXIST)
             return DOES_NOT_EXIST;
 
         // No need to do anything, <key> is already deleted.
@@ -325,9 +321,7 @@ static uint64_t hti_compare_and_set (hash_table_i_t *hti, uint32_t key_hash, con
             return DOES_NOT_EXIST;
 
         // Allocate <key>.
-        string_t *key = nbd_malloc(sizeof(uint32_t) + key_len);
-        key->len = key_len;
-        memcpy(key->val, key_val, key_len);
+        nstring_t *key = ns_alloc(key_data, key_len);
 
         // Combine <key> pointer with bits from its hash, CAS it into the table. 
         uint64_t temp = ((uint64_t)(key_hash >> 16) << 48) | (uint64_t)key; 
@@ -338,18 +332,18 @@ static uint64_t hti_compare_and_set (hash_table_i_t *hti, uint32_t key_hash, con
             TRACE("h0", "hti_compare_and_set: lost race to install key %p in entry %p", key, e);
             TRACE("h0", "hti_compare_and_set: found %p instead of NULL", GET_PTR(e_key), 0);
             nbd_free(key);
-            return hti_compare_and_set(hti, key_hash, key_val, key_len, expected, new); // tail-call
+            return hti_compare_and_set(hti, key_hash, key_data, key_len, expected, new); // tail-call
         }
         TRACE("h2", "hti_compare_and_set: installed key %p in entry %p", key, e);
     }
 
-    TRACE("h0", "hti_compare_and_set: entry for key \"%s\" is %p", GET_PTR(e->key)->val, e);
+    TRACE("h0", "hti_compare_and_set: entry for key \"%s\" is %p", GET_PTR(e->key)->data, e);
 
     // If the entry is in the middle of a copy, the copy must be completed first.
     uint64_t e_value = e->value;
     if (EXPECT_FALSE(IS_TAGGED(e_value))) {
         if (e_value != COPIED_VALUE) {
-            int did_copy = hti_copy_entry(hti, e, key_hash, ((volatile hash_table_i_t *)hti)->next);
+            int did_copy = hti_copy_entry(hti, e, key_hash, ((volatile hashtable_i_t *)hti)->next);
             if (did_copy) {
                 SYNC_ADD(&hti->num_entries_copied, 1);
             }
@@ -362,8 +356,8 @@ static uint64_t hti_compare_and_set (hash_table_i_t *hti, uint32_t key_hash, con
 
     // Fail if the old value is not consistent with the caller's expectation.
     int old_existed = (e_value != TOMBSTONE && e_value != DOES_NOT_EXIST);
-    if (EXPECT_FALSE(expected != HT_EXPECT_WHATEVER && expected != e_value)) {
-        if (EXPECT_FALSE(expected != (old_existed ? HT_EXPECT_EXISTS : HT_EXPECT_NOT_EXISTS))) {
+    if (EXPECT_FALSE(expected != EXPECT_WHATEVER && expected != e_value)) {
+        if (EXPECT_FALSE(expected != (old_existed ? EXPECT_EXISTS : EXPECT_DOES_NOT_EXIST))) {
             TRACE("h1", "hti_compare_and_set: value %p expected by caller not found; found value %p",
                         expected, e_value);
             return e_value;
@@ -380,7 +374,7 @@ static uint64_t hti_compare_and_set (hash_table_i_t *hti, uint32_t key_hash, con
     uint64_t v = SYNC_CAS(&e->value, e_value, new);
     if (EXPECT_FALSE(v != e_value)) {
         TRACE("h0", "hti_compare_and_set: value CAS failed; expected %p found %p", e_value, v);
-        return hti_compare_and_set(hti, key_hash, key_val, key_len, expected, new); // recursive tail-call
+        return hti_compare_and_set(hti, key_hash, key_data, key_len, expected, new); // recursive tail-call
     }
 
     // The set succeeded. Adjust the value count.
@@ -396,18 +390,18 @@ static uint64_t hti_compare_and_set (hash_table_i_t *hti, uint32_t key_hash, con
 }
 
 //
-static uint64_t hti_get (hash_table_i_t *hti, uint32_t key_hash, const char *key_val, uint32_t key_len) {
-    assert(key_val);
+static uint64_t hti_get (hashtable_i_t *hti, uint32_t key_hash, const char *key_data, uint32_t key_len) {
+    assert(key_data);
 
     int is_empty;
-    volatile entry_t *e = hti_lookup(hti, key_hash, key_val, key_len, &is_empty);
+    volatile entry_t *e = hti_lookup(hti, key_hash, key_data, key_len, &is_empty);
 
     // When hti_lookup() returns NULL it means we hit the reprobe limit while
     // searching the table. In that case, if a copy is in progress the key 
     // might exist in the copy.
     if (EXPECT_FALSE(e == NULL)) {
-        if (((volatile hash_table_i_t *)hti)->next != NULL)
-            return hti_get(hti->next, key_hash, key_val, key_len); // recursive tail-call
+        if (((volatile hashtable_i_t *)hti)->next != NULL)
+            return hti_get(hti->next, key_hash, key_data, key_len); // recursive tail-call
         return DOES_NOT_EXIST;
     }
 
@@ -418,32 +412,32 @@ static uint64_t hti_get (hash_table_i_t *hti, uint32_t key_hash, const char *key
     uint64_t e_value = e->value;
     if (EXPECT_FALSE(IS_TAGGED(e_value))) {
         if (EXPECT_FALSE(e_value != COPIED_VALUE)) {
-            int did_copy = hti_copy_entry(hti, e, key_hash, ((volatile hash_table_i_t *)hti)->next);
+            int did_copy = hti_copy_entry(hti, e, key_hash, ((volatile hashtable_i_t *)hti)->next);
             if (did_copy) {
                 SYNC_ADD(&hti->num_entries_copied, 1);
             }
         }
-        return hti_get(((volatile hash_table_i_t *)hti)->next, key_hash, key_val, key_len); // tail-call
+        return hti_get(((volatile hashtable_i_t *)hti)->next, key_hash, key_data, key_len); // tail-call
     }
 
     return (e_value == TOMBSTONE) ? DOES_NOT_EXIST : e_value;
 }
 
 //
-uint64_t ht_get (hash_table_t *ht, const char *key_val, uint32_t key_len) {
-    return hti_get(*ht, murmur32(key_val, key_len), key_val, key_len);
+uint64_t ht_get (hashtable_t *ht, const char *key_data, uint32_t key_len) {
+    return hti_get(ht->hti, murmur32(key_data, key_len), key_data, key_len);
 }
 
 //
-uint64_t ht_compare_and_set (hash_table_t *ht, const char *key_val, uint32_t key_len, 
+uint64_t ht_compare_and_set (hashtable_t *ht, const char *key_data, uint32_t key_len, 
                             uint64_t expected_val, uint64_t new_val) {
 
-    TRACE("h2", "ht_compare_and_set: key %p len %u", key_val, key_len);
+    TRACE("h2", "ht_compare_and_set: key %p len %u", key_data, key_len);
     TRACE("h2", "ht_compare_and_set: expected val %p new val %p", expected_val, new_val);
-    assert(key_val);
+    assert(key_data);
     assert(!IS_TAGGED(new_val) && new_val != DOES_NOT_EXIST);
 
-    hash_table_i_t *hti = *ht;
+    hashtable_i_t *hti = ht->hti;
 
     // Help with an ongoing copy.
     if (EXPECT_FALSE(hti->next != NULL)) {
@@ -485,15 +479,15 @@ uint64_t ht_compare_and_set (hash_table_t *ht, const char *key_val, uint32_t key
         // Dispose of fully copied tables.
         if (hti->num_entries_copied == (1 << hti->scale) || panic) {
             assert(hti->next);
-            if (SYNC_CAS(ht, hti, hti->next) == hti) {
+            if (SYNC_CAS(&ht->hti, hti, hti->next) == hti) {
                 nbd_defer_free(hti); 
             }
         }
     }
 
     uint64_t old_val;
-    uint32_t key_hash = murmur32(key_val, key_len);
-    while ((old_val = hti_compare_and_set(hti, key_hash, key_val, key_len, expected_val, new_val)) 
+    uint32_t key_hash = murmur32(key_data, key_len);
+    while ((old_val = hti_compare_and_set(hti, key_hash, key_data, key_len, expected_val, new_val)) 
            == COPIED_VALUE) {
         assert(hti->next);
         hti = hti->next;
@@ -502,14 +496,14 @@ uint64_t ht_compare_and_set (hash_table_t *ht, const char *key_val, uint32_t key
     return old_val == TOMBSTONE ? DOES_NOT_EXIST : old_val;
 }
 
-// Remove the value in <ht> associated with <key_val>. Returns the value removed, or 
+// Remove the value in <ht> associated with <key_data>. Returns the value removed, or 
 // DOES_NOT_EXIST if there was no value for that key.
-uint64_t ht_remove (hash_table_t *ht, const char *key_val, uint32_t key_len) {
-    hash_table_i_t *hti = *ht;
+uint64_t ht_remove (hashtable_t *ht, const char *key_data, uint32_t key_len) {
+    hashtable_i_t *hti = ht->hti;
     uint64_t val;
-    uint32_t key_hash = murmur32(key_val, key_len);
+    uint32_t key_hash = murmur32(key_data, key_len);
     do {
-        val = hti_compare_and_set(hti, key_hash, key_val, key_len, HT_EXPECT_WHATEVER, TOMBSTONE);
+        val = hti_compare_and_set(hti, key_hash, key_data, key_len, EXPECT_WHATEVER, TOMBSTONE);
         if (val != COPIED_VALUE)
             return val == TOMBSTONE ? DOES_NOT_EXIST : val;
         assert(hti->next);
@@ -519,8 +513,8 @@ uint64_t ht_remove (hash_table_t *ht, const char *key_val, uint32_t key_len) {
 }
 
 // Returns the number of key-values pairs in <ht>
-uint64_t ht_count (hash_table_t *ht) {
-    hash_table_i_t *hti = *ht;
+uint64_t ht_count (hashtable_t *ht) {
+    hashtable_i_t *hti = ht->hti;
     uint64_t count = 0;
     while (hti) {
         count += hti->count;
@@ -530,15 +524,15 @@ uint64_t ht_count (hash_table_t *ht) {
 }
 
 // Allocate and initialize a new hash table.
-hash_table_t *ht_alloc (void) {
-    hash_table_t *ht = nbd_malloc(sizeof(hash_table_t));
-    *ht = (hash_table_i_t *)hti_alloc(ht, MIN_SCALE);
+hashtable_t *ht_alloc (void) {
+    hashtable_t *ht = nbd_malloc(sizeof(hashtable_t));
+    ht->hti = (hashtable_i_t *)hti_alloc(ht, MIN_SCALE);
     return ht;
 }
 
 // Free <ht> and its internal structures.
-void ht_free (hash_table_t *ht) {
-    hash_table_i_t *hti = *ht;
+void ht_free (hashtable_t *ht) {
+    hashtable_i_t *hti = ht->hti;
     do {
         for (uint32_t i = 0; i < (1 << hti->scale); ++i) {
             assert(hti->table[i].value == COPIED_VALUE || !IS_TAGGED(hti->table[i].value));
@@ -546,7 +540,7 @@ void ht_free (hash_table_t *ht) {
                 nbd_free(GET_PTR(hti->table[i].key));
             }
         }
-        hash_table_i_t *next = hti->next;
+        hashtable_i_t *next = hti->next;
         nbd_free(hti);
         hti = next;
     } while (hti);