26e0209408c4c6a72ceda7916fcec3634d12197b
[nbds] / txn / txn.c
1 /* 
2  * Written by Josh Dybnis and released to the public domain, as explained at
3  * http://creativecommons.org/licenses/publicdomain
4  */
5 #include "common.h"
6 #include "txn.h"
7 #include "mem.h"
8 #include "skiplist.h"
9
10 #define UNDETERMINED_VERSION 0
11 #define ABORTED_VERSION      TAG_VALUE(0, TAG1)
12 #define INITIAL_WRITES_SIZE  4
13
14 typedef struct update_rec update_t;
15
16 struct update_rec {
17     update_t *next; // an earlier update
18     uint64_t version;
19     uint64_t value;
20 };
21
22 typedef struct write_rec {
23     void *key;
24     update_t *rec; 
25 } write_rec_t;
26
27 struct txn {
28     uint64_t rv;
29     uint64_t wv;
30     map_t *map;
31     write_rec_t *writes;
32     uint32_t writes_size;
33     uint32_t writes_count;
34     uint32_t writes_scan;
35     txn_type_e type;
36     txn_state_e state;
37 };
38
39 static uint64_t version_ = 1;
40
41 static txn_state_e txn_validate (txn_t *txn);
42
43 static skiplist_t *active_ = NULL;
44
45 void txn_init (void) {
46     active_ = sl_alloc(NULL);
47 }
48
49 // Validate the updates for <key>. Validation fails if there is a write-write conflict. That is if after our 
50 // read version another transaction committed a change to an entry we are also trying to change.
51 //
52 // If we encounter a potential conflict with a transaction that is in the process of validating, we help it 
53 // complete validating. It must be finished before we can decide to rollback or commit.
54 //
55 static txn_state_e tm_validate_key (txn_t *txn, void *key) {
56     assert(txn->state != TXN_RUNNING);
57     
58     update_t *update = (update_t *) map_get(txn->map, key);
59     for (; update != NULL; update = update->next) {
60
61         // If the update or its version is not tagged it means the update is committed.
62         //
63         // We can stop at the first committed record we find that is at least as old as our read version. All 
64         // the other committed records following it will be older. And all the uncommitted records following it 
65         // will eventually conflict with it and abort.
66         if (!IS_TAGGED(update, TAG2))
67             return TXN_VALIDATED;
68         update = (update_t *)STRIP_TAG(update, TAG2);
69         if (!IS_TAGGED(update->version, TAG1)) 
70             return (update->version <= txn->rv) ? TXN_VALIDATED : TXN_ABORTED;
71
72         // If the update's version is tagged then either the update was aborted or the the version number is 
73         // actually a pointer to a running transaction's txn_t.
74
75         // Skip aborted transactions.
76         if (EXPECT_FALSE(update->version == ABORTED_VERSION))
77             continue;
78
79         // The update's transaction is still in progress. Access its txn_t.
80         txn_t *writer = (txn_t *)STRIP_TAG(update->version, TAG1);
81         if (writer == txn)
82             continue; // Skip our own updates.
83         txn_state_e writer_state = writer->state;
84
85         // Any running transaction will only be able to acquire a wv greater than ours. A transaction changes its 
86         // state to validating before aquiring a wv. We can ignore an unvalidated transaction if its version is
87         // greater than ours. See next comment below for why. 
88         if (writer_state == TXN_RUNNING)
89             continue; 
90         
91         // If <writer> has a later version than us we can safely ignore its updates. It will not commit until
92         // we have completed validation (in order to remain non-blocking it will help us validate if necessary). 
93         // This protocol ensures a deterministic resolution to every conflict and avoids infinite ping-ponging 
94         // between validating two conflicting transactions.
95         if (writer_state == TXN_VALIDATING) {
96             if (writer->wv > txn->wv)
97                 continue;
98             // Help <writer> commit. We need to know if <writer> aborts or commits before we can decide what to
99             // do. But we don't want to block, so we assist.
100             writer_state = txn_validate(writer);
101         }
102
103         // Skip updates from aborted transactions.
104         if (writer_state == TXN_ABORTED)
105             continue;
106
107         assert(writer_state == TXN_VALIDATED);
108         return (writer->wv <= txn->rv) ? TXN_VALIDATED : TXN_ABORTED;
109     }
110
111     return TXN_VALIDATED;
112 }
113
114 static txn_state_e txn_validate (txn_t *txn) {
115     assert(txn->state != TXN_RUNNING);
116     int i;
117     switch (txn->state) {
118
119         case TXN_VALIDATING:
120             if (txn->wv == UNDETERMINED_VERSION) {
121                 uint64_t wv = SYNC_ADD(&version_, 1);
122                 SYNC_CAS(&txn->wv, UNDETERMINED_VERSION, wv);
123             }
124
125             for (i = 0; i < txn->writes_count; ++i) {
126                 txn_state_e s = tm_validate_key(txn, txn->writes[i].key);
127                 if (s == TXN_ABORTED) {
128                     txn->state = TXN_ABORTED;
129                     break;
130                 }
131                 assert(s == TXN_VALIDATED);
132             }
133             if (txn->state == TXN_VALIDATING) {
134                 txn->state =  TXN_VALIDATED;
135             }
136             break;
137
138         case TXN_VALIDATED:
139         case TXN_ABORTED:
140             break;
141
142         default:
143             assert(FALSE);
144     }
145
146     return txn->state;
147 }
148
149 static update_t *alloc_update_rec (void) {
150     update_t *u = (update_t *)nbd_malloc(sizeof(update_t));
151     memset(u, 0, sizeof(update_t));
152     return u;
153 }
154
155 txn_t *txn_begin (txn_type_e type, map_t *map) {
156     txn_t *txn = (txn_t *)nbd_malloc(sizeof(txn_t));
157     memset(txn, 0, sizeof(txn_t));
158     txn->type = type;
159     txn->wv = UNDETERMINED_VERSION;
160     txn->state = TXN_RUNNING;
161     txn->map = map;
162     if (type != TXN_READ_ONLY) {
163         txn->writes = nbd_malloc(sizeof(*txn->writes) * INITIAL_WRITES_SIZE);
164         txn->writes_size = INITIAL_WRITES_SIZE;
165     }
166
167     // acquire the read version for txn. must be careful to avoid a race
168     do {
169         txn->rv = version_;
170
171         uint64_t old_count;
172         uint64_t temp = 0;
173         do {
174             old_count = temp;
175             temp = (uint64_t)sl_cas(active_, (void *)txn->rv, old_count, old_count + 1);
176         } while (temp != old_count);
177
178         if (txn->rv == version_)
179             break;
180
181         temp = 1;
182         do {
183             old_count = temp;
184             temp = sl_cas(active_, (void *)txn->rv, old_count, old_count - 1);
185         } while (temp != old_count);
186     } while (1);
187
188     return txn;
189 }
190
191 void txn_abort (txn_t *txn) {
192     if (txn->state != TXN_RUNNING)
193         return; // TODO: return some sort of error code
194
195     int i;
196     for (i = 0; i < txn->writes_count; ++i) {
197         update_t *update = (update_t *)txn->writes[i].rec;
198         update->version = ABORTED_VERSION;
199     }
200
201     nbd_defer_free(txn->writes);
202     nbd_defer_free(txn);
203 }
204
205 txn_state_e txn_commit (txn_t *txn) {
206     if (txn->state != TXN_RUNNING)
207         return txn->state; // TODO: return some sort of error code
208
209     assert(txn->state == TXN_RUNNING);
210     txn->state = TXN_VALIDATING;
211     txn_state_e state = txn_validate(txn);
212
213     // Detach <txn> from its updates.
214     uint64_t wv = (txn->state == TXN_ABORTED) ? ABORTED_VERSION : txn->wv;
215     int i;
216     for (i = 0; i < txn->writes_count; ++i) {
217         update_t *update = (update_t *)txn->writes[i].rec;
218         update->version = wv;
219     }
220
221     // Lower the reference count for <txn>'s read version
222     uint64_t temp = 2;
223     uint64_t old_count;
224     do {
225         old_count = temp;
226         temp = sl_cas(active_, (void *)txn->rv, old_count, old_count - 1);
227         if (temp == 1 && txn->rv != version_) {
228             sl_remove(active_, (void *)txn->rv);
229             break;
230         }
231     } while (old_count != temp);
232
233     nbd_defer_free(txn->writes);
234     nbd_defer_free(txn);
235
236     return state;
237 }
238
239 // Get most recent committed version prior to our read version.
240 uint64_t tm_get (txn_t *txn, void *key) {
241     if (txn->state != TXN_RUNNING)
242         return ERROR_TXN_NOT_RUNNING;
243
244     update_t *newest_update = (update_t *) map_get(txn->map, key);
245     if (!IS_TAGGED(newest_update, TAG2))
246             return (uint64_t)newest_update;
247
248     // Iterate through the update records to find the latest committed version prior to our read version. 
249     update_t *update;
250     for (update = newest_update; ; update = update->next) {
251
252         if (!IS_TAGGED(update, TAG2))
253             return (uint64_t)update;
254
255         update = (update_t *)STRIP_TAG(update, TAG2);
256         assert(update != NULL);
257
258         // If the update's version is not tagged it means the update is committed.
259         if (!IS_TAGGED(update->version, TAG1)) {
260             if (update->version <= txn->rv)
261                 break; // success
262             continue;
263         }
264
265         // If the update's version is tagged then either the update was aborted or the the version number is 
266         // actually a pointer to a running transaction's txn_t.
267
268         // Skip updates from aborted transactions.
269         if (EXPECT_FALSE(update->version == ABORTED_VERSION))
270             continue;
271
272         // The update's transaction is still in progress. Access its txn_t.
273         txn_t *writer = (txn_t *)STRIP_TAG(update->version, TAG1);
274         if (writer == txn) // found our own update
275             break; // success 
276
277         txn_state_e writer_state = writer->state;
278         if (writer_state == TXN_RUNNING)
279             continue; 
280
281         if (writer_state == TXN_VALIDATING) {
282             if (writer->wv > txn->rv)
283                 continue;
284             writer_state = txn_validate(writer);
285         }
286
287         // Skip updates from aborted transactions.
288         if (writer_state == TXN_ABORTED)
289             continue;
290
291         assert(writer_state == TXN_VALIDATED);
292         if (writer->wv > txn->rv)
293             continue;
294         break; // success
295     }
296
297     uint64_t value = update->value;
298
299     // collect some garbage
300     update_t *last = update;
301     update_t *next = update->next;
302     uint64_t min_active = 0;
303     if (IS_TAGGED(next, TAG2)) {
304         next = (update_t *)STRIP_TAG(next, TAG2);
305         min_active = (uint64_t)sl_min_key(active_);
306         if (next->version < min_active) {
307
308             // Skip over aborted versions to verify the chain of updates is old enough for collection
309             update_t *temp = next;
310             while (temp->version == ABORTED_VERSION) {
311                 assert(!IS_TAGGED(temp->version, TAG1));
312                 update_t *temp = next->next;
313                 if (!IS_TAGGED(temp, TAG2))
314                     break;
315                 temp = (update_t *)STRIP_TAG(temp, TAG2);
316                 if (temp->version >= min_active)
317                     return value;
318                 temp = temp->next;
319             }
320
321             // collect <next> and all the update records following it
322             do {
323                 next = SYNC_SWAP(&update->next, NULL);
324
325                 // if we find ourself in a race just back off and let the other thread take care of it
326                 if (next == NULL) 
327                     return value;
328
329                 update = next;
330                 next = next->next;
331                 nbd_free(update);
332             } while (IS_TAGGED(next, TAG2));
333         }
334     }
335
336     // If there is one item left and it is visible by all active transactions we can merge it into the map itself.
337     // There is no need for an update record.
338     if (next == NULL && last == (update_t *)STRIP_TAG(newest_update, TAG2)) {
339         if (min_active == UNDETERMINED_VERSION) {
340             min_active = (uint64_t)sl_min_key(active_);
341         }
342         if (last->version <= min_active) {
343             if (map_cas(txn->map, key, TAG_VALUE(last, TAG2), value) == TAG_VALUE(last, TAG2)) {
344                 nbd_defer_free(last);
345             }
346         }
347     } 
348     
349     return value;
350 }
351
352 void tm_set (txn_t *txn, void *key, uint64_t value) {
353     if (txn->state != TXN_RUNNING)
354         return; // TODO: return some sort of error code
355
356     // create a new update record
357     update_t *update = alloc_update_rec();
358     update->value = value;
359     update->version = TAG_VALUE(txn, TAG1);
360
361     // push the new update record onto <key>'s update list
362     uint64_t old_update;
363     do {
364         old_update = map_get(txn->map, key);
365         update->next = (update_t *)old_update;
366     } while (map_cas(txn->map, key, old_update, TAG_VALUE(update, TAG2)) != old_update);
367
368     // add <key> to the write set for commit-time validation
369     if (txn->writes_count == txn->writes_size) {
370         write_rec_t *w = nbd_malloc(sizeof(write_rec_t) * txn->writes_size * 2);
371         memcpy(w, txn->writes, txn->writes_size * sizeof(write_rec_t));
372         txn->writes_size *= 2;
373         nbd_free(txn->writes);
374         txn->writes = w;
375     }
376     int i = txn->writes_count++;
377     txn->writes[i].key = key;
378     txn->writes[i].rec = update;
379 }