4 年之前 · b1a8357f50
--- a/src/tokenizer.cpp
+++ b/src/tokenizer.cpp
@@ -152,7 +152,6 @@ gb_global bool keyword_indices[16] = {};
 
				 
			
 
				 gb_inline u32 keyword_hash(u8 const *text, isize len) {
			
 
				 	return fnv32a(text, len);
			
 
				-	// return murmur3_32(text, len, 0x6f64696e);
			
 
				 }
			
 
				 void add_keyword_hash_entry(String const &s, TokenKind kind) {
			
 
				 	max_keyword_size = gb_max(max_keyword_size, s.len);
			
@@ -164,7 +163,7 @@ void add_keyword_hash_entry(String const &s, TokenKind kind) {
 
				 	// NOTE(bill): This is a bit of an empirical hack in order to speed things up
			
 
				 	u32 index = hash & KEYWORD_HASH_TABLE_MASK;
			
 
				 	KeywordHashEntry *entry = &keyword_hash_table[index];
			
 
				-	GB_ASSERT_MSG(entry->kind == Token_Invalid, "Keyword hash table initialtion collision: %.*s %.*s %08x %08x", LIT(s), LIT(token_strings[entry->kind]), hash, entry->hash);
			
 
				+	GB_ASSERT_MSG(entry->kind == Token_Invalid, "Keyword hash table initialtion collision: %.*s %.*s 0x%08x 0x%08x", LIT(s), LIT(token_strings[entry->kind]), hash, entry->hash);
			
 
				 	entry->hash = hash;
			
 
				 	entry->kind = kind;
			
 
				 	entry->text = s;
			
@@ -1095,23 +1094,36 @@ bool scan_escape(Tokenizer *t) {
 
				 
			
 
				 
			
 
				 void tokenizer_get_token(Tokenizer *t, Token *token, int repeat=0) {
			
 
				+
			
 
				 	// Skip whitespace
			
 
				-	for (;;) {
			
 
				-		switch (t->curr_rune) {
			
 
				-		case '\n':
			
 
				-			if (t->insert_semicolon) {
			
 
				+	if (t->flags & TokenizerFlag_InsertSemicolon && t->insert_semicolon) {
			
 
				+		for (;;) {
			
 
				+			switch (t->curr_rune) {
			
 
				+			case '\n':
			
 
				 				break;
			
 
				+			case ' ':
			
 
				+			case '\t':
			
 
				+			case '\r':
			
 
				+				advance_to_next_rune(t);
			
 
				+				continue;
			
 
				 			}
			
 
				-			/*fallthrough*/
			
 
				-		case ' ':
			
 
				-		case '\t':
			
 
				-		case '\r':
			
 
				-			advance_to_next_rune(t);
			
 
				-			continue;
			
 
				+			break;
			
 
				+		}
			
 
				+	} else {
			
 
				+		for (;;) {
			
 
				+			switch (t->curr_rune) {
			
 
				+			case '\n': // only on t->insert_semicolon
			
 
				+			case ' ':
			
 
				+			case '\t':
			
 
				+			case '\r':
			
 
				+				advance_to_next_rune(t);
			
 
				+				continue;
			
 
				+			}
			
 
				+			break;
			
 
				 		}
			
 
				-		break;
			
 
				 	}
			
 
				 
			
 
				+
			
 
				 	token->kind = Token_Invalid;
			
 
				 	token->string.text = t->curr;
			
 
				 	token->string.len  = 1;
			
@@ -1122,8 +1134,6 @@ void tokenizer_get_token(Tokenizer *t, Token *token, int repeat=0) {
 
				 
			
 
				 	TokenPos current_pos = token->pos;
			
 
				 
			
 
				-	bool insert_semicolon = false;
			
 
				-
			
 
				 	Rune curr_rune = t->curr_rune;
			
 
				 	if (rune_is_letter(curr_rune)) {
			
 
				 		token->kind = Token_Ident;
			
@@ -1148,28 +1158,15 @@ void tokenizer_get_token(Tokenizer *t, Token *token, int repeat=0) {
 
				 			}
			
 
				 		}
			
 
				 
			
 
				-		switch (token->kind) {
			
 
				-		case Token_Ident:
			
 
				-		case Token_context:
			
 
				-		case Token_typeid: // Dunno?
			
 
				-		case Token_break:
			
 
				-		case Token_continue:
			
 
				-		case Token_fallthrough:
			
 
				-		case Token_return:
			
 
				-			insert_semicolon = true;
			
 
				-			break;
			
 
				+		goto semicolon_check;
			
 
				+	} else {
			
 
				+		switch (curr_rune) {
			
 
				+		case '0': case '1': case '2': case '3': case '4':
			
 
				+		case '5': case '6': case '7': case '8': case '9':
			
 
				+			scan_number_to_token(t, token, false);
			
 
				+			goto semicolon_check;
			
 
				 		}
			
 
				 
			
 
				-
			
 
				-		if (t->flags & TokenizerFlag_InsertSemicolon) {
			
 
				-			t->insert_semicolon = insert_semicolon;
			
 
				-		}
			
 
				-		return;
			
 
				-
			
 
				-	} else if (gb_is_between(curr_rune, '0', '9')) {
			
 
				-		insert_semicolon = true;
			
 
				-		scan_number_to_token(t, token, false);
			
 
				-	} else {
			
 
				 		advance_to_next_rune(t);
			
 
				 		switch (curr_rune) {
			
 
				 		case GB_RUNE_EOF:
			
@@ -1201,8 +1198,6 @@ void tokenizer_get_token(Tokenizer *t, Token *token, int repeat=0) {
 
				 
			
 
				 		case '\'': // Rune Literal
			
 
				 		{
			
 
				-			insert_semicolon = true;
			
 
				-
			
 
				 			token->kind = Token_Rune;
			
 
				 			Rune quote = curr_rune;
			
 
				 			bool valid = true;
			
@@ -1239,18 +1234,12 @@ void tokenizer_get_token(Tokenizer *t, Token *token, int repeat=0) {
 
				 				tokenizer_err(t, "Invalid rune literal");
			
 
				 			}
			
 
				 
			
 
				-			if (t->flags & TokenizerFlag_InsertSemicolon) {
			
 
				-				t->insert_semicolon = insert_semicolon;
			
 
				-			}
			
 
				-
			
 
				-			return;
			
 
				+			goto semicolon_check;
			
 
				 		} break;
			
 
				 
			
 
				 		case '`': // Raw String Literal
			
 
				 		case '"': // String Literal
			
 
				 		{
			
 
				-			insert_semicolon = true;
			
 
				-
			
 
				 			bool has_carriage_return = false;
			
 
				 			i32 success;
			
 
				 			Rune quote = curr_rune;
			
@@ -1296,15 +1285,13 @@ void tokenizer_get_token(Tokenizer *t, Token *token, int repeat=0) {
 
				 				tokenizer_err(t, "Invalid string literal");
			
 
				 			}
			
 
				 
			
 
				-			if (t->flags & TokenizerFlag_InsertSemicolon) {
			
 
				-				t->insert_semicolon = insert_semicolon;
			
 
				-			}
			
 
				-
			
 
				-			return;
			
 
				+			goto semicolon_check;
			
 
				 		} break;
			
 
				 
			
 
				 		case '.':
			
 
				-			if (t->curr_rune == '.') {
			
 
				+			token->kind = Token_Period;
			
 
				+			switch (t->curr_rune) {
			
 
				+			case '.':
			
 
				 				advance_to_next_rune(t);
			
 
				 				token->kind = Token_Ellipsis;
			
 
				 				if (t->curr_rune == '<') {
			
@@ -1314,54 +1301,41 @@ void tokenizer_get_token(Tokenizer *t, Token *token, int repeat=0) {
 
				 					advance_to_next_rune(t);
			
 
				 					token->kind = Token_RangeFull;
			
 
				 				}
			
 
				-			} else if ('0' <= t->curr_rune && t->curr_rune <= '9') {
			
 
				+				break;
			
 
				+			case '0': case '1': case '2': case '3': case '4':
			
 
				+			case '5': case '6': case '7': case '8': case '9':
			
 
				 				scan_number_to_token(t, token, true);
			
 
				-			} else {
			
 
				-				token->kind = Token_Period;
			
 
				+				break;
			
 
				 			}
			
 
				 			break;
			
 
				-
			
 
				-		case '@':  token->kind = Token_At;           break;
			
 
				-		case '$':  token->kind = Token_Dollar;       break;
			
 
				-		case '?':
			
 
				-			insert_semicolon = true;
			
 
				-			token->kind = Token_Question;
			
 
				-			break;
			
 
				-		case '^':
			
 
				-			insert_semicolon = true;
			
 
				-			token->kind = Token_Pointer;
			
 
				-			break;
			
 
				-		case ';':  token->kind = Token_Semicolon;    break;
			
 
				-		case ',':  token->kind = Token_Comma;        break;
			
 
				-		case ':':  token->kind = Token_Colon;        break;
			
 
				-		case '(':  token->kind = Token_OpenParen;    break;
			
 
				-		case ')':
			
 
				-			insert_semicolon = true;
			
 
				-			token->kind = Token_CloseParen;
			
 
				-			break;
			
 
				+		case '@': token->kind = Token_At;           break;
			
 
				+		case '$': token->kind = Token_Dollar;       break;
			
 
				+		case '?': token->kind = Token_Question;     break;
			
 
				+		case '^': token->kind = Token_Pointer;      break;
			
 
				+		case ';': token->kind = Token_Semicolon;    break;
			
 
				+		case ',': token->kind = Token_Comma;        break;
			
 
				+		case ':': token->kind = Token_Colon;        break;
			
 
				+		case '(': token->kind = Token_OpenParen;    break;
			
 
				+		case ')': token->kind = Token_CloseParen;   break;
			
 
				 		case '[': token->kind = Token_OpenBracket;  break;
			
 
				-		case ']':
			
 
				-			insert_semicolon = true;
			
 
				-			token->kind = Token_CloseBracket;
			
 
				-			break;
			
 
				-		case '{':  token->kind = Token_OpenBrace;    break;
			
 
				-		case '}':
			
 
				-			insert_semicolon = true;
			
 
				-			token->kind = Token_CloseBrace;
			
 
				-			break;
			
 
				-
			
 
				+		case ']': token->kind = Token_CloseBracket; break;
			
 
				+		case '{': token->kind = Token_OpenBrace;    break;
			
 
				+		case '}': token->kind = Token_CloseBrace;   break;
			
 
				 		case '%':
			
 
				 			token->kind = Token_Mod;
			
 
				-			if (t->curr_rune == '=') {
			
 
				+			switch (t->curr_rune) {
			
 
				+			case '=':
			
 
				 				advance_to_next_rune(t);
			
 
				 				token->kind = Token_ModEq;
			
 
				-			} else if (t->curr_rune == '%') {
			
 
				+				break;
			
 
				+			case '%':
			
 
				 				token->kind = Token_ModMod;
			
 
				 				advance_to_next_rune(t);
			
 
				 				if (t->curr_rune == '=') {
			
 
				 					token->kind = Token_ModModEq;
			
 
				 					advance_to_next_rune(t);
			
 
				 				}
			
 
				+				break;
			
 
				 			}
			
 
				 			break;
			
 
				 
			
@@ -1395,63 +1369,61 @@ void tokenizer_get_token(Tokenizer *t, Token *token, int repeat=0) {
 
				 			break;
			
 
				 		case '+':
			
 
				 			token->kind = Token_Add;
			
 
				-			if (t->curr_rune == '=') {
			
 
				+			switch (t->curr_rune) {
			
 
				+			case '=':
			
 
				 				advance_to_next_rune(t);
			
 
				 				token->kind = Token_AddEq;
			
 
				-			} else if (t->curr_rune == '+') {
			
 
				+				break;
			
 
				+			case '+':
			
 
				 				advance_to_next_rune(t);
			
 
				 				token->kind = Token_Increment;
			
 
				-				insert_semicolon = true;
			
 
				+				break;
			
 
				 			}
			
 
				 			break;
			
 
				 		case '-':
			
 
				 			token->kind = Token_Sub;
			
 
				-			if (t->curr_rune == '=') {
			
 
				+			switch (t->curr_rune) {
			
 
				+			case '=':
			
 
				 				advance_to_next_rune(t);
			
 
				 				token->kind = Token_SubEq;
			
 
				-			} else if (t->curr_rune == '-') {
			
 
				-				insert_semicolon = true;
			
 
				+				break;
			
 
				+			case '-':
			
 
				 				advance_to_next_rune(t);
			
 
				 				token->kind = Token_Decrement;
			
 
				 				if (t->curr_rune == '-') {
			
 
				 					advance_to_next_rune(t);
			
 
				 					token->kind = Token_Undef;
			
 
				 				}
			
 
				-			} else if (t->curr_rune == '>') {
			
 
				+				break;
			
 
				+			case '>':
			
 
				 				advance_to_next_rune(t);
			
 
				 				token->kind = Token_ArrowRight;
			
 
				+				break;
			
 
				 			}
			
 
				 			break;
			
 
				-
			
 
				 		case '#':
			
 
				+			token->kind = Token_Hash;
			
 
				 			if (t->curr_rune == '!') {
			
 
				-				insert_semicolon = t->insert_semicolon;
			
 
				 				token->kind = Token_Comment;
			
 
				 
			
 
				 				while (t->curr_rune != '\n' && t->curr_rune != GB_RUNE_EOF) {
			
 
				 					advance_to_next_rune(t);
			
 
				 				}
			
 
				-			} else {
			
 
				-				token->kind = Token_Hash;
			
 
				 			}
			
 
				 			break;
			
 
				-
			
 
				-
			
 
				-		case '/': {
			
 
				+		case '/':
			
 
				 			token->kind = Token_Quo;
			
 
				-			if (t->curr_rune == '/') {
			
 
				-				insert_semicolon = t->insert_semicolon;
			
 
				+			switch (t->curr_rune) {
			
 
				+			case '/':
			
 
				 				token->kind = Token_Comment;
			
 
				-
			
 
				 				while (t->curr_rune != '\n' && t->curr_rune != GB_RUNE_EOF) {
			
 
				 					advance_to_next_rune(t);
			
 
				 				}
			
 
				-			} else if (t->curr_rune == '*') {
			
 
				+				break;
			
 
				+			case '*':
			
 
				 				token->kind = Token_Comment;
			
 
				-
			
 
				-				isize comment_scope = 1;
			
 
				 				advance_to_next_rune(t);
			
 
				-				while (comment_scope > 0) {
			
 
				+				for (isize comment_scope = 1; comment_scope > 0; /**/) {
			
 
				 					if (t->curr_rune == GB_RUNE_EOF) {
			
 
				 						break;
			
 
				 					} else if (t->curr_rune == '/') {
			
@@ -1470,97 +1442,140 @@ void tokenizer_get_token(Tokenizer *t, Token *token, int repeat=0) {
 
				 						advance_to_next_rune(t);
			
 
				 					}
			
 
				 				}
			
 
				-			} else if (t->curr_rune == '=') {
			
 
				+				break;
			
 
				+			case '=':
			
 
				 				advance_to_next_rune(t);
			
 
				 				token->kind = Token_QuoEq;
			
 
				+				break;
			
 
				 			}
			
 
				-		} break;
			
 
				-
			
 
				+			break;
			
 
				 		case '<':
			
 
				 			token->kind = Token_Lt;
			
 
				-			if (t->curr_rune == '=') {
			
 
				+			switch (t->curr_rune) {
			
 
				+			case '=':
			
 
				 				token->kind = Token_LtEq;
			
 
				 				advance_to_next_rune(t);
			
 
				-			} else if (t->curr_rune == '<') {
			
 
				+				break;
			
 
				+			case '<':
			
 
				 				token->kind = Token_Shl;
			
 
				 				advance_to_next_rune(t);
			
 
				 				if (t->curr_rune == '=') {
			
 
				 					token->kind = Token_ShlEq;
			
 
				 					advance_to_next_rune(t);
			
 
				 				}
			
 
				+				break;
			
 
				 			}
			
 
				 			break;
			
 
				-
			
 
				 		case '>':
			
 
				 			token->kind = Token_Gt;
			
 
				-			if (t->curr_rune == '=') {
			
 
				+			switch (t->curr_rune) {
			
 
				+			case '=':
			
 
				 				token->kind = Token_GtEq;
			
 
				 				advance_to_next_rune(t);
			
 
				-			} else if (t->curr_rune == '>') {
			
 
				+				break;
			
 
				+			case '>':
			
 
				 				token->kind = Token_Shr;
			
 
				 				advance_to_next_rune(t);
			
 
				 				if (t->curr_rune == '=') {
			
 
				 					token->kind = Token_ShrEq;
			
 
				 					advance_to_next_rune(t);
			
 
				 				}
			
 
				+				break;
			
 
				 			}
			
 
				 			break;
			
 
				-
			
 
				 		case '&':
			
 
				 			token->kind = Token_And;
			
 
				-			if (t->curr_rune == '~') {
			
 
				+			switch (t->curr_rune) {
			
 
				+			case '~':
			
 
				 				token->kind = Token_AndNot;
			
 
				 				advance_to_next_rune(t);
			
 
				 				if (t->curr_rune == '=') {
			
 
				 					token->kind = Token_AndNotEq;
			
 
				 					advance_to_next_rune(t);
			
 
				 				}
			
 
				-			} else if (t->curr_rune == '=') {
			
 
				+				break;
			
 
				+			case '=':
			
 
				 				token->kind = Token_AndEq;
			
 
				 				advance_to_next_rune(t);
			
 
				-			} else if (t->curr_rune == '&') {
			
 
				+				break;
			
 
				+			case '&':
			
 
				 				token->kind = Token_CmpAnd;
			
 
				 				advance_to_next_rune(t);
			
 
				 				if (t->curr_rune == '=') {
			
 
				 					token->kind = Token_CmpAndEq;
			
 
				 					advance_to_next_rune(t);
			
 
				 				}
			
 
				+				break;
			
 
				 			}
			
 
				 			break;
			
 
				-
			
 
				 		case '|':
			
 
				 			token->kind = Token_Or;
			
 
				-			if (t->curr_rune == '=') {
			
 
				+			switch (t->curr_rune) {
			
 
				+			case '=':
			
 
				 				token->kind = Token_OrEq;
			
 
				 				advance_to_next_rune(t);
			
 
				-			} else if (t->curr_rune == '|') {
			
 
				+				break;
			
 
				+			case '|':
			
 
				 				token->kind = Token_CmpOr;
			
 
				 				advance_to_next_rune(t);
			
 
				 				if (t->curr_rune == '=') {
			
 
				 					token->kind = Token_CmpOrEq;
			
 
				 					advance_to_next_rune(t);
			
 
				 				}
			
 
				+				break;
			
 
				 			}
			
 
				 			break;
			
 
				-
			
 
				 		default:
			
 
				+			token->kind = Token_Invalid;
			
 
				 			if (curr_rune != GB_RUNE_BOM) {
			
 
				 				u8 str[4] = {};
			
 
				 				int len = cast(int)gb_utf8_encode_rune(str, curr_rune);
			
 
				 				tokenizer_err(t, "Illegal character: %.*s (%d) ", len, str, curr_rune);
			
 
				 			}
			
 
				-			insert_semicolon = t->insert_semicolon; // Preserve insert_semicolon info
			
 
				-			token->kind = Token_Invalid;
			
 
				 			break;
			
 
				 		}
			
 
				 	}
			
 
				 
			
 
				-	if (t->flags & TokenizerFlag_InsertSemicolon) {
			
 
				-		t->insert_semicolon = insert_semicolon;
			
 
				-	}
			
 
				-
			
 
				 	token->string.len = t->curr - token->string.text;
			
 
				 
			
 
				+semicolon_check:;
			
 
				+	if (t->flags & TokenizerFlag_InsertSemicolon) {
			
 
				+		switch (token->kind) {
			
 
				+		case Token_Invalid:
			
 
				+		case Token_Comment:
			
 
				+			// Preserve insert_semicolon info
			
 
				+			break;
			
 
				+		case Token_Ident:
			
 
				+		case Token_context:
			
 
				+		case Token_typeid:
			
 
				+		case Token_break:
			
 
				+		case Token_continue:
			
 
				+		case Token_fallthrough:
			
 
				+		case Token_return:
			
 
				+			/*fallthrough*/
			
 
				+		case Token_Integer:
			
 
				+		case Token_Float:
			
 
				+		case Token_Imag:
			
 
				+		case Token_Rune:
			
 
				+		case Token_String:
			
 
				+		case Token_Undef:
			
 
				+			/*fallthrough*/
			
 
				+		case Token_Question:
			
 
				+		case Token_Pointer:
			
 
				+		case Token_CloseParen:
			
 
				+		case Token_CloseBracket:
			
 
				+		case Token_CloseBrace:
			
 
				+			/*fallthrough*/
			
 
				+		case Token_Increment:
			
 
				+		case Token_Decrement:
			
 
				+			/*fallthrough*/
			
 
				+			t->insert_semicolon = true;
			
 
				+			break;
			
 
				+		default:
			
 
				+			t->insert_semicolon = false;
			
 
				+			break;
			
 
				+		}
			
 
				+	}
			
 
				 
			
 
				 	return;
			
 
				 }