src/sylt/lexer.c

#include "lexer.h"
#include "exception.h"
#include <string.h>
#include <ctype.h>
#include <stdlib.h>
#include <stdio.h>

Lexer initLexer(char *source) {
	Lexer newLexer = {
		.source = source,
		.position = -1,
		.readPosition = 0,
		.lineNumber = 1,
		.currentChar = '\0'
	};
	readChar(&newLexer);
	return newLexer;
}

void readChar(Lexer *lexer) {
	if (lexer->readPosition >= strlen(lexer->source))
		lexer->currentChar = '\0';
	else
		lexer->currentChar = lexer->source[lexer->readPosition];

	lexer->position = lexer->readPosition;
	lexer->readPosition++;
}

void skipWhitespace(Lexer *lexer) {
	bool whitespace = true;

	while (whitespace)
	{
		switch (lexer->currentChar)
		{
		case ' ':
		case '\t':
		case '\n':
		case '\r':
			if (lexer->currentChar == '\n')
				lexer->lineNumber++;		

			readChar(lexer);
			break;
		
		default:
			whitespace = false;
			break;
		}
	}
	
	
	
}

Token readNumber(Lexer *lexer) {
	int startPos = lexer->position;
	int dotCount = 0;
	int strLength = 0;

	size_t outputCap = 8;
	char *output = malloc(outputCap);

	if (!output) {
		exceptionMessage(EXCEPTION_MEMORY_ALLOCATION_FAILURE, "Lexer failed to allocate memory.", lexer->lineNumber, lexer->position);
		exit(1);
	}

	while (isdigit(lexer->currentChar) || lexer->currentChar == '.')
	{
		if (lexer->currentChar == '.') {
			dotCount++;

			if (dotCount > 1) {
				exceptionMessage(EXCEPTION_MALFORMED_NUMBER, "Too many dots in decimal.", lexer->lineNumber, lexer->position);

				char buffer[strLength+1];
				strncpy(buffer, lexer->source + startPos, strLength+1);
				buffer[strLength+1] = 0;

				return NEW_TOKEN(lexer, TOKEN_ILLEGAL, buffer);
			}
		}
		
		// allocate more memory if we reach the end of our buffer
		if (strLength + 1 >= outputCap) {
			char *temp = realloc(output, outputCap*=2);

			if (!temp) {
				exceptionMessage(EXCEPTION_MEMORY_ALLOCATION_FAILURE, "Lexer failed to allocate memory.", lexer->lineNumber, lexer->position);
				exit(1);
			}

			output = temp;
		}

		output[strLength] = lexer->source[lexer->position];
		strLength++;
		readChar(lexer);		

		if (lexer->currentChar == '\0')
			break;
	}

	output[strLength] = 0;
	
	if (dotCount == 0)
		return NEW_TOKEN(lexer, TOKEN_INT, output);
	else
		return NEW_TOKEN(lexer, TOKEN_FLOAT, output);
}

Token nextToken(Lexer *lexer) {
	Token tok;
	skipWhitespace(lexer);

	switch (lexer->currentChar)
	{
	case '+':
		tok = NEW_TOKEN(lexer, TOKEN_PLUS, "+");
		break;
	case '-':
		tok =  NEW_TOKEN(lexer, TOKEN_MINUS, "-");
		break;
	case '*':
		tok =  NEW_TOKEN(lexer, TOKEN_ASTERISK, "*");
		break;
	case '/':
		tok =  NEW_TOKEN(lexer, TOKEN_SLASH, "/");
		break;
	case '%':
		tok =  NEW_TOKEN(lexer, TOKEN_MODULUS, "%");
		break;
	case '^':
		tok =  NEW_TOKEN(lexer, TOKEN_POW, "^");
		break;
	case '(':
		tok =  NEW_TOKEN(lexer, TOKEN_LPAREN, "(");
		break;
	case ')':
		tok =  NEW_TOKEN(lexer, TOKEN_RPAREN, ")");
		break;

	case '\0': // EOF
		tok = NEW_TOKEN(lexer, TOKEN_EOF, "EOF");
		break;
	
	default:
		if (isdigit(lexer->currentChar)) {
			tok = readNumber(lexer);
		} else {
			tok = NEW_TOKEN(lexer, TOKEN_ILLEGAL, &lexer->currentChar);
		}

		break;
	}

	readChar(lexer);
	return tok;
}
slowly writing a lexer, literally not functional lmao 2025-12-26 12:28:45 +11:00			`#include "lexer.h"`
make file added 2025-12-26 18:56:51 +11:00			`#include "exception.h"`
slowly writing a lexer, literally not functional lmao 2025-12-26 12:28:45 +11:00			`#include <string.h>`
make file added 2025-12-26 18:56:51 +11:00			`#include <ctype.h>`
slowly writing a lexer, literally not functional lmao 2025-12-26 12:28:45 +11:00			`#include <stdlib.h>`
make file added 2025-12-26 18:56:51 +11:00			`#include <stdio.h>`
slowly writing a lexer, literally not functional lmao 2025-12-26 12:28:45 +11:00
			`Lexer initLexer(char *source) {`
			`Lexer newLexer = {`
			`.source = source,`
			`.position = -1,`
			`.readPosition = 0,`
			`.lineNumber = 1,`
			`.currentChar = '\0'`
			`};`
make file added 2025-12-26 18:56:51 +11:00			`readChar(&newLexer);`
slowly writing a lexer, literally not functional lmao 2025-12-26 12:28:45 +11:00			`return newLexer;`
			`}`

			`void readChar(Lexer *lexer) {`
			`if (lexer->readPosition >= strlen(lexer->source))`
			`lexer->currentChar = '\0';`
			`else`
			`lexer->currentChar = lexer->source[lexer->readPosition];`

			`lexer->position = lexer->readPosition;`
			`lexer->readPosition++;`
			`}`

			`void skipWhitespace(Lexer *lexer) {`
make file added 2025-12-26 18:56:51 +11:00			`bool whitespace = true;`

			`while (whitespace)`
slowly writing a lexer, literally not functional lmao 2025-12-26 12:28:45 +11:00			`{`
make file added 2025-12-26 18:56:51 +11:00			`switch (lexer->currentChar)`
			`{`
			`case ' ':`
			`case '\t':`
			`case '\n':`
			`case '\r':`
			`if (lexer->currentChar == '\n')`
			`lexer->lineNumber++;`

			`readChar(lexer);`
			`break;`

			`default:`
			`whitespace = false;`
			`break;`
			`}`
			`}`
slowly writing a lexer, literally not functional lmao 2025-12-26 12:28:45 +11:00
make file added 2025-12-26 18:56:51 +11:00

			`}`

			`Token readNumber(Lexer *lexer) {`
			`int startPos = lexer->position;`
			`int dotCount = 0;`
			`int strLength = 0;`

			`size_t outputCap = 8;`
			`char *output = malloc(outputCap);`

			`if (!output) {`
			`exceptionMessage(EXCEPTION_MEMORY_ALLOCATION_FAILURE, "Lexer failed to allocate memory.", lexer->lineNumber, lexer->position);`
			`exit(1);`
slowly writing a lexer, literally not functional lmao 2025-12-26 12:28:45 +11:00			`}`
make file added 2025-12-26 18:56:51 +11:00
			`while (isdigit(lexer->currentChar) \|\| lexer->currentChar == '.')`
			`{`
			`if (lexer->currentChar == '.') {`
			`dotCount++;`

			`if (dotCount > 1) {`
			`exceptionMessage(EXCEPTION_MALFORMED_NUMBER, "Too many dots in decimal.", lexer->lineNumber, lexer->position);`

			`char buffer[strLength+1];`
			`strncpy(buffer, lexer->source + startPos, strLength+1);`
			`buffer[strLength+1] = 0;`

			`return NEW_TOKEN(lexer, TOKEN_ILLEGAL, buffer);`
			`}`
			`}`

			`// allocate more memory if we reach the end of our buffer`
			`if (strLength + 1 >= outputCap) {`
			`char temp = realloc(output, outputCap=2);`

			`if (!temp) {`
			`exceptionMessage(EXCEPTION_MEMORY_ALLOCATION_FAILURE, "Lexer failed to allocate memory.", lexer->lineNumber, lexer->position);`
			`exit(1);`
			`}`

			`output = temp;`
			`}`

			`output[strLength] = lexer->source[lexer->position];`
			`strLength++;`
			`readChar(lexer);`

			`if (lexer->currentChar == '\0')`
			`break;`
			`}`

			`output[strLength] = 0;`
slowly writing a lexer, literally not functional lmao 2025-12-26 12:28:45 +11:00
make file added 2025-12-26 18:56:51 +11:00			`if (dotCount == 0)`
			`return NEW_TOKEN(lexer, TOKEN_INT, output);`
			`else`
			`return NEW_TOKEN(lexer, TOKEN_FLOAT, output);`
slowly writing a lexer, literally not functional lmao 2025-12-26 12:28:45 +11:00			`}`

			`Token nextToken(Lexer *lexer) {`
make file added 2025-12-26 18:56:51 +11:00			`Token tok;`
slowly writing a lexer, literally not functional lmao 2025-12-26 12:28:45 +11:00			`skipWhitespace(lexer);`

			`switch (lexer->currentChar)`
			`{`
			`case '+':`
make file added 2025-12-26 18:56:51 +11:00			`tok = NEW_TOKEN(lexer, TOKEN_PLUS, "+");`
slowly writing a lexer, literally not functional lmao 2025-12-26 12:28:45 +11:00			`break;`
			`case '-':`
make file added 2025-12-26 18:56:51 +11:00			`tok = NEW_TOKEN(lexer, TOKEN_MINUS, "-");`
slowly writing a lexer, literally not functional lmao 2025-12-26 12:28:45 +11:00			`break;`
			`case '*':`
make file added 2025-12-26 18:56:51 +11:00			`tok = NEW_TOKEN(lexer, TOKEN_ASTERISK, "*");`
slowly writing a lexer, literally not functional lmao 2025-12-26 12:28:45 +11:00			`break;`
			`case '/':`
make file added 2025-12-26 18:56:51 +11:00			`tok = NEW_TOKEN(lexer, TOKEN_SLASH, "/");`
slowly writing a lexer, literally not functional lmao 2025-12-26 12:28:45 +11:00			`break;`
			`case '%':`
make file added 2025-12-26 18:56:51 +11:00			`tok = NEW_TOKEN(lexer, TOKEN_MODULUS, "%");`
slowly writing a lexer, literally not functional lmao 2025-12-26 12:28:45 +11:00			`break;`
			`case '^':`
make file added 2025-12-26 18:56:51 +11:00			`tok = NEW_TOKEN(lexer, TOKEN_POW, "^");`
slowly writing a lexer, literally not functional lmao 2025-12-26 12:28:45 +11:00			`break;`
			`case '(':`
make file added 2025-12-26 18:56:51 +11:00			`tok = NEW_TOKEN(lexer, TOKEN_LPAREN, "(");`
slowly writing a lexer, literally not functional lmao 2025-12-26 12:28:45 +11:00			`break;`
			`case ')':`
make file added 2025-12-26 18:56:51 +11:00			`tok = NEW_TOKEN(lexer, TOKEN_RPAREN, ")");`
slowly writing a lexer, literally not functional lmao 2025-12-26 12:28:45 +11:00			`break;`
make file added 2025-12-26 18:56:51 +11:00
			`case '\0': // EOF`
			`tok = NEW_TOKEN(lexer, TOKEN_EOF, "EOF");`
slowly writing a lexer, literally not functional lmao 2025-12-26 12:28:45 +11:00			`break;`

			`default:`
make file added 2025-12-26 18:56:51 +11:00			`if (isdigit(lexer->currentChar)) {`
			`tok = readNumber(lexer);`
			`} else {`
			`tok = NEW_TOKEN(lexer, TOKEN_ILLEGAL, &lexer->currentChar);`
			`}`
slowly writing a lexer, literally not functional lmao 2025-12-26 12:28:45 +11:00
			`break;`
			`}`

make file added 2025-12-26 18:56:51 +11:00			`readChar(lexer);`
			`return tok;`
slowly writing a lexer, literally not functional lmao 2025-12-26 12:28:45 +11:00			`}`