github 페이지를 만들었습니다.
github: https://github.com/HDNua/JSCC
-----
C의 선언
HandyPost는 한 도영(HDNua)이 작성하는 포스트 문서입니다.
소스:
문서:
1. 개요
C에서 가장 자주 사용되는 선언을 복습하고, 이것이 특정한 규칙에 의해 정의되는 것임을 올바르게 학습하여 C 프로그래밍 언어의 선언에 대해 보다 본질적으로 이해하고, 계산기 프로젝트와 결합하여 변수를 정의하고 연산이 가능하게 할 수 있음을 보인다.
2. 기본적인 선언
C 컴파일러를 만들려는 우리인 만큼 C에서 변수 및 함수를 정의하는 형태는 모두 알고 있을 것이라고 생각한다. 아래 예제를 올바르게 이해하고 활용할 수 있는 정도라면 된다.
01_c_declarations.cpp |
#include <iostream> using namespace std; // 함수의 선언 int sum(int a, int b); int mul(int a, int b); int main(void) { // int형 변수의 선언과 사용 int int_var; int_var = 10; cout << "변수: " << int_var << endl; // int형 변수의 배열의 선언과 사용 int int_arr[3]; int_arr[0] = 5, int_arr[1] = 2, int_arr[2] = 3; cout << "배열: "; for (int i = 0; i < 3; ++i) cout << int_arr[i] << ' '; cout << endl; // int형 포인터 변수의 선언과 사용 int *int_ptr; int_ptr = &int_var; *int_ptr = 20; cout << "포인터: " << *int_ptr << endl; // int형 변수의 2차원 배열의 선언과 사용 int int_arr2d[2][3] = { // 2행 3열의 행렬로 생각하면 편하다 { 1, 2, 3 }, { 4, 5, 6 } }; cout << "2차원 배열: " << endl; for (int r = 0; r < 2; ++r){ for (int c = 0; c < 3; ++c) { cout << int_arr2d[r][c] << ' '; } cout << endl; } // int형 포인터 변수에 대한 포인터 변수 // 즉 int형 더블 포인터의 선언과 사용 int **dptr = &int_ptr; **dptr = 30; cout << "더블 포인터: " << **dptr << endl; // int형 변수 두 개를 인자로 받고 // int형 값을 반환하는 함수에 대한 포인터 선언 int(*fptr)(int, int); fptr = sum; cout << "fptr = sum; fptr(3, 5): " << fptr(3, 5) << endl; fptr = mul; cout << "fptr = mul; fptr(3, 5): " << fptr(3, 5) << endl; return 0; } int sum(int a, int b) { return a + b; } int mul(int a, int b) { return a * b; } |
필자가 공부했던 책에서는 포인터의 배열과 배열에 대한 포인터와 같은 내용도 가르쳤으나, 이에 대해서는 바로 다음에 C 프로그래밍 언어의 선언 방식을 설명하면 이해할 수 있는 내용이므로 먼저 알고 있을 필요는 없다.
3) 복잡한 선언
3.1) typedef
typedef 키워드는 형식을 정의하는 데 사용된다. 다음은 typedef를 사용하는 예제이다.
02_typedef.cpp |
#include <iostream> using namespace std; int sum(int a, int b) { return a + b; } int mul(int a, int b) { return a * b; } int main(void) { // Data를 int 형식으로 정의한다 typedef int Data; Data data = 10; cout << "변수: " << data << endl; // DataPtr를 Data에 대한 포인터 형식으로 정의한다 typedef Data *DataPtr; DataPtr data_ptr = &data; cout << "포인터: " << *data_ptr << endl; // DataArr를 크기 3인 Data 변수의 배열 형식으로 정의한다 typedef Data DataArr[5]; DataArr data_arr = { 1, 2, 3 }; cout << "배열: "; for (int i = 0; i < 3; ++i) cout << data_arr[i] << ' '; cout << endl; // FuncPtr를 (int, int)과 같이 인자를 받고 // int형 값을 반환하는 함수에 대한 포인터 형식으로 정의한다 typedef int(*FuncPtr)(int, int); FuncPtr fp = sum; cout << "fp(3, 5): " << fp(3, 5) << endl; fp = mul; cout << "fp(3, 5): " << fp(3, 5) << endl; return 0; } |
typedef 키워드를 함수 내부에서 사용할 수 있다는 사실에서부터 놀랐을 수도 있다. 이후에도 설명할 것이지만 사실 typedef 키워드는 extern 키워드와 같은 선언의 요소이며 typedef로 정의된 문장 또한 선언의 일종이다. typedef 뒤에는 반드시 선언이 따라온다. 후에 복잡한 선언을 분석하면서 이에 대해 논의할 것이다. 참고로 위 예제는 C++ 언어로 작성되었지만, C언어에서도 이 내용은 성립하며, 방금 말했듯 typedef로 작성된 문장은 선언문이므로 함수 내부에서 사용할 때 코드 중간에 넣으면 컴파일 시에 오류가 발생한다(C에서 선언은 반드시 함수의 위 부분에 있어야 한다).
typedef가 무엇인지 알고 있으니, typedef를 이용해 다음 문장들을 선언해보라. 반드시 한 문장에 정리할 필요는 없고, 여러 개의 typedef 문장을 사용해도 좋다.
- integer는 int 형식의 변수입니다.
- character는 char 형식의 변수입니다.
- intPtr는 int형 변수에 대한 포인터 변수입니다.
- intArr는 크기가 5인 int형 변수의 배열입니다.
- intFuncIntCharInt는 (int, char, int) 형식으로 인자를 받고 int형 값을 반환하는 함수입니다.
답은 다음과 같다.
int integer; char character; int *intPtr; int intArr[5]; int intFuncIntCharInt(int, char, int); |
이 문제는 너무 쉽다고 느꼈을 수 있다. 그렇다면 다음을 해결해보라. 당연히 typedef를 이용한다.
- intArrArr는 ((int형 변수 3개의 배열) 2개의 배열)입니다.
- intPtrArr는 ((int형 변수에 대한 포인터 변수) 5개의 배열)입니다.
- intArrPtr는 ((int형 변수 4개의 배열)에 대한 포인터 변수)입니다.
- intFuncComp는 ((((int, int) 형식으로 인자를 받고 int형 값을 반환하는 함수)에 대한 포인터)를 인자로 받고 int형 값을 반환하는 함수)입니다.
답은 다음과 같다.
typedef int intArr3[3]; intArr3 intArrArr[2]; typedef int *intPtr; intPtr intPtrArr[5]; typedef int intArr4[4]; intArr4 *intArrPtr; typedef int (*Comp)(int, int); int intFuncComp(Comp comp); |
이 문제도 해결했다면 더 복잡한 다음 문제를 보자.
- qsort는 다음과 같은 함수입니다.
> 반환형: 값을 반환하지 않습니다.
> 첫 번째 인자 base는 void형 포인터 변수입니다.
> 두 번째 인자 nelem은 unsigned형 변수입니다.
> 세 번째 인자 width는 unsigned형 변수입니다.
> 네 번째 인자 fcmp는 다음과 같은 함수에 대한 포인터 변수입니다.
>> 반환형: int형 값입니다.
>> 첫 번째 인자와 두 번째 인자는 모두 const void형 포인터 변수입니다.
- signal은 다음과 같은 함수입니다.
> 반환형: int형 변수를 인자로 받고 void형 포인터 값을 반환하는 함수에 대한 포인터입니다.
> 첫 번째 인자 signal_number은 int형 변수입니다.
> 두 번째 인자 signal_handler는 int형 변수를 인자로 받고 void형 포인터 값을 반환하는 함수에 대한 포인터입니다.
답은 다음과 같다.
typedef const void *CVP; typedef int Compare(CVP, CVP); void qsort(void *base, unsigned nelem, unsigned width, Compare fcmp); typedef void (*SignalHandler)(int); SignalHandler signal(int signal_number, SignalHandler signal_handler); |
사실 이렇게 끔찍한 코드가 필요한 일은 거의 없지만, 이해하는 것은 필요하다. 무엇보다 컴파일러를 만들려는 우리인 만큼 선언이 어떤 의미를 가지고 있는지는 명확하게 이해하고 있는 것이 이치에 맞다.
그런데 사실 typedef는 선언을 위해 반드시 필요한 키워드는 아니다. typedef를 이용한 선언은 typedef 키워드가 없이도 얼마든지 가능하다. 즉 우리는 위 예제에서 모든 typedef 키워드를 없애고도 제시하는 선언을 만들어낼 수 있다. 그것이 어떻게 가능할까? 물론 signal도 가능한데, 이는 어떻게 선언해야 하는가?
3.2) 선언 분석의 규칙
C의 선언은 다음을 규칙으로 한다.
- 이름을 기준으로 한다.
- 이름의 오른쪽부터 해석한다. 오른쪽의 해석이 끝나면 왼쪽을 해석한다.
- 이름에 가까운 괄호부터 먼저 해석한다.
이 세 가지 규칙만으로 C의 모든 선언을 분석할 수 있다. 다음 예제들을 보자.
int var; // var: int
이름은 var이다. 이름의 오른쪽에 요소가 없으므로 왼쪽 분석을 진행한다. 다른 요소가 없으므로 분석이 끝난다. var는 int다.
int arr[5]; // arr: array[5] of int
이름은 arr이다. 이름의 오른쪽에 있는 배열 기호를 획득한다. 이름의 오른쪽에 더 이상 요소가 없으므로 왼쪽 분석을 진행한다. 다른 요소가 없으므로 분석이 끝난다. arr는 array[5] of int, 즉 크기가 5인 int형 배열이다.
int *ptr; // ptr: pointer to int
이름은 ptr이다. 이름의 오른쪽에 요소가 없으므로 왼쪽 분석을 진행한다. 왼쪽에 있는 포인터 기호를 획득한다. 다른 요소가 없으므로 분석이 끝난다. ptr는 pointer to int, 즉 int형 변수에 대한 포인터 변수다.
int arr2d[3][5]; // arr2d: array[3] of array[5] of int
이름은 arr2d이다. 이름의 오른쪽에 있는 배열 기호를 차례로 획득한다. 오른쪽 분석이 끝나고 왼쪽을 분석하는데, 왼쪽에 남은 요소가 없으므로 분석이 끝난다. arr2d는 array[3] of array[5] of int, 즉 ((int형 변수 5개의 배열) 3개의 배열)이다. 이 부분이 혼란스러울 수 있는데 typedef를 이용하여 다음과 같이 정의된 것이라고 이해하면 될 것이다.
typedef int intArr5[5]; intArr5 arr2d[3]; |
int *ptrarr[5]; // ptrarr: array[5] of pointer to int
이름은 ptrarr이다. 이름의 오른쪽에 있는 배열 기호를 획득한다. 오른쪽 분석이 끝나고 왼쪽을 분석한다. 왼쪽에 있는 포인터 기호를 획득한다. 다른 요소가 없으므로 분석이 끝난다. ptrarr는 array[5] of pointer to int, 즉 ((int형 포인터 변수) 5개의 배열)이다.
int (*arrptr)[5]; // arrptr: pointer to array[5] of int
이름은 arrptr이다. 이름의 오른쪽에 있는 배열 기호를 획득하는데, 괄호를 먼저 해석해야 하므로 괄호 바깥은 해석하지 않는다. 괄호 안에 있는 건 *arrptr뿐이고 현재 arrptr의 오른쪽에 아무 것도 없으므로 왼쪽 분석을 진행하여 포인터를 먼저 획득한다. 괄호 내에서 분석할 것이 없으므로 괄호를 탈출한다. 그리고 다시 오른쪽부터 분석을 진행한다. 오른쪽에 있는 배열 기호를 획득한다. 남은 요소가 없으므로 분석을 종료한다. arrptr은 pointer to array[5] of int, 즉 ((int형 변수 5개의 배열)에 대한 포인터 변수)다.
int fnc(); // fnc: function() returning int
이름은 fnc다. 이름의 오른쪽에 있는 함수 기호를 획득한다(이때 괄호의 의미는 fnc가 함수라는 것을 나타내는 것이지, 선언 분석에서 먼저 분석해야 함을 의미하는 것은 아니다). 오른쪽의 분석이 끝났으므로 왼쪽을 분석하는데 왼쪽에 요소가 없으므로 분석이 끝는다. fnc는 function() returning int, 즉 int형 값을 반환하는 함수다.
아래에 제시되는 것은 올바른 분석 방법을 설명하기 위한 적법한 선언이지만, 실제로는 C의 특수성 등과 같은 이유로 컴파일러가 정상적으로 해석할 수 없는 선언문이 섞여있다.
int arr_fnc()[5]; // arr_fnc: function() returning array[5] of int
이름은 arr_fnc이다. 이름의 오른쪽에 있는 기호를 차례로 획득하므로, 함수 기호를 획득하고 배열 기호를 나중에 획득하게 된다. 오른쪽의 분석이 끝났는데 왼쪽에 아무 것도 없으므로 분석이 끝난다. arr_fnc은 function() returning array[5] of int, 즉 (int형 변수 5개의 배열)을 반환하는 함수다. (실제로 적용할 수 없음)
int *ptrarr_fnc()[5]; // ptrarr_fnc: function() returning array[5] of pointer to int
이름은 ptrarr_fnc이다. 이름의 오른쪽에 있는 기호를 차례로 획득하므로, 함수 기호를 획득하고 배열 기호를 나중에 획득하게 된다. 오른쪽의 분석이 끝났으므로 왼쪽을 분석하여 포인터 기호를 획득한다. ptrarr_fnc는 function() returning array[5] of pointer to int, 즉 ((int형 변수에 대한 포인터 변수) 5개의 배열)을 반환하는 함수다. (실제로 적용할 수 없음)
int (*arr_fncptr)()[5]; // arr_fncptr: pointer to function() returning array[5] of int
이름은 arr_fncptr이다. 이름의 오른쪽에 있는 기호를 차례로 획득하는데 괄호를 먼저 해석해야 한다. 괄호 내에는 오른쪽에 요소가 없으므로 왼쪽을 진행하여 포인터 기호를 획득한 후 괄호를 탈출한다. 이후 다시 오른쪽에 있는 함수 기호와 배열 기호를 차례로 획득하고 분석이 끝난다. arr_fncptr는 pointer to function() returning array[5] of int, 즉 ((int형 변수 5개의 배열)을 반환하는 함수)에 대한 포인터다. (실제로 적용할 수 없음)
int (*arrptr_fnc())[5]; // arrptr_fnc: function() returning pointer to array[5] of int
이름은 arrptr_fnc이다. 이름의 오른쪽에 있는 기호를 차례로 획득하는데 괄호를 먼저 해석해야 한다. 괄호 내에 함수 기호가 있으므로 먼저 획득한 후, 왼쪽에서 포인터 기호를 획득하고 괄호를 탈출한다. 이후 다시 오른쪽에 있는 배열 기호를 획득하고 분석이 끝난다. arrptr_fnc는 function() returning pointer to array[5] of int, 즉 ((int형 변수 5개의 배열)에 대한 포인터)를 반환하는 함수다. 위의 예제와 달리 이 선언은 실제로 적법한 선언인데 그 이유는 나중에 밝히겠다.
char (*(*x[3])())[5]; // x: array[3] of pointer to function() returning pointer to array[5] of char
이름은 x다. 이름의 오른쪽에 있는 배열 기호를 획득하고 포인터 기호를 획득한 후 괄호를 탈출한다. 이후 남은 부분에 대해 다시 괄호 내의 기호를 해석하여 함수 기호를 얻고 포인터 기호를 획득한 후 괄호를 탈출한다. 이후 오른쪽의 배열 기호를 획득하면 남는 요소가 없으므로 분석이 끝난다. x는 array[3] of pointer to function() returning pointer to array[5] of char다. 아주 길지만 정리해서 말하면, x는 ((((char형 변수 5개의 배열)에 대한 포인터)를 반환하는 함수)에 대한 포인터) 3개의 배열이다. 놀랍게도 이 선언 또한 적법한데 그 이유는 위와 같다.
이 내용을 코드로 정리하면 다음과 같다.
int var; // var: int int arr[5]; // arr: array[5] of int int fnc(); // fnc: function() returning int int *ptr; // ptr: pointer to int int arr2d[3][5]; // arr2d: array[3] of array[5] of int int *ptrarr[5]; // ptrarr: array[5] of pointer to int int (*arrptr)[5]; // arrptr: pointer to array[5] of int int fnc(); // fnc: function() returning int int arr_fnc()[5]; // arr_fnc: function() returning array[5] of int int *ptrarr_fnc()[5]; // ptrarr_fnc: function() returning array[5] of // pointer to int int (*arr_fncptr)()[5]; // arr_fncptr: pointer to function() returning // array[5] of int int (*arrptr_fnc())[5]; // arrptr_fnc: function() returning pointer to // array[5] of int char (*(*x[3])())[5]; // x: array[3] of pointer to function() returning // pointer to array[5] of char |
이와 같이 C의 선언에 대해 이해할 수 있었다.
3.3) dcl: C의 선언 분석 프로그램
이제 우리는 C의 선언이 어떠한지 이해했으므로, C의 선언을 분석하는 dcl 프로그램을 작성할 수 있다. 이 예제는 The C Programming Language에 나온 것을 기반으로 작성하는 것이다.
이를 설명하기 전에 몇 가지 중요한 용어를 알려주고 진행하겠다.
- 예약어(keyword): 프로그래밍 언어에서 특정한 용도로 사용되기 때문에 사용자가 임의로 사용할 수 없는 단어를 말한다. int, char와 같은 자료형과 for, if와 같은 반복문, 조건문을 위한 예약어 등이 이에 속한다.
- 식별자(identifier): 개체를 식별하는 데 사용할 수 있는 이름을 의미한다. 변수 이름, 함수 이름, 사용자가 새롭게 정의한 자료형의 이름 등이 있다. C는 식별자라면 지켜야 할 규칙이 있는데, 바로 알파벳, 밑줄(_), 숫자만 가능하며, 첫 글자는 밑줄 또는 알파벳이어야 한다는 것이다.
- 태그(tag): 구조체, 공용체 및 열거 형식과 같은 사용자 정의 자료형을 지칭하는 이름이다. 식별자와 작성하는 규칙은 같지만 식별자와는 다르다. 예를 들어 다음의 문장이 적법한 이유는 태그는 식별자가 아니기 때문에 식별자를 중복으로 정의하는 것이 아니기 때문이다.
struct node node;
다만 이 경우 typedef 키워드를 이용해 node를 정의했다면 이 경우는 식별자로 인정된다.
typedef struct node node;
다음은 dcl 프로젝트를 위한 개념으로, 이 프로그램에서만 그렇다고 납득해야 하는 부분이다.
- 선언문(declaration-statement): 선언을 하는 문장이다. 형식은 다음과 같다.
declaration-statement: <형식(type)> <선언자(declarator)> ;
- 형식(type): 선언할 대상이 자료를 보관하는 방법을 말한다. int, char 등이 여기에 속한다.
선언문은 간단하게 형식과 선언자로 나눌 수 있다.
int var; // 형식: int / 선언자: var
int *ptr; // 형식: int / 선언자: *ptr
int arr[5]; // 형식: int / 선언자: arr[5]
int fnc(); // 형식: int / 선언자: fnc()
const int MAX; // 형식: const int / 선언자: MAX
- 직접 선언자(direct-declarator): 선언을 할 때 사용되는 이름 등 직접적으로 선언을 하는 데 사용되는 단어를 말한다.
- 선언자(declarator): 직접 선언자의 앞에 *가 붙어, 해당 직접 선언자가 포인터임을 나타낸다.
다음은 선언자와 직접 선언자 간의 관계를 나타낸 것이다.
declarator: * direct-declarator … (1)
direct-declarator: <이름> … (2)
(declarator) … (3)
direct-declarator() … (4)
direct-declarator[<크기>] … (5) (이때 크기는 생략 가능)
사실 이 내용만 가지고는 선언자와 직접 선언자를 이해하기 아주 어렵다. 예를 들어보자. 이 예제에서 선언자를 dcl, 직접 선언자를 dirdcl이라고 간단하게 표기하겠다.
(*pfa[])()
pfa는 이름이므로 dirdcl이다. pfa가 dirdcl이므로 pfa[] 또한 dirdcl이다. (5)에 의해 dirdcl[] 또한 정의에 의해 dirdcl이기 때문이다. *pfa[]는 pfa[]가 dirdcl이므로 (1)에 의해 dcl이다. (*pfa[])는 (3)에 의해, *pfa[]가 dcl이므로 dirdcl이 되고, (*pfa[])()는 dirdcl()의 꼴이므로 (4)에 의해 dirdcl이다.
여기서 완전하게 이해하지 못했다고 하더라도 일단은 진행할 수 있으니, 이제 dcl 프로그램을 만들어보자. 입력에 대해 다음과 같이 출력이 나오는 것이 목표다. 테스트의 편의를 위해 무한히 반복하다가, 입력으로 세미콜론이 처음 문자로 들어오면 종료하도록 하자.
입력 | 출력 |
int var; int arr[]; int *ptr; int arr2d[][]; int *ptrarr[]; int (*arrptr)[]; int fnc(); int arr_fnc()[]; int *ptrarr_fnc()[]; int (*arr_fncptr)()[]; int (*arrptr_fnc())[]; char (*(*x[])())[]; ; | var: int arr: array of int ptr: pointer to int arr2d: array of array of int ptrarr: array of pointer to int arrptr: pointer to array of int fnc: function returning int arr_fnc: function returning array of int ptrarr_fnc: function returning array of pointer to int arr_fncptr: pointer to function return- ing array of int arrptr_fnc: function returning pointer to array of int x: array of pointer to function return- ing pointer to array of char |
다음은 필자의 dcl 구현이다. 먼저 main을 보자.
03_dcl_main.cpp |
// 식별자로 가능한 문자인지 확인합니다. bool is_namch(char ch) { // 식별자 문자라면 참입니다. return is_alnum(ch) || (ch == '_'); } bool is_fnamch(char ch) { // 첫 식별자 문자라면 참입니다. return is_alpha(ch) || (ch == '_'); } // 형식을 획득하여 문자열로 반환합니다. std::string get_type(StringBuffer &buffer_input); // 선언자를 분석하고 결과를 출력합니다. void dcl(StringBuffer &buffer_input); // 직접 선언자를 분석하고 결과를 출력합니다. void dirdcl(StringBuffer &buffer_input); int main(void) { try { const int MAX_INPUT_SIZ = 256; char input[MAX_INPUT_SIZ]; while (true) { // 입력을 받고 버퍼를 초기화한다 std::cin.getline(input, MAX_INPUT_SIZ); if (input[0] == ';') { break; } StringBuffer buffer(input); // 형식을 획득한다 std::string type = get_type(buffer); while (is_space(buffer.peekc())) { // 형식과 선언자 사이의 공백을 buffer.getc(); // 무시하고 포인터를 선언자 앞으로 옮긴다 } // 선언자를 분석한다 dcl(buffer); if (buffer.peekc() != ';') // 문장 종료 기호가 없으면 예외 throw Exception("문장 종료 기호가 없습니다."); std::cout << type.c_str() << std::endl; } return 0; } catch (Exception &ex) { std::cerr << ex.c_str() << std::endl; return 1; } } |
ptr에 대해 프로그램은 다음과 같이 진행된다.
코드 | 버퍼 상태 | 출력 |
StringBuffer(input) | int *ptr; |
|
get_type(buffer) | *ptr; |
|
while (is_space(...)) ... | *ptr; |
|
dcl(buffer) | ; | ptr: pointer to |
if (peekc() != ';') ... | ; | ptr: pointer to |
cout<<type | ; | ptr: pointer to int |
이 정도로 main 함수는 간단하게 이해할 수 있다. get_type과 공백을 제거하는 부분은 독자 스스로도 구현할 수 있을 정도로 어렵지 않다. 그러면 이제 정말 중요한 dcl 함수를 살펴보자.
03_dcl_main.cpp |
void dcl(StringBuffer &bin) { // 선언자를 분석하고 결과 출력 // declarator: * direct-declarator (1) *을 분석한다 int pointer_count = 0; char ch; while (bin.is_empty() == false) { // 버퍼에 문자가 남아있는 동안 ch = bin.getc(); // 문자를 획득하고 확인한다 if (ch == '*') { // *라면 그만큼 포인터를 출력하기 위해 ++pointer_count; // 카운터를 증가시킨다 } else { // *가 아니라면 포인터를 되돌리고 탈출한다 bin.ungetc(); break; } } // declarator: * direct-declarator (2) direct-declarator를 분석한다 dirdcl(bin); // *을 모두 획득했으므로 직접 선언자를 분석한다 while (pointer_count > 0) { // 선언자의 분석이 오른쪽에서 먼저 진행되므로 std::cout << "pointer to "; // 왼쪽에서 획득한 기호를 오른쪽의 분석이 --pointer_count; // 종료된 후에 출력해야 한다 } } |
선언자의 정의 그대로 코드로 옮긴 것이다 주석도 있으니 노력하면 이해할 수 있다.
dcl의 내부를 알았으니 예를 들어보자. ptr에 대해 이 함수는 다음과 같이 진행된다.
코드 | 버퍼 상태 | 출력 |
dcl(StringBuffer &) | *ptr; |
|
while (c == '*') ... | ptr; |
|
dirdcl(bin) | ; | ptr: |
while (pc > 0) ... | ; | ptr: pointer to |
arr에 대해서는 다음과 같이 진행된다.
코드 | 버퍼 상태 | 출력 |
dcl(StringBuffer &) | arr[]; |
|
while (c == '*') ... | arr[]; |
|
dirdcl(bin) | ; | arr: array of |
while (pc > 0) ... | ; | arr: array of |
이제 마지막으로 dirdcl의 내부를 보자.
03_dcl_main.cpp |
void dirdcl(StringBuffer &bin) { // 직접 선언자를 분석하고 결과 출력 char ch = bin.peekc(); if (is_fnamch(ch)) { // direct-declarator: 이름 (2) std::string identifier = ""; while (bin.is_empty() == false) { ch = bin.getc(); if (is_namch(ch) == false) { bin.ungetc(); break; } identifier += ch; } if (identifier.empty()) // 식별자에 추가된 문자가 없다면 예외 throw Exception("올바른 식별자 이름이 아닙니다."); std::cout << identifier.c_str() << ": "; } else if (ch == '(') { // direct-declarator: (declarator) (3) bin.getc(); // ( 문자를 해석해서 진입했으므로 다음으로 넘긴다 dcl(bin); if (bin.peekc() != ')') // 닫는 괄호가 없으면 예외 throw Exception("닫는 괄호가 없습니다."); bin.getc(); // ) 괄호 검사를 진행했으므로 다음으로 넘긴다 } // direct-declarator: direct-declarator() (4) // direct-declarator: direct-declarator[] (5) while (bin.is_empty() == false) { ch = bin.peekc(); if (ch == '(') { // 함수 기호 획득 bin.getc(); // ( 괄호를 해석해서 진입했으므로 넘긴다 if (bin.peekc() != ')') // 닫는 괄호가 없으면 예외 throw Exception("잘못된 함수 기호입니다."); bin.getc(); // ) 괄호를 해석했으므로 다음으로 넘긴다 std::cout << "function returning "; } else if (ch == '[') { // 배열 기호 획득 bin.getc(); // [ 괄호를 해석해서 진입했으므로 넘긴다 if (bin.peekc() != ']') // 닫는 괄호가 없으면 예외 throw Exception("잘못된 배열 기호입니다."); bin.getc(); // ] 괄호를 해석했으므로 다음으로 넘긴다 std::cout << "array of "; } else { // 이외의 경우 반복문을 탈출한다 break; } } } |
이 함수는 크게 direct-declarator의 4, 5번 정의를 기준으로 구분할 수 있다. 위는 이름과 괄호, 아래는 함수 기호와 배열 기호에 관한 구문이다. 이제 dcl 프로그램의 모든 구현을 보았으니 다른 선언의 해석이 어떻게 진행되는지를 관찰할 수 있다. arrptr을 예제로 고르자. 편의를 위해 ap라고 하겠다.
코드 | 버퍼 상태 | 출력 |
dcl1 호출 | (*ap)[]; |
|
while (ch == '*') ... | (*ap)[]; |
|
dirdcl1 호출 | (*ap)[]; |
|
if (ch == '(') 진입 | (*ap)[]; |
|
bin.getc() | *ap)[]; |
|
dcl2 호출 | *ap)[]; |
|
while (ch == '*') ... | ap)[]; |
|
dirdcl2 호출 | ap)[]; |
|
if (is_fnamch(ch)) 진입 | ap)[]; |
|
while (is_namch(ch)) ... | )[]; | ap: |
dirdcl2 종료 | )[]; | ap: |
dcl2) while (pc > 0) ... | )[]; | ap: pointer to |
dcl2 종료 | )[]; | ap: pointer to |
if (ch != ')') ... | )[]; | ap: pointer to |
bin.getc() | []; | ap: pointer to |
while ("()" || "[]") ... | ; | ap: pointer to array of |
dirdcl1 종료 | ; | ap: pointer to array of |
dcl1) while (pc > 0) ... | ; | ap: pointer to array of |
dcl1 종료 | ; | ap: pointer to array of |
코드가 재귀적으로 호출되기 때문에 혼란스러울 수 있으니 주의 깊게 보기 바란다. 다른 모든 예제도 이 방법을 이용하여 출력을 예상할 수 있다. 그러나 원서에도 나와 있지만, 이 프로그램은 완전하지 않다. const와 같은 키워드를 처리할 수 없고, 공백을 잘못 입력했을 때 오작동할 수도 있으며, 함수의 인자에 대해 어떤 것도 하지 않았다. 재귀적인 사고에 약한 사람이라면 이 예제를 분석하고 개선하면서 재귀적인 능력이 비약적으로 상승할 것이다. 또 후에 기회가 된다면 K&R의 dcl 구현을 반드시 살펴보라. 이 코드보다 아주 간단명료해서, 이해하는 데 도움이 많이 될 것이다.
이와 같이 C의 선언을 분석하는 프로그램을 만들고 테스트해볼 수 있었다.
4. 계산기와의 결합
1장에서 복합 연산이 가능한 계산기를 만들었고 여기서 C의 선언 방식을 공부하면서 식별자를 읽어내는 방법을 이해했다. 그렇다면 이 상태에서 바로 C 컴파일러를 만들 수 있을까?
해볼까?
4.1) 무엇이 필요한가?
선언과 계산기로 만들겠다고 했으니 당연히 두 모듈이 모두 필요하다. 다음을 가져온다.
- 계산기 모듈: 01_StackAndCalc.06_read_infix.06_read_infix.cpp
- 선언 분석 모듈: 02_cdecl.03_dcl.03_dcl_main.cpp
- StringBuffer 클래스
이때 이전에 구현한 모듈을 리팩토링할 것이다. 리팩토링(refactoring)이란 내부 논리나 구조를 바꾸고 개선하는 유지보수 행위이다. 그럼 이전에 구현한 프로그램에 개선할 점이 있다는 뜻인데, 과연 이 필자란 사람은 어떤 부분을 개선할 생각인걸까?
바로 정답을 말하자면 모든 모듈이다. 애초에 하나의 목적을 가지고 있지 않았던 코드들을 하나로 묶으려면 아주 잘 만든 라이브러리가 아닌 이상 코드의 수정은 불가피하다(라이브러리를 사용하지 않고 바로 프로그래밍을 공부하는 학부생 수준에서라면 이런 현상은 더 자주 일어난다). 이는 필자가 이전 모듈을 올바른 방향으로 작성하지 못했다는 뜻도 된다. 하지만 이런 과정을 통해 우리는 앞으로 리팩토링할 때 어떤 부분을 개선하고 줄여야 하는지를 연습하여 후에 있을 큰 프로젝트에서 실수가 일어나지 않도록 할 수 있게 된다.
사실 우리가 작성한 코드의 양이 그렇게 많지 않은 만큼, 선언 분석을 공부하여 얻은 지식을 이용해 프로그램을 처음부터 새롭게 작성하는 것도 좋은 방법이다. 필자는 두 방법을 모두 보일 생각이다. 먼저 작성된 코드가 있는 것을 수정하는 리팩토링이 더 설명하기 간단하므로 이것을 먼저 진행하겠다.
프로젝트를 새롭게 생성하고 C Compiler라는 뜻으로 이름을 cc라고 하자. main 소스 파일을 생성하고 다른 소스 파일을 모두 복사하여 프로젝트에 붙인다. 그러면 main을 포함하여 총 5개의 파일이 프로젝트에 있게 된다.
그런데 사실 선언 분석 모듈과 계산기 모듈은 서로 같이 사용하는 함수가 있다. 기본 판별 함수로서 소스의 위에 정의한 is_digit, is_lower와 같은 함수들이 바로 그렇다. 이 함수들은 이후의 모든 프로젝트에서도 반드시 자주 사용될 함수들이기 때문에, 모듈 각각의 소스 파일이 아닌 다른 소스 파일로 옮겨야 한다. 그래야 모듈에 필요 없는 코드가 줄어들고 가독성이 높아져 생산성에 기여하게 된다.
앞으로 수식 해석 모듈은 read expression을 줄여서 rdx, 선언 분석 모듈은 dcl이라고 부르겠다. 또한 모든 모듈이 공유하는 함수는 common 파일에 기록하는 것으로 하겠다. 예를 들어 기본 판별 함수의 원형은 common.h에 기록하고, 그 구현은 common.cpp에서 할 것이다. 즉 다음과 같다.
common.h |
#ifndef __COMMON_H__ #define __COMMON_H__ #include <string> // 예외 형식 Exception에 대한 임시적인 정의입니다. typedef std::string Exception; // 기본 판별 함수입니다. bool is_digit(char ch); // 문자가 숫자라면 참입니다. bool is_lower(char ch); // 소문자라면 참입니다. bool is_upper(char ch); // 대문자라면 참입니다. bool is_alpha(char ch); // 알파벳이라면 참입니다. bool is_alnum(char ch); // 알파벳 또는 숫자라면 참입니다. bool is_space(char ch); // 공백이라면 참입니다. // 식별자로 가능한 문자인지 확인합니다. bool is_namch(char ch); // 식별자 문자라면 참입니다. bool is_fnamch(char ch); // 첫 식별자 문자라면 참입니다. #endif |
common.cpp |
#include "common.h" // 기본 판별 함수입니다. bool is_digit(char ch) { // 문자가 숫자라면 참입니다. return ('0' <= ch && ch <= '9'); } bool is_lower(char ch) { // 소문자라면 참입니다. return ('a' <= ch && ch <= 'z'); } bool is_upper(char ch) { // 대문자라면 참입니다. return ('A' <= ch && ch <= 'Z'); } bool is_alpha(char ch) { // 알파벳이라면 참입니다. return is_lower(ch) || is_upper(ch); } bool is_alnum(char ch) { // 알파벳 또는 숫자라면 참입니다. return is_digit(ch) || is_alpha(ch); } bool is_space(char ch) { // 공백이라면 참입니다. return (ch == ' ' || ch == '\t' || ch == '\n'); } // 식별자로 가능한 문자인지 확인합니다. bool is_namch(char ch) { // 식별자 문자라면 참입니다. return is_alnum(ch) || (ch == '_'); } bool is_fnamch(char ch) { // 첫 식별자 문자라면 참입니다. return is_alpha(ch) || (ch == '_'); } |
그리고 이에 따라 각 모듈에서 정의했던 판별 함수를 삭제하고 헤더 파일을 추가하여 리팩토링한다. 이때 rdx 모듈에 정의되어있는 clear_input_buffer 또한 common으로 옮기겠다. 이 함수가 iostream 헤더에 정의되어있는 cin 객체를 사용하기 때문에, common 소스 파일에 iostream 헤더를 추가해야 한다.
다음은 정의했던 스택을 read_infix 소스 파일이 아닌 소스 파일로 분리하는 작업이다. Stack.h 파일을 만든다. Stack은 템플릿 클래스이기 때문에 컴파일 시에 구현 전체의 정의를 컴파일러가 반드시 알아야 한다. 즉 이 경우 Stack은 헤더 파일에 그대로 구현하고 별도의 cpp 파일을 만들지 않는다.
Stack.h |
#ifndef __HANDY_STACK_H__ #define __HANDY_STACK_H__
// 형식에 자유로운 스택을 만들기 위해 템플릿 클래스로 변경 template <typename Data> class Stack { static const int MAX_STACK_SIZ = 256; Data _list[MAX_STACK_SIZ]; int _count; private: inline bool is_full() const { return _count == MAX_STACK_SIZ; } public: Stack() : _count(0) {} void push(const Data &data) { if (is_full()) throw Exception("Stack is full"); _list[_count++] = data; } Data pop() { if (is_empty()) throw Exception("Stack is empty"); return _list[--_count]; } Data top() const { if (is_empty()) throw Exception("Stack is empty"); return _list[_count - 1]; } inline bool is_empty() const { return _count == 0; } inline int count() const { return _count; } };
#endif |
아니면 굳이 신뢰도도 성능도 떨어지는 우리 스택을 쓸 게 아니라 C++ 표준 템플릿 라이브러리가 지원하는 스택 클래스를 쓰는 것도 좋다. 다만 STL의 stack은 pop 함수의 구현이 일반적인 구현과 달라 예제에서 불편할 수 있어 넣지 않았는데, 우리가 사용하던 스택을 그대로 사용하고 싶다면 Stack만 리팩토링하는 방법을 사용할 수도 있다. 예를 들면 다음과 같다.
Stack.h |
#ifndef __HANDY_STACK_H__ #define __HANDY_STACK_H__ #include <stack> template <typename Data> class Stack { std::stack<Data> stack; public: Stack() {} void push(const Data &data) { stack.push(data); } Data pop() { Data popValue = stack.top(); stack.pop(); return popValue; } Data top() const { return stack.top(); } inline bool is_empty() const { return stack.empty(); } inline int count() const { return stack.size(); } }; #endif |
이렇게 스택 클래스의 리팩토링도 끝났다. 이제 각각의 모듈에 존재하는 main 함수를 적당히 이름을 바꾸고 컴파일 하라.
main.cpp |
#include <iostream> using namespace std; int main(void) { int main_rdx(), main_dcl(); main_rdx(); // read expression main_dcl(); // analyze declaration return 0; } |
두 함수 모두 정상적으로 실행됨을 확인할 수 있다.
4.2) StringBuffer 클래스 개선
모듈을 합치는 건 성공했고 모두 잘 동작한다. 하지만 이것만으로 끝이 난 건 아니다. 컴파일러라면 사칙 연산 이외에 더 많은 연산이 가능해야 하고, 변수를 읽어내고 변수로 연산할 수 있어야 한다. 자료형은 바꾸기만 하면 된다고 생각할 수도 있으니 일단 int형이라고 가정해보자. 연산은 사칙 연산에서 연산자를 추가하고 확장하면 어떻게 될 것 같다. 우선 변수를 읽어야 하므로 수식 해석 모듈을 수정하자. 문자열을 인자로 넘기던 함수에 StringBuffer 클래스를 적용한다.
그런데 생각해보자. rdx와 dcl 모듈은 모두 정수를 읽을 수 있어야 한다. 사실 정수뿐만이 아니라 식별자 획득, 공백 제거 등의 기능은 모두 필요하며 아주 자주 사용된다. 우리는 이러한 기능을 함수로 묶어내야 함을 알고 있는데, 이를 수행하는 함수를 StringBuffer 클래스의 메서드로 넣으면 어떨까? 다음은 StringBuffer 클래스에 새롭게 추가할 메서드이다.
- std::string get_number(); // 수를 획득한다.
- std::string get_identifier(); // 식별자를 획득한다. 키워드 획득 시에도 사용할 수 있다.
- std::string get_operator(); // C 연산자를 획득한다.
- void trim(); // 현재 위치에서 공백이 아닌 문자가 나올 때까지 포인터를 옮긴다.
- std::string get_token(); // 현재 위치 다음에 존재하는 공백이 아닌 기호(token)를 획득한다.
이전에 설명하지 않은 중요한 단어 중에 토큰이 있는데, 토큰(token)은 의미를 지닌 기호, 수, 문자 또는 문자열을 의미한다. 위에 제시한 함수들은 모두 다음과 같이 가정하고 있으므로 사용 시에 반드시 알고 있어야 한다.
- get_XXX() 함수는 모두 알아서 공백을 무시하고 가장 근접한 토큰을 반환한다.
- get_XXX() 함수는 토큰 획득에 실패하면 Exception 형식의 예외를 던진다.
- get_XXX() 함수는 해석 가능한 문자까지만 해석한다.
> get_number() 함수는 버퍼에 123x456이 남은 경우 123을 반환하고 포인터가 x456으로 이동한다.
> get_identifier() 함수는 버퍼에 v1_2+x8이 남은 경우 v1_2를 반환하고 포인터가 +x8로 이동한다.
> get_operator() 함수는 발견된 연산자 중 가장 긴 것을 반환한다. ++a++와 같은 입력이 들어오면 ++ 연산자를 뜻하는 정수를 반환하고 포인터가 a++로 이동한다.
그럼 이제 StringBuffer 클래스에 이를 구현해보자. 여기서 헤더와 소스가 몇 가지 바뀐다.
- 위에서 제시한 메서드를 StringBuffer의 멤버로 추가
- common 헤더 파일을 StringBuffer의 헤더 파일에 추가
- Exception 형식을 나타내는 StringBufferException 정의
- 소스 파일에 정의했던 Exception 정의를 삭제하고 포함한 string 헤더 파일을 제외
먼저 가장 간단한 trim 메서드부터 구현해보자.
StringBuffer.cpp |
void StringBuffer::trim() { while (is_empty() == false) { // 버퍼에 문자가 남아있는 동안 if (is_space(str[idx]) == false) // 공백이 아닌 문자를 발견하면 break; // 반복문을 탈출한다 ++idx; // 공백이면 다음 문자로 포인터를 넘긴다 } } |
코드의 흐름을 주석을 통해 모두 적었으니, 쉽게 이해할 수 있을 것이다. 다음은 정수를 획득하는 get_number 메서드를 구현하자.
StringBuffer.cpp |
std::string StringBuffer::get_number() { trim(); // 공백 제거 if (is_empty()) // 버퍼에 남은 문자가 없다면 예외 throw StringBufferException("Buffer is empty"); else if (is_digit(str[idx]) == false) // 첫 문자가 숫자가 아니면 예외 throw StringBufferException("invalid number"); std::string value; while (is_empty() == false) { if (is_digit(str[idx]) == false) break; value += str[idx]; ++idx; } return value; } |
우리는 이미 이 부분을 연습했으므로 역시 어렵지 않다. 다음은 식별자를 획득하는 get_identifier 메서드의 구현이다.
StringBuffer.cpp |
std::string StringBuffer::get_identifier() { trim(); // 공백 제거 if (is_empty()) // 버퍼에 남은 문자가 없다면 예외 throw StringBufferException("Buffer is empty"); else if (is_fnamch(str[idx]) == false) throw StringBufferException("invalid identifier"); std::string identifier; while (is_empty() == false) { if (is_namch(str[idx]) == false) // 식별자 문자가 아니라면 탈출 break; identifier += str[idx]; ++idx; } return identifier; } |
is_digit 메서드가 is_namch 메서드로 바뀐 것을 제외하고는 크게 바뀌지 않았으므로 분석하는 것이 어렵지 않다. 다음은 get_operator의 구현인데 이것도 크게 복잡하지 않다.
StringBuffer.cpp |
std::string StringBuffer::get_operator() { trim(); if (is_empty()) throw StringBufferException("Buffer is empty"); char ch = str[idx++]; // 현재 문자를 획득하고 포인터를 이동한다 std::string op; switch (ch) { case '+': op = ch; break; case '-': op = ch; break; case '*': op = ch; break; case '/': op = ch; break; default: throw StringBufferException("invalid operator"); } return op; } |
위 switch 구문이 이상하다고 생각할 수도 있는데, 이에 대해서는 후에 자세히 다룰 것이다. 마지막으로 get_token의 구현이다.
StringBuffer.cpp |
std::string StringBuffer::get_token() { trim(); if (is_empty()) throw StringBufferException("Buffer is empty"); char ch = str[idx]; std::stringstream ss; // 문자열 스트림 생성 if (is_digit(ch)) { // 정수를 발견했다면 정수 획득 ss << get_number(); // cout 출력 스트림처럼 사용하면 된다 } else if (is_fnamch(ch)) { // 식별자 문자를 발견했다면 식별자 획득 ss << get_identifier(); } else { // 이외의 경우 일단 연산자로 획득 ss << get_operator(); } return ss.str(); // 스트림에 담긴 문자열을 std::string 객체로 반환한다 } |
이제 이것이 정상적으로 동작하는지 확인하는 프로그램을 만들자. 정상 동작을 확인하려면 모든 토큰이 제대로 읽혀지는지를 봐야 한다. 테스트의 편의를 위해 무한히 입력받다가, 적법하지 않은 문장(세미콜론) 등이 들어오면 종료하도록 하자. 입력에 대해 다음 출력이 나오면 성공이라고 하겠다.
입력 | 출력 |
123 *456+var1/ var2 test test object HELLOWORLD ; | [123][*][456][+][var1][/][var2] [test] [test][object][HELLOWORLD] Program ended |
다음은 필자의 구현이다.
StringBufferV2Main.cpp |
#include <iostream> #include "common.h" #include "StringBuffer.h" int main(void) { try { const int MAX_INPUT_SIZ = 256; char input[MAX_INPUT_SIZ]; while (true) { clear_input_buffer(); std::cin.getline(input, MAX_INPUT_SIZ); StringBuffer buffer(input); while (buffer.is_empty() == false) { std::string token = buffer.get_token(); // 토큰 획득 std::cout << '['<< token.c_str() << ']'; // 감싸서 출력 } std::cout << std::endl; } return 0; } catch (Exception &ex) { // 정수 획득 실패, 식별자 획득 실패 후 // 연산자 획득 메서드인 get_operator에서 던진 예외를 // main 함수에서 받는다. // 따라서 ex는 invalid operator가 된다. std::cerr << "Program ended" << std::endl; return 1; } } |
이제 제법 쓸 만하게 StringBuffer 클래스를 개선했으니, 본격적으로 rdx 모듈을 수정해보자.
4.3) rdx 모듈 개선
지금 우리의 목표는 컴파일러를 만드는 것이다. 그러려면 적어도 다음의 문장은 분석해야 한다.
123 *456+var1/ var2
따라서 rdx 모듈은 최소한 이 문장을 분석할 수 있어야 한다. 이전에 작성한 rdx 모듈은 정수 피연산자만 가능했으므로, 이 부분을 StringBuffer 클래스를 이용해 개선할 것이다. 이를 위해 rdx 모듈을 생각보다 많이 리팩토링 해야 한다. 다음은 우리가 어떻게 모듈을 리팩토링 할 것인지를 보이기 위해 소스 파일의 위 부분을 가져온 것이다.
rdx.cpp |
#include <iostream> #include <sstream> #include <vector> #include "common.h" #include "Stack.h" #include "StringBuffer.h" const int MAX_EXPR_LEN = 256; // 식을 계산하고 값을 정수로 반환합니다. int calculate(const char *expr); // 연산자의 우선순위를 정수로 반환합니다. int op_pri(const std::string &op); // 식을 후위 표기법으로 변환합니다. static std::vector<std::string> infix_to_postfix(const char *infix); // 후위 표기법으로 표현된 식을 계산하고 값을 정수로 반환합니다. int calculate_postfix(const std::vector<std::string> &postfix); |
sstream, vector와 StringBuffer 클래스가 소스에 추가되었다. 또한 calculate 함수를 제외한 나머지 세 함수의 원형이 바뀌었다. 이는 StringBuffer 클래스가 토큰을 획득할 때 std::string 형식으로 획득하여 반환하기 때문에, 인자 또한 이러한 형태로 수정하는 것이 사용하기가 편하기 때문이다. 벡터 클래스가 추가됨으로써, 중위 표기식을 분석하여 토큰을 해석한 후에, 후위 표기식에서 다시 토큰을 StringBuffer 클래스를 통해 읽어야 하는 불편함을 없애고 코드를 간결하게 만들었다. 또한 static 키워드를 이용해 외부에서 infix_to_postfix 함수를 호출하지 못하게 하여 코드의 안정성을 높였다. 다음은 수정된 calculate 함수 및 op_pri 함수의 구현이다.
rdx.cpp |
int calculate(const char *expr) { // calculate infix expression // 중위 표기식을 후위 표기식으로 변환한다 std::vector<std::string> postfix = infix_to_postfix(expr); return calculate_postfix(postfix); // 변환된 후위 표기식을 분석하고 반환한다 } int op_pri(const std::string &op) { // get operator's priority int priority = 0; switch (op[0]) { case '+': priority = 1; break; case '-': priority = 1; break; case '*': priority = 2; break; case '/': priority = 2; break; default: throw Exception("Invalid operator"); } return priority; } |
이제 중위 표기법으로 표현된 식을 후위 표기법으로 변환하는 infix_to_postfix 함수를 고치자.
rdx.cpp |
static std::vector<std::string> infix_to_postfix(const char *infix) { StringBuffer bin(infix); Stack<std::string> opStack; std::vector<std::string> postfix; // 후위 표기식의 토큰을 저장할 벡터 while (bin.is_empty() == false) { bin.trim(); char ch = bin.peekc(); // 정수라면 획득하고 바로 출력한다 (피연산자) if (is_digit(ch)) postfix.push_back(bin.get_number()); // 식별자라면 획득하고 바로 출력한다 (피연산자) else if (is_fnamch(ch)) postfix.push_back(bin.get_identifier()); // 이외의 경우 연산자로 획득한다 else { std::string op = bin.get_operator(); if (op == "(") // 여는 괄호라면 그냥 넣는다 opStack.push(op); else if (op == ")") { // 닫는 괄호를 발견한 경우의 처리 if (opStack.is_empty() == false) { // get operator priority while (opStack.is_empty() == false) { std::string top = opStack.top(); if (top == "(") // 여는 괄호를 찾았다면 종료 break; else // 우선순위가 낮은 연산자를 스택에서 꺼내 // 후위 표기식에 추가 postfix.push_back(opStack.pop()); } // 올바른 괄호 쌍이 존재하는지 확인 if (opStack.top() != "(") throw Exception("Invalid parenthesis"); // 스택에 있는 여는 소괄호를 버린다 opStack.pop(); } } else { if (opStack.is_empty() == false) { // get operator priority int new_pri = op_pri(op); while (opStack.is_empty() == false) { std::string top = opStack.top(); if (top == "(") // 여는 괄호를 찾았다면 종료 break; else if (new_pri <= op_pri(top)) postfix.push_back(opStack.pop()); else break; } } opStack.push(op); } } } // 스택에 남은 연산자를 모두 출력한다 while (opStack.is_empty() == false) { std::string op = opStack.pop(); if (op == "(") // 위에서 처리되지 않은 소괄호가 있다면 예외 처리 throw Exception("Invalid parenthesis"); postfix.push_back(op); } return postfix; } |
main에서 테스트하여 이 함수가 잘 동작함을 확인할 수 있다. 당연히 main 함수 내부에서 main_rdx 함수를 호출해야 한다.
rdx.cpp |
int main_rdx(void) { try { char expression[MAX_EXPR_LEN] = ""; while (true) { std::cout << "Enter expression: "; clear_input_buffer(); std::cin.getline(expression, MAX_EXPR_LEN); if (expression[0] == ';') break; std::vector<std::string> &postfix = infix_to_postfix(expression); for (int i = 0, len = postfix.size(); i < len; ++i) { std::cout << postfix[i] << ' '; } std::cout << " : " << calculate(expression) << std::endl; } return 0; } catch (Exception &ex) { std::cerr << ex.c_str() << std::endl; return 1; } } |
이제 calculate_postfix 함수를 수정하면 끝난다. 이를 위해 먼저 다음의 함수를 소개한다.
rdx.cpp |
int strtoi(const std::string &str) { // 문자열을 정수로 변환한 값을 반환합니다. int digit, value = 0; for (int i = 0, len = str.length(); i < len; ++i) { digit = str[i] - '0'; value = 10 * value + digit; } return value; } |
std::string 문자열을 정수로 변환하는 함수다. 토큰을 모두 std::string으로 저장했으니 이러한 변환은 반드시 필요하므로 구현했다. 그러면 이제 calculate_postfix의 구현을 보이겠다. 그런데 사실 이 코드에는 아직 구현하지 않은 부분이 있다. 어떤 부분일까?
rdx.cpp |
int calculate_postfix(const std::vector<std::string> &postfix) { int value; Stack<int> paramStack; for (int i = 0, len = postfix.size(); i < len; ++i) { const std::string &token = postfix[i]; if (is_digit(token[0])) { // 정수라면 변환해서 푸시 value = strtoi(token); paramStack.push(value); } else if (is_fnamch(token[0])) { // 식별자라면 값을 가져와서 푸시 // value = get_identifier_value(token); value = -1; paramStack.push(value); } else { // 이외의 경우 연산자로 처리한다 const std::string &op = token; // 스택에서 두 개의 피연산자를 꺼낸다 int right = paramStack.pop(); int left = paramStack.pop(); // 획득한 연산자로 연산한다 switch (op[0]) { case '+': value = left + right; break; case '-': value = left - right; break; case '*': value = left * right; break; case '/': value = left / right; break; default: throw Exception("Invalid operator"); } // 연산 결과를 다시 스택에 넣는다 paramStack.push(value); } } if (paramStack.count() != 1) // 스택에 남은 피연산자가 1개가 아니면 예외 throw Exception("Unhandled operand found"); return paramStack.pop(); // 하나 남은 피연산자를 반환한다 } |
사실 바로 보이는데, 식별자에서 값을 가져오는 부분이 구현되지 않았다. 왜 그랬을까?
식별자에서 값을 가져오려면, 먼저 식별자가 정의되어있어야 한다. 변수를 정의하지 않고 사용할 수 없는 것처럼 말이다. 그러려면 식별자를 정의하는 표를 별도로 가지고 있어야 한다. 이 문제를 설명하기 위해 아직 식별자에서 값을 가져오는 부분을 구현하지 않았다. 우리는 식별자 표를 만든 다음 위에서 주석 처리되어있는 get_identifier_value 함수를 구현할 것이다.
그런데 생각해보자. 식별자 표는 어디에 정의해야 할까? rdx인가, dcl인가? rdx 모듈은 식을 계산할 때 식별자 표로부터 정보를 가져와야 한다. dcl 모듈은 선언을 분석한 후 획득한 식별자 정보를 식별자 표에 넣어야 한다. 필자의 프로그래밍 경험으로는, 두 모듈이 하나의 자료에 접근하는 경우에는 자료를 독립적으로 만들어놓고 접근자, 설정자 함수를 이용해 자료를 주고받는 형태가 가장 나았다. 따라서 이 예제에서도 식별자 표 정보를 갖고 있는 새로운 모듈을 만들고, rdx와 dcl이 함수를 통해 이 모듈과 자료를 주고받도록 할 것이다. 이 새로운 모듈의 이름은 식별자 표(table)라는 뜻으로 tbl이라고 하겠다.
다음과 같이 tbl 모듈의 식별자 표 Table을 구현할 수 있다. 먼저 헤더를 보자.
Table.h |
#ifndef __IDENTIFIER_TABLE_H__ #define __IDENTIFIER_TABLE_H__ #include "common.h" #include <string> #include <map> class Table { static Table *_instance; // 싱글톤 객체를 가리키는 정적 필드 std::map<std::string, std::string> _table; // 실제 식별자 표 객체 private: // tbl을 싱글톤 객체로 만들기 위해 생성자를 숨긴다 explicit Table(); ~Table(); public: // tbl 싱글톤 객체의 인스턴스를 가져옵니다. static Table *instance(); // 식별자에 대한 접근자, 설정자 함수입니다. std::string &get(const std::string &identifier); void set(const std::string &identifier, const std::string &value); }; #endif |
싱글톤이라는 단어를 처음 듣는 독자가 있을 수도 있다. 싱글톤(singleton)이란 프로그램에 하나 이상 생성되지 않는 유일한 객체를 말하며, 이렇게 싱글톤을 이용하여 프로그램을 작성하는 설계 방식을 싱글톤 디자인 패턴이라고 한다. 식별자 표는 당장은 프로그램에 하나 이상 존재할 이유가 따로 없는데, 왜냐하면 표가 두 개 이상이 되면 식별자를 모든 표마다 뒤져서 찾아내야 하는 등 여러모로 번거로워지기 때문이다. 따라서 지금은 tbl 모듈은 싱글톤 객체로만 사용하겠다(당장, 지금 등 이 시점을 강조하는 이유는 이 모듈이 나중에 리팩토링 될 것이기 때문이다).
다음은 tbl 싱글톤 객체의 메서드를 구현한 것이다.
tbl.cpp |
#include "Table.h" Table *Table::_instance = nullptr; Table::Table() {} Table::~Table() {} Table *Table::instance() { return (_instance ? _instance : (_instance = new Table())); } std::string &Table::get(const std::string &identifier) { try { return _table[identifier]; } catch (...) { throw Exception("식별자에 대한 값을 가져올 수 없습니다."); } } void Table::set(const std::string &identifier, const std::string &value) { _table[identifier] = value; } |
컴파일러를 만드는 문서이니만큼 싱글톤의 구현에 관해 더 이상 설명하지 않겠다. 구현은 위와 같이 아주 간단하며, 이를 이용해 rdx 모듈을 완성할 수 있다.
rdx.cpp |
... #include "Table.h" ... int calculate_postfix(const std::vector<std::string> &postfix) { ... else if (is_fnamch(token[0])) { // 식별자라면 값을 가져와서 푸시 std::string ival = Table::instance()->get(token); // 키에 대한 값 획득 value = strtoi(ival); // 획득한 값을 정수로 변환 paramStack.push(value); // 피연산자 스택에 푸시 } ... } |
다음과 같이 테스트가 정상적으로 동작함을 확인할 수 있다.
rdx.cpp |
int main_rdx(void) { try { std::string command; std::string identifier, value; std::cout << "Usage: " << std::endl; // auto로 식별자에 대한 값을 설정합니다. std::cout << "- auto <identifier> <value>" << std::endl; // calc로 수식을 분석하고 값을 계산합니다. std::cout << "- calc <expression>" << std::endl; // exit로 프로그램을 종료합니다. std::cout << "- exit" << std::endl; while (true) { clear_input_buffer(); std::cout << "> "; std::cin >> command; if (command == "auto") { std::cin >> identifier >> value; Table::instance()->set(identifier, value); } else if (command == "calc") { std::cin.ignore(1); std::cin.getline(input, MAX_INPUT_SIZ); std::cout << calculate(input) << std::endl; } else if (command == "exit") { break; } else { std::cout << "unknown command; try again" << std::endl; } } return 0; } catch (Exception &ex) { std::cerr << ex.c_str() << std::endl; return 1; } } |
이 프로그램은 다음과 같이 실행된다. 바로 알아볼 수 있을 것이다.
Usage: - auto <identifier> <value> - calc <expression> - exit > calc 1+2*3+4 11 > auto var1 3 > auto var2 4 > calc var1+var2 7 > calc 1 *var1+var2/ 2 5 > exit |
이와 같이 변수 해석이 가능하게 rdx 모듈을 개선할 수 있었다.
4.4) dcl 모듈 개선
변수가 있는 수식을 성공적으로 분석해냈다. 여기까지 따라왔다면 진심으로 스스로를 칭찬해도 좋다. 굳이 필자가 말하지 않더라도 변수 분석이 가능한 계산기를 만들어냈다는 사실만으로도 이미 스스로를 대견하게 느끼고 있지 않을까 넘겨짚어 본다.
이제 선언을 분석하고 획득한 식별자 정보를 식별자와 함께 Table 객체에 넣으면 결합이 끝난다. 그런데 식별자 정보를 Table에 넣는 것은 어렵지 않지만, 식별자가 어떤 정보를 가지고 있는지를 결정하는 것이 생각보다 어렵다. 여기서는 간단하게 식별자가 자료형과 값만 가지고 있다고 가정한다.
식별자가 저장하는 정보가 값에서 자료형과 값으로 커졌으므로, 식별자 객체를 표현하는 새로운 클래스가 필요하다. 따라서 식별자의 정보를 표현하는 IdentifierInfo 클래스를 새롭게 작성하고 Table 객체를 리팩토링 하겠다. 다음은 이를 구현한 것이다.
IdentifierInfo.h |
#ifndef __IDENTIFIER_H__ #define __IDENTIFIER_H__
#include "common.h" #include <string>
class IdentifierInfo { std::string _name; // 식별자의 이름을 저장하는 변수 std::string _datatype; // 자료형을 저장하는 변수 std::string _value; // 값을 저장하는 변수 public: IdentifierInfo(); IdentifierInfo( const std::string &name, const std::string &datatype, const std::string &value = "");
std::string &name(); // 식별자의 이름을 반환합니다. const std::string &name() const; // 식별자의 이름을 반환합니다. std::string &datatype(); // 자료형을 반환합니다. const std::string &datatype() const; // 자료형을 반환합니다. std::string &value(); // 값을 반환합니다. const std::string &value() const; // 값을 반환합니다. void set_name(const std::string &name); // 식별자의 이름을 설정합니다. void set_datatype(const std::string &datatype); // 자료형을 설정합니다. void set_value(const std::string &value); // 값을 설정합니다. };
#endif |
IdentifierInfo.cpp |
#include "IdentifierInfo.h" IdentifierInfo::IdentifierInfo() {} IdentifierInfo::IdentifierInfo( const std::string &name, const std::string &dtype, const std::string &value) : _name(name), _datatype(dtype), _value(value) {} // 식별자의 이름을 반환합니다. std::string &IdentifierInfo::name() { return _name; } const std::string &IdentifierInfo::name() const { return _name; } // 자료형을 반환합니다. std::string &IdentifierInfo::datatype() { return _datatype; } const std::string &IdentifierInfo::datatype() const { return _datatype; } // 값을 반환합니다. std::string &IdentifierInfo::value() { return _value; } const std::string &IdentifierInfo::value() const { return _value; } // 식별자의 이름을 설정합니다.
// 자료형을 설정합니다. void IdentifierInfo::set_datatype(const std::string &dtype) { _datatype = dtype; } // 값을 설정합니다. void IdentifierInfo::set_value(const std::string &value) { _value = value; } |
그리고 이를 이용해 Table을 리팩토링 한 결과는 다음과 같다.
Table.h |
#ifndef __IDENTIFIER_TABLE_H__ #define __IDENTIFIER_TABLE_H__
#include "common.h" #include <string> #include <map> #include "IdentifierInfo.h"
class Table { static Table *_instance; // 싱글톤 객체를 가리키는 정적 필드 std::map<std::string, IdentifierInfo> _table; // 실제 식별자 표 객체
private: // tbl을 싱글톤 객체로 만들기 위해 생성자를 숨긴다 explicit Table(); ~Table();
public: // tbl 싱글톤 객체의 인스턴스를 가져옵니다. static Table *instance(); // 식별자에 대한 접근자, 설정자 함수입니다. IdentifierInfo &get(const std::string &identifier); void set(const std::string &identifier, const IdentifierInfo &value); };
#endif |
tbl.cpp |
#include "Table.h" Table *Table::_instance = nullptr;
Table::Table() {} Table::~Table() {}
Table *Table::instance() { return (_instance ? _instance : (_instance = new Table())); }
IdentifierInfo &Table::get(const std::string &identifier) { if (_table.find(identifier) == _table.end()) throw Exception("식별자에 대한 값을 가져올 수 없습니다."); return _table[identifier]; } void Table::set(const std::string &identifier, const IdentifierInfo &value) { _table[identifier] = value; } |
이제 준비가 끝났으니 dcl 모듈에서 식별자를 표에 넣을 수 있게 리팩토링 해보자. 다음은 rdx 모듈과 같이 벡터를 이용하여 보다 이용하기 편리하게 작성한 예제다. 먼저 소스 위 부분이 바뀌었다.
dcl.cpp |
#include <iostream> #include "StringBuffer.h" #include "common.h"
#include <vector> typedef std::vector<std::string> StringList;
#include "Table.h" #include "IdentifierInfo.h"
const int MAX_INPUT_SIZ = 256; static char input[MAX_INPUT_SIZ];
// 선언을 분석하고 획득한 토큰의 벡터를 반환합니다. std::vector<IdentifierInfo> get_dcl_info(const char *decl);
// 형식을 획득하여 문자열로 반환합니다. std::string get_type(StringBuffer &buf_in); // 선언자를 분석하고 결과를 출력합니다. void dcl(StringBuffer &buf_in, StringList &vec_out); // 직접 선언자를 분석하고 결과를 출력합니다. void dirdcl(StringBuffer &buf_in, StringList &vec_out); |
dcl, dirdcl 함수의 내부도 vout을 이용하게끔 바뀌었다.
dcl.cpp |
void dcl(StringBuffer &bin, StringList &vout) { // 선언자를 분석하고 결과 출력 // declarator: * direct-declarator (1) int pointer_count = 0; char ch; while (bin.is_empty() == false) { // 버퍼에 문자가 남아있는 동안 ch = bin.getc(); // 문자를 획득하고 확인한다 if (ch == '*') { // *라면 그만큼 포인터를 출력하기 위해 ++pointer_count; // 카운터를 증가시킨다 } else { // *가 아니라면 포인터를 되돌리고 탈출한다 bin.ungetc(); break; } } // declarator: * direct-declarator (2) dirdcl(bin, vout); // *을 모두 획득했으므로 직접 선언자를 분석한다 while (pointer_count > 0) { // 선언자의 분석이 오른쪽에서 먼저 진행되므로 vout.push_back("*"); // 왼쪽에서 획득한 기호를 오른쪽의 분석이 --pointer_count; // 종료된 후에 출력해야 한다 } } void dirdcl(StringBuffer &bin, StringList &vout) { // 직접 선언자를 분석하고 결과 출력 char ch = bin.peekc(); if (is_fnamch(ch)) { // direct-declarator: 이름 (2) std::string identifier = ""; while (bin.is_empty() == false) { ch = bin.getc(); if (is_namch(ch) == false) { bin.ungetc(); break; } identifier += ch; } if (identifier.empty()) // 식별자에 추가된 문자가 없다면 예외 throw Exception("올바른 식별자 이름이 아닙니다."); vout.push_back(identifier); } else if (ch == '(') { // direct-declarator: (declarator) (3) bin.getc(); // ( 문자를 해석해서 진입했으므로 다음으로 넘긴다 dcl(bin, vout); if (bin.peekc() != ')') // 닫는 괄호가 없으면 예외 throw Exception("닫는 괄호가 없습니다."); bin.getc(); // ) 괄호 검사를 진행했으므로 다음으로 넘긴다 } // direct-declarator: direct-declarator() (4) // direct-declarator: direct-declarator[] (5) while (bin.is_empty() == false) { ch = bin.peekc(); if (ch == '(') { // 함수 기호 획득 bin.getc(); // ( 괄호를 해석해서 진입했으므로 넘긴다 if (bin.peekc() != ')') // 닫는 괄호가 없으면 예외 throw Exception("잘못된 함수 기호입니다."); bin.getc(); // ) 괄호를 해석했으므로 다음으로 넘긴다 vout.push_back("()"); } else if (ch == '[') { // 배열 기호 획득 bin.getc(); // [ 괄호를 해석해서 진입했으므로 넘긴다 if (bin.peekc() != ']') // 닫는 괄호가 없으면 예외 throw Exception("잘못된 배열 기호입니다."); bin.getc(); // ] 괄호를 해석했으므로 다음으로 넘긴다 vout.push_back("[]"); } else { // 이외의 경우 반복문을 탈출한다 break; } } } |
선언을 문자열로 입력하면 이를 분석하여 IdentifierInfo의 벡터로 반환하는 get_dcl_info 함수가 추가되었다.
dcl.cpp |
std::vector<IdentifierInfo> get_dcl_info(const char *decl) { std::vector<IdentifierInfo> identifiers; StringList tokens; StringBuffer bin(decl); std::string type = get_type(bin);
while (bin.is_empty() == false) { tokens.clear(); bin.trim(); dcl(bin, tokens); if (bin.peekc() == ',') { bin.getc(); std::string identifier = tokens[0]; std::string datatype; for (int i = 1, len = tokens.size(); i < len; ++i) { datatype += tokens[i]; } datatype += type; IdentifierInfo info(identifier, datatype); identifiers.push_back(info); } else if (bin.peekc() == ';') { break; } else { throw Exception("unknown character"); } } std::string identifier = tokens[0]; std::string datatype; for (int i = 1, len = tokens.size(); i < len; ++i) { datatype += tokens[i]; } datatype += type; IdentifierInfo info(identifier, datatype); identifiers.push_back(info); return identifiers; } |
마지막으로 이를 테스트할 수 있게 main 함수를 작성하였다.
dcl.cpp |
int main_dcl(void) { try { while (true) { std::cin.getline(input, MAX_INPUT_SIZ); std::vector<IdentifierInfo> decl_list = get_dcl_info(input); for (int i = 0, len = decl_list.size(); i < len; ++i) { const IdentifierInfo &info = decl_list[i]; Table::instance()->set(info.name(), info); }
for (int i = 0, len = decl_list.size(); i < len; ++i) { const std::string &identifier = decl_list[i].name(); const IdentifierInfo &info = Table::instance()->get(identifier); std::cout << info.name() << ": " << info.datatype() << std::endl; } } return 0; } catch (Exception &ex) { std::cerr << ex.c_str() << std::endl; return 1; } } |
드디어 dcl 모듈의 리팩토링이 모두 끝났다. 남은 일은 rdx 모듈의 main 함수가 수행했던 과정에서 선언을 넣고 값을 정의하는 것이다. 마지막으로 두 모듈을 합치기 위해 해야 하는 일을 정리하겠다.
- 프로그램은 실행 시에 다음 화면을 띄운다.
Usage: - decl <declaration> - movl <identifier> <value> - calc <expression> - exit > |
- decl 명령 이후에는 선언이 온다. 이전과 달리 변수는 선언해야 사용할 수 있다.
- movl 명령은 식별자의 값을 설정한다. 선언되지 않은 변수에 값을 대입할 수 없다.
- calc 명령 이후에는 식이 온다. 선언되지 않은 변수를 발견하면 경고 메시지를 출력하고 종료한다.
필자가 구현한 것을 보이기 전에, 이전 소스에서 수정된 사항을 먼저 보이겠다.
rdx 모듈은 main_rdx 함수를 삭제하고 calculate_postfix 함수를 일부 수정하였다.
rdx.cpp |
int calculate_postfix(const std::vector<std::string> &postfix) { ... else if (is_fnamch(token[0])) { // 식별자라면 값을 가져와서 푸시 if (Table::instance()->exist(token) == false) throw Exception("Undefined identifier; define it first"); IdentifierInfo info = Table::instance()->get(token); std::string ival = info.value(); value = strtoi(ival); paramStack.push(value); ... } |
tbl 모듈은 식별자가 표에 존재하는지 확인하고 있으면 참을 반환하는 exist 메서드가 추가되었다.
Table.h |
... // 식별자 표에 식별자가 등록되어있는지 확인합니다. bool exist(const std::string &identifier) const; ... |
dcl 모듈은 main_dcl 함수가 수정되었다. 그리고 공통적으로 각각의 모듈에 대응하는 헤더 파일이 생성되었다.
dcl.h |
#ifndef __DECLARATION_H__ #define __DECLARATION_H__ #include <vector> #include "IdentifierInfo.h" // 선언을 분석하고 획득한 토큰의 벡터를 반환합니다. std::vector<IdentifierInfo> get_dcl_info(const char *decl); #endif |
rdx.h |
#ifndef __READ_EXPRESSION_H__ #define __READ_EXPRESSION_H__ // 식을 계산하고 값을 정수로 반환합니다. int calculate(const char *expr); #endif |
그리고 다음이 필자가 구현한, 선언 분석 모듈과 수식 분석 모듈이 결합된 프로그램이다.
main.cpp |
#include <iostream>
#include "common.h" #include "StringBuffer.h" #include "Table.h" #include "dcl.h" #include "rdx.h" #include "IdentifierInfo.h"
const int MAX_INPUT_SIZ = 256; static char input[MAX_INPUT_SIZ];
int main(void) { try { std::string command; std::string identifier, value; std::cout << "Usage: " << std::endl; std::cout << "- decl <declaration>" << std::endl; std::cout << "- movl <identifier> <value>" << std::endl; std::cout << "- calc <expression>" << std::endl; std::cout << "- exit" << std::endl;
while (true) { clear_input_buffer(); std::cout << "> "; std::cin >> command; if (command == "decl") { std::cin.ignore(1); std::cin.getline(input, MAX_INPUT_SIZ); std::vector<IdentifierInfo> decl_list = get_dcl_info(input); for (int i = 0, len = decl_list.size(); i < len; ++i) { const IdentifierInfo &info = decl_list[i]; Table::instance()->set(info.name(), info); } } else if (command == "movl") { std::cin >> identifier >> value; if (Table::instance()->exist(identifier) == false) { std::cout << "undefined identifier; define it first" << std::endl; continue; } IdentifierInfo &info = Table::instance()->get(identifier); info.set_value(value); } else if (command == "calc") { std::cin.ignore(1); std::cin.getline(input, MAX_INPUT_SIZ); try { std::cout << calculate(input) << std::endl; } catch (Exception &ex) { std::cout << ex.c_str() << std::endl; } } else if (command == "exit") { break; } else { std::cout << "unknown command; try again" << std::endl; } } return 0; } catch (Exception &ex) { std::cerr << ex.c_str() << std::endl; return 1; } } |
이와 같이 컴파일러를 만들기 위해 선언 분석 모듈과 수식 분석 모듈을 결합할 수 있었다.
4.5) 한계
정말 많은 내용을 공부했고, 생각보다 결과도 괜찮다. 이 정도면 좀만 더 개선하면 컴파일러가 되지 않을까? 서문에서 밝힌 적이 있는데, 필자는 간단한 변수의 선언 및 정의(정확히는 구조체의 선언과 정의까지는 연구했었다)와 수식의 계산까지 완료했지만 함수 정의와 호출에서 막혀서 포기했다. 지금 작성한 코드로 함수, 조건문과 반복문, 포인터 연산, 동적 할당 등을 모두 완성할 수 있다면 당신은 필자보다 아주 뛰어난 사람임에 틀림이 없다.
이는 아주 어려운 문제인데, 기존에 함수 정의와 호출을 구현하는 방법을 모르는 상태에서 이것을 구현하려면 순수하게 개발자의 아이디어만으로 프로젝트를 진행해야 하기 때문이다. 사고력을 키워준다는 점에서 의미가 없다고 할 수는 없으나, 그것에 들이는 노력에 비해 결과가 시원치 않을 가능성이 높고, 대개는 처음에 떠올린 설계 자체에 오류가 생겨서 그전까지 작성했던 코드를 몽땅 버려야 하는 상황이 생각보다 자주 닥치기 때문이다. 이 문서에서는 설계가 없는 프로그래밍의 위험성도 많이 강조할 것이다. 컴파일러의 설계도 없이 혼자 이 프로젝트를 진행하기에는, 학부생 수준의 프로그래밍 능력으로는 너무나도 어렵다. 따라서 이 문제에 대해 필자는 일단 납득하길 바라지만, 정 궁금하다면 자신이 스스로 컴파일러를 설계하여 그대로 진행해보는 것도 좋은 경험이 될 수는 있다고 생각한다.
참고로, 방금 우리가 작성한 dcl 모듈은 완전히 개선되지 않았다. 식별자에 대해 어떤 것을 고려해야 하는지를 떠오르는 대로 나열해보자.
- 자료형
- 값
- 주소
- 정적인가? (static)
- 상수인가? (const)
- 컴파일러가 최적화하는가? (volatile)
- 레지스터인가? (register)
- 외부에 존재하는가? (extern)
- 외부에서 참조할 수 없는가? (static)
- 형식인가? (typedef)
- 함수인가?
- 함수라면, 인자 정보는 어떠한가?
- 배열인가?
- 포인터인가?
- 사용자 정의 자료형인가? (struct, union, enum)
- 사용자 정의 자료형이라면, 멤버 정보는 어떠한가?
...
일단 이 문제부터 모두 해결할 수 있다면 바로 컴파일러에 도전해도 좋을 것 같다.
5. 단원 마무리
방금 위에서도 말했듯 굉장히 많은 내용을 이 문서에 담았다. C의 선언은 그 자체로도 처음 접하는 사람을 크게 혼란스럽게 만들지만, 제대로 이해하고 나면 프로그래밍 언어를 보는 눈이 달라져 보다 높은 수준의 프로그래머가 될 수 있다고 생각한다. 계산기와의 결합은 처음에는 살짝만 설명하고 후에 다시 다룰 생각이었는데, 마침 생각이 들어 진행하다보니 어쩌면 지나치게 많은 내용을 넣어 독자를 부담스럽게 하진 않았을까 걱정도 된다. 다음 내용은 컴파일러와 인터프리터에 대한 개론적인 내용인데, 이전의 문서보다 코드를 거의 작성하지 않으므로 컴퓨터 교양서적을 읽는 듯이 공부할 수 있으리라 생각한다.
'알려주기' 카테고리의 다른 글
[JSCC] 5. NASM 어셈블리 언어 (0) | 2015.05.29 |
---|---|
[JSCC] 4. CIL 어셈블리 언어 (0) | 2015.05.25 |
[JSCC] 3. 컴파일러와 인터프리터 (0) | 2015.05.25 |
[JSCC] 1. 스택과 계산기 (0) | 2015.05.25 |
[JSCC] JSCC: JavaScript로 개발하는 C Compiler (16) | 2015.05.25 |