一、簡介
相信每個 programmer 都跟西杰一樣想過設計一種自己的編程語言,最近西杰就有機會要寫一個編譯器了。雖然在大學時已經讀過如何編寫一個編譯器,但要認真寫起上來還真的不容易,而且網上教寫編譯器的教材不多(尤其中文的),所以就把這次經驗記下來,疏理一下自己在開發過程中所學到的東西,也同時為互聯網增加一些有關編譯器這方面的中文資源吧。
西杰在開發過程中經常參考 Actionscript 編譯器的 source code(用 Java 寫的),大家有興趣可以看看這裡(在 /trunk/modules/asc
裡), 是 open source 的。
在這個教程中,西杰將會使用 JavaScript 來開發,原因有二。第一,JS 是我最喜愛的編程語言之一,語法簡潔易明,亦較多人認識。第二,可以讓大家在瀏覽器直接運行 Demo,大家不用浪費時間下載本文所舉的例子再執行。
整個教程將會分為七個主要單元,除了這篇簡介外,還包括以下六個單元。
二、詞法分析(Lexical analysis):把字元合併成為詞語
三、語法分析(Syntactic analysis):把詞語組合成一句有意思的句子
四、語意分析(Semantic analysis):把句子組成有上文下理的段落,成為有意思的故事。西杰認為這個單元和第三個單元最難,大家要有心理準備
五、虛擬機(Virtual Machine):用來運行編譯好的程式
六、生成代碼(Code Generation):把你閱讀完的故事寫出來給虛擬機看
七、優化器(Optimizer):可以把故事說得簡單一點
好了,那麼我們開始吧,先來看看我們即將開發的語言 ﹣ Wescript (音類似 Westkit,不過要翹舌)的特徵:
- 兩種變數類型(variable type):
bool
,int
- 兩種控制結構(Control structure):
if/else
,while
- 註釋(Comment):
// 單行
,/* 多行 */
- 運算符(Operator):
+
,-
,*
,/
,%
,(
,)
,&&
,||
,!
,==
,!=
,=
,+=
,++
,-=
,–
- Static scoping ,
bool
不能與int
比較,忽略空白符號。
例子:
/*
Wescript
*/
var a:int = 1;
var b:int = 2;
var c:bool = true;
if (c){
print a;
}else{
print b;
}
var i:int = 0;
while (i < 10){
print i;
i++;
}
//WoW
就是這樣了,下一章就會開始做 Scanner 。