Cleanup character classes

author: Aleksey Kladov <[email protected]> 2017-12-29 21:48:47 +0000
committer: Aleksey Kladov <[email protected]> 2017-12-29 21:48:47 +0000
commit: 770ecd4ecd61f04597d9478001848b703d915cce (patch)
tree: 6ca644dbc10bb8c183cd174fcd035545ec42f7b3 /src
parent: 171baf4c4863f035384c6c63a5f0ce531b01cf9d (diff)
4 files changed, 51 insertions, 31 deletions
diff --git a/src/lexer/classes.rs b/src/lexer/classes.rs
new file mode 100644
index 000000000..7cc050bde
--- /dev/null
+++ b/src/lexer/classes.rs
@@ -0,0 +1,22 @@
+use unicode_xid::UnicodeXID;
+pub fn is_ident_start(c: char) -> bool {
+    (c >= 'a' && c <= 'z')
+        || (c >= 'A' && c <= 'Z')
+        || c == '_'
+        || (c > '\x7f' && UnicodeXID::is_xid_start(c))
+}
+pub fn is_ident_continue(c: char) -> bool {
+    (c >= 'a' && c <= 'z')
+        || (c >= 'A' && c <= 'Z')
+        || (c >= '0' && c <= '9')
+        || c == '_'
+        || (c > '\x7f' && UnicodeXID::is_xid_continue(c))
+}
+pub fn is_whitespace(c: char) -> bool {
+    //FIXME: use is_pattern_whitespace
+    //https://github.com/behnam/rust-unic/issues/192
+    c.is_whitespace()
+}
diff --git a/src/lexer/mod.rs b/src/lexer/mod.rs
index 136afb7b8..dd3e2896d 100644
--- a/src/lexer/mod.rs
+++ b/src/lexer/mod.rs
@@ -1,11 +1,12 @@
-use unicode_xid::UnicodeXID;
 use {Token, SyntaxKind};
 use syntax_kinds::*;
 mod ptr;
 use self::ptr::Ptr;
+mod classes;
+use self::classes::*;
 pub fn next_token(text: &str) -> Token {
    assert!(!text.is_empty());
    let mut ptr = Ptr::new(text);
@@ -19,38 +20,20 @@ fn next_token_inner(c: char, ptr: &mut Ptr) -> SyntaxKind {
    // Note: r as in r" or r#" is part of a raw string literal,
    // b as in b' is part of a byte literal.
    // They are not identifiers, and are handled further down.
-    let ident_start = ident_start(c) && !string_literal_start(c, ptr.next(), ptr.nnext());
+    let ident_start = is_ident_start(c) && !string_literal_start(c, ptr.next(), ptr.nnext());
    if ident_start {
-        loop {
+        ptr.bump_while(is_ident_continue);
-            match ptr.next() {
+        return IDENT;
-                Some(c) if ident_continue(c) => {
-                    ptr.bump();
-                },
-                _ => break,
-            }
-        }
-        IDENT
-    } else {
-        WHITESPACE
    }
-}
-fn ident_start(c: char) -> bool {
+    if is_whitespace(c) {
-    (c >= 'a' && c <= 'z')
+        ptr.bump_while(is_whitespace);
-        || (c >= 'A' && c <= 'Z')
+        return WHITESPACE;
-        || c == '_'
+    }
-        || (c > '\x7f' && UnicodeXID::is_xid_start(c))
-}
-fn ident_continue(c: char) -> bool {
+    return ERROR
-    (c >= 'a' && c <= 'z')
-        || (c >= 'A' && c <= 'Z')
-        || (c >= '0' && c <= '9')
-        || c == '_'
-        || (c > '\x7f' && UnicodeXID::is_xid_continue(c))
 }
 fn string_literal_start(c: char, c1: Option<char>, c2: Option<char>) -> bool {
    match (c, c1, c2) {
        ('r', Some('"'), _) |
diff --git a/src/lexer/ptr.rs b/src/lexer/ptr.rs
index 4638dac21..e8aa6f37b 100644
--- a/src/lexer/ptr.rs
+++ b/src/lexer/ptr.rs
@@ -32,6 +32,17 @@ impl<'s> Ptr<'s> {
        Some(ch)
    }
+    pub fn bump_while<F: Fn(char) -> bool>(&mut self, pred: F) {
+        loop {
+            match self.next() {
+                Some(c) if pred(c) => {
+                    self.bump();
+                },
+                _ => return,
+            }
+        }
+    }
    fn chars(&self) -> Chars {
        self.text[self.len.0 as usize ..].chars()
    }
diff --git a/src/syntax_kinds.rs b/src/syntax_kinds.rs
index 421cae15a..b9b47a2ed 100644
--- a/src/syntax_kinds.rs
+++ b/src/syntax_kinds.rs
@@ -1,11 +1,15 @@
 // Generated from grammar.ron
 use tree::{SyntaxKind, SyntaxInfo};
-pub const IDENT: SyntaxKind = SyntaxKind(0);
+pub const ERROR: SyntaxKind = SyntaxKind(0);
-pub const WHITESPACE: SyntaxKind = SyntaxKind(1);
+pub const IDENT: SyntaxKind = SyntaxKind(1);
+pub const UNDERSCORE: SyntaxKind = SyntaxKind(2);
+pub const WHITESPACE: SyntaxKind = SyntaxKind(3);
-static INFOS: [SyntaxInfo; 2] = [
+static INFOS: [SyntaxInfo; 4] = [
+    SyntaxInfo { name: "ERROR" },
    SyntaxInfo { name: "IDENT" },
+    SyntaxInfo { name: "UNDERSCORE" },
    SyntaxInfo { name: "WHITESPACE" },
 ];
author	Aleksey Kladov <[email protected]>	2017-12-29 21:48:47 +0000
committer	Aleksey Kladov <[email protected]>	2017-12-29 21:48:47 +0000
commit	770ecd4ecd61f04597d9478001848b703d915cce (patch)
tree	6ca644dbc10bb8c183cd174fcd035545ec42f7b3 /src
parent	171baf4c4863f035384c6c63a5f0ce531b01cf9d (diff)