Split string lexing and run rustfmt

author: Adolfo Ochagavía <[email protected]> 2018-11-11 20:00:31 +0000
committer: Adolfo Ochagavía <[email protected]> 2018-11-11 20:00:31 +0000
commit: c96bfe7e2d4465653fe6b0eff053f0dfb48313fa (patch)
tree: 93c56d8301131a01de13b73010f615291eb1d6d4 /crates/ra_syntax/src/string_lexing
parent: 30cd4d5acb7dfd40cea264a926d1c89f0c3522c3 (diff)
6 files changed, 538 insertions, 0 deletions
diff --git a/crates/ra_syntax/src/string_lexing/byte.rs b/crates/ra_syntax/src/string_lexing/byte.rs
new file mode 100644
index 000000000..24424349c
--- /dev/null
+++ b/crates/ra_syntax/src/string_lexing/byte.rs
@@ -0,0 +1,51 @@
+use super::parser::Parser;
+use super::CharComponent;
+pub fn parse_byte_literal(src: &str) -> ByteComponentIterator {
+    ByteComponentIterator {
+        parser: Parser::new(src),
+        has_closing_quote: false,
+    }
+}
+pub struct ByteComponentIterator<'a> {
+    parser: Parser<'a>,
+    pub has_closing_quote: bool,
+}
+impl<'a> Iterator for ByteComponentIterator<'a> {
+    type Item = CharComponent;
+    fn next(&mut self) -> Option<CharComponent> {
+        if self.parser.pos == 0 {
+            assert!(
+                self.parser.advance() == 'b',
+                "Byte literal should start with a `b`"
+            );
+            assert!(
+                self.parser.advance() == '\'',
+                "Byte literal should start with a `b`, followed by a quote"
+            );
+        }
+        if let Some(component) = self.parser.parse_char_component() {
+            return Some(component);
+        }
+        // We get here when there are no char components left to parse
+        if self.parser.peek() == Some('\'') {
+            self.parser.advance();
+            self.has_closing_quote = true;
+        }
+        assert!(
+            self.parser.peek() == None,
+            "byte literal should leave no unparsed input: src = {}, pos = {}, length = {}",
+            self.parser.src,
+            self.parser.pos,
+            self.parser.src.len()
+        );
+        None
+    }
+}
diff --git a/crates/ra_syntax/src/string_lexing/byte_string.rs b/crates/ra_syntax/src/string_lexing/byte_string.rs
new file mode 100644
index 000000000..5b6dda760
--- /dev/null
+++ b/crates/ra_syntax/src/string_lexing/byte_string.rs
@@ -0,0 +1,51 @@
+use super::parser::Parser;
+use super::StringComponent;
+pub fn parse_byte_string_literal(src: &str) -> ByteStringComponentIterator {
+    ByteStringComponentIterator {
+        parser: Parser::new(src),
+        has_closing_quote: false,
+    }
+}
+pub struct ByteStringComponentIterator<'a> {
+    parser: Parser<'a>,
+    pub has_closing_quote: bool,
+}
+impl<'a> Iterator for ByteStringComponentIterator<'a> {
+    type Item = StringComponent;
+    fn next(&mut self) -> Option<StringComponent> {
+        if self.parser.pos == 0 {
+            assert!(
+                self.parser.advance() == 'b',
+                "byte string literal should start with a `b`"
+            );
+            assert!(
+                self.parser.advance() == '"',
+                "byte string literal should start with a `b`, followed by double quotes"
+            );
+        }
+        if let Some(component) = self.parser.parse_string_component() {
+            return Some(component);
+        }
+        // We get here when there are no char components left to parse
+        if self.parser.peek() == Some('"') {
+            self.parser.advance();
+            self.has_closing_quote = true;
+        }
+        assert!(
+            self.parser.peek() == None,
+            "byte string literal should leave no unparsed input: src = {}, pos = {}, length = {}",
+            self.parser.src,
+            self.parser.pos,
+            self.parser.src.len()
+        );
+        None
+    }
+}
diff --git a/crates/ra_syntax/src/string_lexing/char.rs b/crates/ra_syntax/src/string_lexing/char.rs
new file mode 100644
index 000000000..885c03b14
--- /dev/null
+++ b/crates/ra_syntax/src/string_lexing/char.rs
@@ -0,0 +1,176 @@
+use super::parser::Parser;
+use super::CharComponent;
+pub fn parse_char_literal(src: &str) -> CharComponentIterator {
+    CharComponentIterator {
+        parser: Parser::new(src),
+        has_closing_quote: false,
+    }
+}
+pub struct CharComponentIterator<'a> {
+    parser: Parser<'a>,
+    pub has_closing_quote: bool,
+}
+impl<'a> Iterator for CharComponentIterator<'a> {
+    type Item = CharComponent;
+    fn next(&mut self) -> Option<CharComponent> {
+        if self.parser.pos == 0 {
+            assert!(
+                self.parser.advance() == '\'',
+                "char literal should start with a quote"
+            );
+        }
+        if let Some(component) = self.parser.parse_char_component() {
+            return Some(component);
+        }
+        // We get here when there are no char components left to parse
+        if self.parser.peek() == Some('\'') {
+            self.parser.advance();
+            self.has_closing_quote = true;
+        }
+        assert!(
+            self.parser.peek() == None,
+            "char literal should leave no unparsed input: src = {}, pos = {}, length = {}",
+            self.parser.src,
+            self.parser.pos,
+            self.parser.src.len()
+        );
+        None
+    }
+}
+#[cfg(test)]
+mod tests {
+    use rowan::TextRange;
+    use crate::string_lexing::{
+        CharComponent,
+        CharComponentKind::*,
+};
+    fn parse(src: &str) -> (bool, Vec<CharComponent>) {
+        let component_iterator = &mut super::parse_char_literal(src);
+        let components: Vec<_> = component_iterator.collect();
+        (component_iterator.has_closing_quote, components)
+    }
+    fn unclosed_char_component(src: &str) -> CharComponent {
+        let (has_closing_quote, components) = parse(src);
+        assert!(!has_closing_quote, "char should not have closing quote");
+        assert!(components.len() == 1);
+        components[0].clone()
+    }
+    fn closed_char_component(src: &str) -> CharComponent {
+        let (has_closing_quote, components) = parse(src);
+        assert!(has_closing_quote, "char should have closing quote");
+        assert!(
+            components.len() == 1,
+            "Literal: {}\nComponents: {:#?}",
+            src,
+            components
+        );
+        components[0].clone()
+    }
+    fn closed_char_components(src: &str) -> Vec<CharComponent> {
+        let (has_closing_quote, components) = parse(src);
+        assert!(has_closing_quote, "char should have closing quote");
+        components
+    }
+    fn range_closed(src: &str) -> TextRange {
+        TextRange::from_to(1.into(), (src.len() as u32 - 1).into())
+    }
+    fn range_unclosed(src: &str) -> TextRange {
+        TextRange::from_to(1.into(), (src.len() as u32).into())
+    }
+    #[test]
+    fn test_unicode_escapes() {
+        let unicode_escapes = &[r"{DEAD}", "{BEEF}", "{FF}", "{}", ""];
+        for escape in unicode_escapes {
+            let escape_sequence = format!(r"'\u{}'", escape);
+            let component = closed_char_component(&escape_sequence);
+            let expected_range = range_closed(&escape_sequence);
+            assert_eq!(component.kind, UnicodeEscape);
+            assert_eq!(component.range, expected_range);
+        }
+    }
+    #[test]
+    fn test_unicode_escapes_unclosed() {
+        let unicode_escapes = &["{DEAD", "{BEEF", "{FF"];
+        for escape in unicode_escapes {
+            let escape_sequence = format!(r"'\u{}'", escape);
+            let component = unclosed_char_component(&escape_sequence);
+            let expected_range = range_unclosed(&escape_sequence);
+            assert_eq!(component.kind, UnicodeEscape);
+            assert_eq!(component.range, expected_range);
+        }
+    }
+    #[test]
+    fn test_empty_char() {
+        let (has_closing_quote, components) = parse("''");
+        assert!(has_closing_quote, "char should have closing quote");
+        assert!(components.len() == 0);
+    }
+    #[test]
+    fn test_unclosed_char() {
+        let component = unclosed_char_component("'a");
+        assert!(component.kind == CodePoint);
+        assert!(component.range == TextRange::from_to(1.into(), 2.into()));
+    }
+    #[test]
+    fn test_digit_escapes() {
+        let literals = &[r"", r"5", r"55"];
+        for literal in literals {
+            let lit_text = format!(r"'\x{}'", literal);
+            let component = closed_char_component(&lit_text);
+            assert!(component.kind == AsciiCodeEscape);
+            assert!(component.range == range_closed(&lit_text));
+        }
+        // More than 2 digits starts a new codepoint
+        let components = closed_char_components(r"'\x555'");
+        assert!(components.len() == 2);
+        assert!(components[1].kind == CodePoint);
+    }
+    #[test]
+    fn test_ascii_escapes() {
+        let literals = &[
+            r"\'", "\\\"", // equivalent to \"
+            r"\n", r"\r", r"\t", r"\\", r"\0",
+        ];
+        for literal in literals {
+            let lit_text = format!("'{}'", literal);
+            let component = closed_char_component(&lit_text);
+            assert!(component.kind == AsciiEscape);
+            assert!(component.range == range_closed(&lit_text));
+        }
+    }
+    #[test]
+    fn test_no_escapes() {
+        let literals = &['"', 'n', 'r', 't', '0', 'x', 'u'];
+        for &literal in literals {
+            let lit_text = format!("'{}'", literal);
+            let component = closed_char_component(&lit_text);
+            assert!(component.kind == CodePoint);
+            assert!(component.range == range_closed(&lit_text));
+        }
+    }
+}
diff --git a/crates/ra_syntax/src/string_lexing/mod.rs b/crates/ra_syntax/src/string_lexing/mod.rs
new file mode 100644
index 000000000..94853331f
--- /dev/null
+++ b/crates/ra_syntax/src/string_lexing/mod.rs
@@ -0,0 +1,13 @@
+mod parser;
+mod byte;
+mod byte_string;
+mod char;
+mod string;
+pub use self::{
+    byte::parse_byte_literal,
+    byte_string::parse_byte_string_literal,
+    char::parse_char_literal,
+    parser::{CharComponent, CharComponentKind, StringComponent, StringComponentKind},
+    string::parse_string_literal,
+};
diff --git a/crates/ra_syntax/src/string_lexing/parser.rs b/crates/ra_syntax/src/string_lexing/parser.rs
new file mode 100644
index 000000000..4a6d5bc93
--- /dev/null
+++ b/crates/ra_syntax/src/string_lexing/parser.rs
@@ -0,0 +1,201 @@
+use rowan::{TextRange, TextUnit};
+use self::CharComponentKind::*;
+pub struct Parser<'a> {
+    pub(super) src: &'a str,
+    pub(super) pos: usize,
+}
+impl<'a> Parser<'a> {
+    pub fn new(src: &'a str) -> Parser<'a> {
+        Parser { src, pos: 0 }
+    }
+    // Utility methods
+    pub fn peek(&self) -> Option<char> {
+        if self.pos == self.src.len() {
+            return None;
+        }
+        self.src[self.pos..].chars().next()
+    }
+    pub fn advance(&mut self) -> char {
+        let next = self
+            .peek()
+            .expect("cannot advance if end of input is reached");
+        self.pos += next.len_utf8();
+        next
+    }
+    pub fn skip_whitespace(&mut self) {
+        while self.peek().map(|c| c.is_whitespace()) == Some(true) {
+            self.advance();
+        }
+    }
+    pub fn get_pos(&self) -> TextUnit {
+        (self.pos as u32).into()
+    }
+    // Char parsing methods
+    fn parse_unicode_escape(&mut self, start: TextUnit) -> CharComponent {
+        match self.peek() {
+            Some('{') => {
+                self.advance();
+                // Parse anything until we reach `}`
+                while let Some(next) = self.peek() {
+                    self.advance();
+                    if next == '}' {
+                        break;
+                    }
+                }
+                let end = self.get_pos();
+                CharComponent::new(TextRange::from_to(start, end), UnicodeEscape)
+            }
+            Some(_) | None => {
+                let end = self.get_pos();
+                CharComponent::new(TextRange::from_to(start, end), UnicodeEscape)
+            }
+        }
+    }
+    fn parse_ascii_code_escape(&mut self, start: TextUnit) -> CharComponent {
+        let code_start = self.get_pos();
+        while let Some(next) = self.peek() {
+            if next == '\'' || (self.get_pos() - code_start == 2.into()) {
+                break;
+            }
+            self.advance();
+        }
+        let end = self.get_pos();
+        CharComponent::new(TextRange::from_to(start, end), AsciiCodeEscape)
+    }
+    fn parse_escape(&mut self, start: TextUnit) -> CharComponent {
+        if self.peek().is_none() {
+            return CharComponent::new(TextRange::from_to(start, start), AsciiEscape);
+        }
+        let next = self.advance();
+        let end = self.get_pos();
+        let range = TextRange::from_to(start, end);
+        match next {
+            'x' => self.parse_ascii_code_escape(start),
+            'u' => self.parse_unicode_escape(start),
+            _ => CharComponent::new(range, AsciiEscape),
+        }
+    }
+    pub fn parse_char_component(&mut self) -> Option<CharComponent> {
+        let next = self.peek()?;
+        // Ignore character close
+        if next == '\'' {
+            return None;
+        }
+        let start = self.get_pos();
+        self.advance();
+        if next == '\\' {
+            Some(self.parse_escape(start))
+        } else {
+            let end = self.get_pos();
+            Some(CharComponent::new(
+                TextRange::from_to(start, end),
+                CodePoint,
+            ))
+        }
+    }
+    pub fn parse_ignore_newline(&mut self, start: TextUnit) -> Option<StringComponent> {
+        // In string literals, when a `\` occurs immediately before the newline, the `\`,
+        // the newline, and all whitespace at the beginning of the next line are ignored
+        match self.peek() {
+            Some('\n') | Some('\r') => {
+                self.skip_whitespace();
+                Some(StringComponent::new(
+                    TextRange::from_to(start, self.get_pos()),
+                    StringComponentKind::IgnoreNewline,
+                ))
+            }
+            _ => None,
+        }
+    }
+    pub fn parse_string_component(&mut self) -> Option<StringComponent> {
+        let next = self.peek()?;
+        // Ignore string close
+        if next == '"' {
+            return None;
+        }
+        let start = self.get_pos();
+        self.advance();
+        if next == '\\' {
+            // Strings can use `\` to ignore newlines, so we first try to parse one of those
+            // before falling back to parsing char escapes
+            self.parse_ignore_newline(start).or_else(|| {
+                let char_component = self.parse_escape(start);
+                Some(StringComponent::new(
+                    char_component.range,
+                    StringComponentKind::Char(char_component.kind),
+                ))
+            })
+        } else {
+            let end = self.get_pos();
+            Some(StringComponent::new(
+                TextRange::from_to(start, end),
+                StringComponentKind::Char(CodePoint),
+            ))
+        }
+    }
+}
+#[derive(Debug, Eq, PartialEq, Clone)]
+pub struct StringComponent {
+    pub range: TextRange,
+    pub kind: StringComponentKind,
+}
+impl StringComponent {
+    fn new(range: TextRange, kind: StringComponentKind) -> StringComponent {
+        StringComponent { range, kind }
+    }
+}
+#[derive(Debug, Eq, PartialEq, Clone)]
+pub enum StringComponentKind {
+    IgnoreNewline,
+    Char(CharComponentKind),
+}
+#[derive(Debug, Eq, PartialEq, Clone)]
+pub struct CharComponent {
+    pub range: TextRange,
+    pub kind: CharComponentKind,
+}
+impl CharComponent {
+    fn new(range: TextRange, kind: CharComponentKind) -> CharComponent {
+        CharComponent { range, kind }
+    }
+}
+#[derive(Debug, Eq, PartialEq, Clone)]
+pub enum CharComponentKind {
+    CodePoint,
+    AsciiEscape,
+    AsciiCodeEscape,
+    UnicodeEscape,
+}
diff --git a/crates/ra_syntax/src/string_lexing/string.rs b/crates/ra_syntax/src/string_lexing/string.rs
new file mode 100644
index 000000000..1b23029c6
--- /dev/null
+++ b/crates/ra_syntax/src/string_lexing/string.rs
@@ -0,0 +1,46 @@
+use super::parser::Parser;
+use super::StringComponent;
+pub fn parse_string_literal(src: &str) -> StringComponentIterator {
+    StringComponentIterator {
+        parser: Parser::new(src),
+        has_closing_quote: false,
+    }
+}
+pub struct StringComponentIterator<'a> {
+    parser: Parser<'a>,
+    pub has_closing_quote: bool,
+}
+impl<'a> Iterator for StringComponentIterator<'a> {
+    type Item = StringComponent;
+    fn next(&mut self) -> Option<StringComponent> {
+        if self.parser.pos == 0 {
+            assert!(
+                self.parser.advance() == '"',
+                "string literal should start with double quotes"
+            );
+        }
+        if let Some(component) = self.parser.parse_string_component() {
+            return Some(component);
+        }
+        // We get here when there are no char components left to parse
+        if self.parser.peek() == Some('"') {
+            self.parser.advance();
+            self.has_closing_quote = true;
+        }
+        assert!(
+            self.parser.peek() == None,
+            "string literal should leave no unparsed input: src = {}, pos = {}, length = {}",
+            self.parser.src,
+            self.parser.pos,
+            self.parser.src.len()
+        );
+        None
+    }
+}
author	Adolfo Ochagavía <[email protected]>	2018-11-11 20:00:31 +0000
committer	Adolfo Ochagavía <[email protected]>	2018-11-11 20:00:31 +0000
commit	c96bfe7e2d4465653fe6b0eff053f0dfb48313fa (patch)
tree	93c56d8301131a01de13b73010f615291eb1d6d4 /crates/ra_syntax/src/string_lexing
parent	30cd4d5acb7dfd40cea264a926d1c89f0c3522c3 (diff)

diff --git a/crates/ra_syntax/src/string_lexing/byte.rs b/crates/ra_syntax/src/string_lexing/byte.rs new file mode 100644 index 000000000..24424349c --- /dev/null +++ b/crates/ra_syntax/src/string_lexing/byte.rs
@@ -0,0 +1,51 @@
	1	use super::parser::Parser;
	2	use super::CharComponent;
	3
	4	pub fn parse_byte_literal(src: &str) -> ByteComponentIterator {
	5	ByteComponentIterator {
	6	parser: Parser::new(src),
	7	has_closing_quote: false,
	8	}
	9	}
	10
	11	pub struct ByteComponentIterator<'a> {
	12	parser: Parser<'a>,
	13	pub has_closing_quote: bool,
	14	}
	15
	16	impl<'a> Iterator for ByteComponentIterator<'a> {
	17	type Item = CharComponent;
	18	fn next(&mut self) -> Option<CharComponent> {
	19	if self.parser.pos == 0 {
	20	assert!(
	21	self.parser.advance() == 'b',
	22	"Byte literal should start with a `b`"
	23	);
	24
	25	assert!(
	26	self.parser.advance() == '\'',
	27	"Byte literal should start with a `b`, followed by a quote"
	28	);
	29	}
	30
	31	if let Some(component) = self.parser.parse_char_component() {
	32	return Some(component);
	33	}
	34
	35	// We get here when there are no char components left to parse
	36	if self.parser.peek() == Some('\'') {
	37	self.parser.advance();
	38	self.has_closing_quote = true;
	39	}
	40
	41	assert!(
	42	self.parser.peek() == None,
	43	"byte literal should leave no unparsed input: src = {}, pos = {}, length = {}",
	44	self.parser.src,
	45	self.parser.pos,
	46	self.parser.src.len()
	47	);
	48
	49	None
	50	}
	51	}


diff --git a/crates/ra_syntax/src/string_lexing/byte_string.rs b/crates/ra_syntax/src/string_lexing/byte_string.rs new file mode 100644 index 000000000..5b6dda760 --- /dev/null +++ b/crates/ra_syntax/src/string_lexing/byte_string.rs
@@ -0,0 +1,51 @@
	1	use super::parser::Parser;
	2	use super::StringComponent;
	3
	4	pub fn parse_byte_string_literal(src: &str) -> ByteStringComponentIterator {
	5	ByteStringComponentIterator {
	6	parser: Parser::new(src),
	7	has_closing_quote: false,
	8	}
	9	}
	10
	11	pub struct ByteStringComponentIterator<'a> {
	12	parser: Parser<'a>,
	13	pub has_closing_quote: bool,
	14	}
	15
	16	impl<'a> Iterator for ByteStringComponentIterator<'a> {
	17	type Item = StringComponent;
	18	fn next(&mut self) -> Option<StringComponent> {
	19	if self.parser.pos == 0 {
	20	assert!(
	21	self.parser.advance() == 'b',
	22	"byte string literal should start with a `b`"
	23	);
	24
	25	assert!(
	26	self.parser.advance() == '"',
	27	"byte string literal should start with a `b`, followed by double quotes"
	28	);
	29	}
	30
	31	if let Some(component) = self.parser.parse_string_component() {
	32	return Some(component);
	33	}
	34
	35	// We get here when there are no char components left to parse
	36	if self.parser.peek() == Some('"') {
	37	self.parser.advance();
	38	self.has_closing_quote = true;
	39	}
	40
	41	assert!(
	42	self.parser.peek() == None,
	43	"byte string literal should leave no unparsed input: src = {}, pos = {}, length = {}",
	44	self.parser.src,
	45	self.parser.pos,
	46	self.parser.src.len()
	47	);
	48
	49	None
	50	}
	51	}


diff --git a/crates/ra_syntax/src/string_lexing/char.rs b/crates/ra_syntax/src/string_lexing/char.rs new file mode 100644 index 000000000..885c03b14 --- /dev/null +++ b/crates/ra_syntax/src/string_lexing/char.rs
@@ -0,0 +1,176 @@
	1	use super::parser::Parser;
	2	use super::CharComponent;
	3
	4	pub fn parse_char_literal(src: &str) -> CharComponentIterator {
	5	CharComponentIterator {
	6	parser: Parser::new(src),
	7	has_closing_quote: false,
	8	}
	9	}
	10
	11	pub struct CharComponentIterator<'a> {
	12	parser: Parser<'a>,
	13	pub has_closing_quote: bool,
	14	}
	15
	16	impl<'a> Iterator for CharComponentIterator<'a> {
	17	type Item = CharComponent;
	18	fn next(&mut self) -> Option<CharComponent> {
	19	if self.parser.pos == 0 {
	20	assert!(
	21	self.parser.advance() == '\'',
	22	"char literal should start with a quote"
	23	);
	24	}
	25
	26	if let Some(component) = self.parser.parse_char_component() {
	27	return Some(component);
	28	}
	29
	30	// We get here when there are no char components left to parse
	31	if self.parser.peek() == Some('\'') {
	32	self.parser.advance();
	33	self.has_closing_quote = true;
	34	}
	35
	36	assert!(
	37	self.parser.peek() == None,
	38	"char literal should leave no unparsed input: src = {}, pos = {}, length = {}",
	39	self.parser.src,
	40	self.parser.pos,
	41	self.parser.src.len()
	42	);
	43
	44	None
	45	}
	46	}
	47
	48	#[cfg(test)]
	49	mod tests {
	50	use rowan::TextRange;
	51	use crate::string_lexing::{
	52	CharComponent,
	53	CharComponentKind::*,
	54	};
	55
	56	fn parse(src: &str) -> (bool, Vec<CharComponent>) {
	57	let component_iterator = &mut super::parse_char_literal(src);
	58	let components: Vec<_> = component_iterator.collect();
	59	(component_iterator.has_closing_quote, components)
	60	}
	61
	62	fn unclosed_char_component(src: &str) -> CharComponent {
	63	let (has_closing_quote, components) = parse(src);
	64	assert!(!has_closing_quote, "char should not have closing quote");
	65	assert!(components.len() == 1);
	66	components[0].clone()
	67	}
	68
	69	fn closed_char_component(src: &str) -> CharComponent {
	70	let (has_closing_quote, components) = parse(src);
	71	assert!(has_closing_quote, "char should have closing quote");
	72	assert!(
	73	components.len() == 1,
	74	"Literal: {}\nComponents: {:#?}",
	75	src,
	76	components
	77	);
	78	components[0].clone()
	79	}
	80
	81	fn closed_char_components(src: &str) -> Vec<CharComponent> {
	82	let (has_closing_quote, components) = parse(src);
	83	assert!(has_closing_quote, "char should have closing quote");
	84	components
	85	}
	86
	87	fn range_closed(src: &str) -> TextRange {
	88	TextRange::from_to(1.into(), (src.len() as u32 - 1).into())
	89	}
	90
	91	fn range_unclosed(src: &str) -> TextRange {
	92	TextRange::from_to(1.into(), (src.len() as u32).into())
	93	}
	94
	95	#[test]
	96	fn test_unicode_escapes() {
	97	let unicode_escapes = &[r"{DEAD}", "{BEEF}", "{FF}", "{}", ""];
	98	for escape in unicode_escapes {
	99	let escape_sequence = format!(r"'\u{}'", escape);
	100	let component = closed_char_component(&escape_sequence);
	101	let expected_range = range_closed(&escape_sequence);
	102	assert_eq!(component.kind, UnicodeEscape);
	103	assert_eq!(component.range, expected_range);
	104	}
	105	}
	106
	107	#[test]
	108	fn test_unicode_escapes_unclosed() {
	109	let unicode_escapes = &["{DEAD", "{BEEF", "{FF"];
	110	for escape in unicode_escapes {
	111	let escape_sequence = format!(r"'\u{}'", escape);
	112	let component = unclosed_char_component(&escape_sequence);
	113	let expected_range = range_unclosed(&escape_sequence);
	114	assert_eq!(component.kind, UnicodeEscape);
	115	assert_eq!(component.range, expected_range);
	116	}
	117	}
	118
	119	#[test]
	120	fn test_empty_char() {
	121	let (has_closing_quote, components) = parse("''");
	122	assert!(has_closing_quote, "char should have closing quote");
	123	assert!(components.len() == 0);
	124	}
	125
	126	#[test]
	127	fn test_unclosed_char() {
	128	let component = unclosed_char_component("'a");
	129	assert!(component.kind == CodePoint);
	130	assert!(component.range == TextRange::from_to(1.into(), 2.into()));
	131	}
	132
	133	#[test]
	134	fn test_digit_escapes() {
	135	let literals = &[r"", r"5", r"55"];
	136
	137	for literal in literals {
	138	let lit_text = format!(r"'\x{}'", literal);
	139	let component = closed_char_component(&lit_text);
	140	assert!(component.kind == AsciiCodeEscape);
	141	assert!(component.range == range_closed(&lit_text));
	142	}
	143
	144	// More than 2 digits starts a new codepoint
	145	let components = closed_char_components(r"'\x555'");
	146	assert!(components.len() == 2);
	147	assert!(components[1].kind == CodePoint);
	148	}
	149
	150	#[test]
	151	fn test_ascii_escapes() {
	152	let literals = &[
	153	r"\'", "\\\"", // equivalent to \"
	154	r"\n", r"\r", r"\t", r"\\", r"\0",
	155	];
	156
	157	for literal in literals {
	158	let lit_text = format!("'{}'", literal);
	159	let component = closed_char_component(&lit_text);
	160	assert!(component.kind == AsciiEscape);
	161	assert!(component.range == range_closed(&lit_text));
	162	}
	163	}
	164
	165	#[test]
	166	fn test_no_escapes() {
	167	let literals = &['"', 'n', 'r', 't', '0', 'x', 'u'];
	168
	169	for &literal in literals {
	170	let lit_text = format!("'{}'", literal);
	171	let component = closed_char_component(&lit_text);
	172	assert!(component.kind == CodePoint);
	173	assert!(component.range == range_closed(&lit_text));
	174	}
	175	}
	176	}


diff --git a/crates/ra_syntax/src/string_lexing/mod.rs b/crates/ra_syntax/src/string_lexing/mod.rs new file mode 100644 index 000000000..94853331f --- /dev/null +++ b/crates/ra_syntax/src/string_lexing/mod.rs
@@ -0,0 +1,13 @@
	1	mod parser;
	2	mod byte;
	3	mod byte_string;
	4	mod char;
	5	mod string;
	6
	7	pub use self::{
	8	byte::parse_byte_literal,
	9	byte_string::parse_byte_string_literal,
	10	char::parse_char_literal,
	11	parser::{CharComponent, CharComponentKind, StringComponent, StringComponentKind},
	12	string::parse_string_literal,
	13	};


diff --git a/crates/ra_syntax/src/string_lexing/parser.rs b/crates/ra_syntax/src/string_lexing/parser.rs new file mode 100644 index 000000000..4a6d5bc93 --- /dev/null +++ b/crates/ra_syntax/src/string_lexing/parser.rs
@@ -0,0 +1,201 @@
	1	use rowan::{TextRange, TextUnit};
	2
	3	use self::CharComponentKind::*;
	4
	5	pub struct Parser<'a> {
	6	pub(super) src: &'a str,
	7	pub(super) pos: usize,
	8	}
	9
	10	impl<'a> Parser<'a> {
	11	pub fn new(src: &'a str) -> Parser<'a> {
	12	Parser { src, pos: 0 }
	13	}
	14
	15	// Utility methods
	16
	17	pub fn peek(&self) -> Option<char> {
	18	if self.pos == self.src.len() {
	19	return None;
	20	}
	21
	22	self.src[self.pos..].chars().next()
	23	}
	24
	25	pub fn advance(&mut self) -> char {
	26	let next = self
	27	.peek()
	28	.expect("cannot advance if end of input is reached");
	29	self.pos += next.len_utf8();
	30	next
	31	}
	32
	33	pub fn skip_whitespace(&mut self) {
	34	while self.peek().map(\|c\| c.is_whitespace()) == Some(true) {
	35	self.advance();
	36	}
	37	}
	38
	39	pub fn get_pos(&self) -> TextUnit {
	40	(self.pos as u32).into()
	41	}
	42
	43	// Char parsing methods
	44
	45	fn parse_unicode_escape(&mut self, start: TextUnit) -> CharComponent {
	46	match self.peek() {
	47	Some('{') => {
	48	self.advance();
	49
	50	// Parse anything until we reach `}`
	51	while let Some(next) = self.peek() {
	52	self.advance();
	53	if next == '}' {
	54	break;
	55	}
	56	}
	57
	58	let end = self.get_pos();
	59	CharComponent::new(TextRange::from_to(start, end), UnicodeEscape)
	60	}
	61	Some(_) \| None => {
	62	let end = self.get_pos();
	63	CharComponent::new(TextRange::from_to(start, end), UnicodeEscape)
	64	}
	65	}
	66	}
	67
	68	fn parse_ascii_code_escape(&mut self, start: TextUnit) -> CharComponent {
	69	let code_start = self.get_pos();
	70	while let Some(next) = self.peek() {
	71	if next == '\'' \|\| (self.get_pos() - code_start == 2.into()) {
	72	break;
	73	}
	74
	75	self.advance();
	76	}
	77
	78	let end = self.get_pos();
	79	CharComponent::new(TextRange::from_to(start, end), AsciiCodeEscape)
	80	}
	81
	82	fn parse_escape(&mut self, start: TextUnit) -> CharComponent {
	83	if self.peek().is_none() {
	84	return CharComponent::new(TextRange::from_to(start, start), AsciiEscape);
	85	}
	86
	87	let next = self.advance();
	88	let end = self.get_pos();
	89	let range = TextRange::from_to(start, end);
	90	match next {
	91	'x' => self.parse_ascii_code_escape(start),
	92	'u' => self.parse_unicode_escape(start),
	93	_ => CharComponent::new(range, AsciiEscape),
	94	}
	95	}
	96
	97	pub fn parse_char_component(&mut self) -> Option<CharComponent> {
	98	let next = self.peek()?;
	99
	100	// Ignore character close
	101	if next == '\'' {
	102	return None;
	103	}
	104
	105	let start = self.get_pos();
	106	self.advance();
	107
	108	if next == '\\' {
	109	Some(self.parse_escape(start))
	110	} else {
	111	let end = self.get_pos();
	112	Some(CharComponent::new(
	113	TextRange::from_to(start, end),
	114	CodePoint,
	115	))
	116	}
	117	}
	118
	119	pub fn parse_ignore_newline(&mut self, start: TextUnit) -> Option<StringComponent> {
	120	// In string literals, when a `\` occurs immediately before the newline, the `\`,
	121	// the newline, and all whitespace at the beginning of the next line are ignored
	122	match self.peek() {
	123	Some('\n') \| Some('\r') => {
	124	self.skip_whitespace();
	125	Some(StringComponent::new(
	126	TextRange::from_to(start, self.get_pos()),
	127	StringComponentKind::IgnoreNewline,
	128	))
	129	}
	130	_ => None,
	131	}
	132	}
	133
	134	pub fn parse_string_component(&mut self) -> Option<StringComponent> {
	135	let next = self.peek()?;
	136
	137	// Ignore string close
	138	if next == '"' {
	139	return None;
	140	}
	141
	142	let start = self.get_pos();
	143	self.advance();
	144
	145	if next == '\\' {
	146	// Strings can use `\` to ignore newlines, so we first try to parse one of those
	147	// before falling back to parsing char escapes
	148	self.parse_ignore_newline(start).or_else(\|\| {
	149	let char_component = self.parse_escape(start);
	150	Some(StringComponent::new(
	151	char_component.range,
	152	StringComponentKind::Char(char_component.kind),
	153	))
	154	})
	155	} else {
	156	let end = self.get_pos();
	157	Some(StringComponent::new(
	158	TextRange::from_to(start, end),
	159	StringComponentKind::Char(CodePoint),
	160	))
	161	}
	162	}
	163	}
	164
	165	#[derive(Debug, Eq, PartialEq, Clone)]
	166	pub struct StringComponent {
	167	pub range: TextRange,
	168	pub kind: StringComponentKind,
	169	}
	170
	171	impl StringComponent {
	172	fn new(range: TextRange, kind: StringComponentKind) -> StringComponent {
	173	StringComponent { range, kind }
	174	}
	175	}
	176
	177	#[derive(Debug, Eq, PartialEq, Clone)]
	178	pub enum StringComponentKind {
	179	IgnoreNewline,
	180	Char(CharComponentKind),
	181	}
	182
	183	#[derive(Debug, Eq, PartialEq, Clone)]
	184	pub struct CharComponent {
	185	pub range: TextRange,
	186	pub kind: CharComponentKind,
	187	}
	188
	189	impl CharComponent {
	190	fn new(range: TextRange, kind: CharComponentKind) -> CharComponent {
	191	CharComponent { range, kind }
	192	}
	193	}
	194
	195	#[derive(Debug, Eq, PartialEq, Clone)]
	196	pub enum CharComponentKind {
	197	CodePoint,
	198	AsciiEscape,
	199	AsciiCodeEscape,
	200	UnicodeEscape,
	201	}


diff --git a/crates/ra_syntax/src/string_lexing/string.rs b/crates/ra_syntax/src/string_lexing/string.rs new file mode 100644 index 000000000..1b23029c6 --- /dev/null +++ b/crates/ra_syntax/src/string_lexing/string.rs
@@ -0,0 +1,46 @@
	1	use super::parser::Parser;
	2	use super::StringComponent;
	3
	4	pub fn parse_string_literal(src: &str) -> StringComponentIterator {
	5	StringComponentIterator {
	6	parser: Parser::new(src),
	7	has_closing_quote: false,
	8	}
	9	}
	10
	11	pub struct StringComponentIterator<'a> {
	12	parser: Parser<'a>,
	13	pub has_closing_quote: bool,
	14	}
	15
	16	impl<'a> Iterator for StringComponentIterator<'a> {
	17	type Item = StringComponent;
	18	fn next(&mut self) -> Option<StringComponent> {
	19	if self.parser.pos == 0 {
	20	assert!(
	21	self.parser.advance() == '"',
	22	"string literal should start with double quotes"
	23	);
	24	}
	25
	26	if let Some(component) = self.parser.parse_string_component() {
	27	return Some(component);
	28	}
	29
	30	// We get here when there are no char components left to parse
	31	if self.parser.peek() == Some('"') {
	32	self.parser.advance();
	33	self.has_closing_quote = true;
	34	}
	35
	36	assert!(
	37	self.parser.peek() == None,
	38	"string literal should leave no unparsed input: src = {}, pos = {}, length = {}",
	39	self.parser.src,
	40	self.parser.pos,
	41	self.parser.src.len()
	42	);
	43
	44	None
	45	}
	46	}