stay hungry stay foolish

\r\n,\n,\r的历史及在不同系统下的区别

“回车”与”换行”的历史由来

  在计算机还没有出现之前,有一种叫做电传打字机(Teletype Model 33)的玩意,每秒钟可以打10个字符。但是它有一个问题,就是打完一行换行的时候,要用去0.2秒,正好可以打两个字符。要是在这0.2秒里面,又有新的字符传过来,那么这个字符将丢失。

  于是,研制人员想了个办法解决这个问题,就是在每行后面加两个表示结束的字符。一个叫做“回车”,比喻打印头定位在左边界;另一个叫做“换行”,比喻打字机把纸向下移一行,在打印的时候丢失的这两个标记字符正好可以拟补打印机的缺陷,这样就能避免丢失有效字符了。这就是“换行”和“回车”的来历,从它们的英语名字上也可以看出一二。

  后来,计算机发明了,这两个概念也就被般到了计算机上。那时,存储器很贵,一些科学家认为在每行结尾加两个字符太浪费了,加一个就可以。于是,就出现了分歧。Unix系统里,每行结尾只有“<换行>”,即“\n”;Windows系统里面,每行结尾是“<回车><换行>”,即“\r\n”;Mac系统里,每行结尾是“<回车>”,即“\r”。一个直接后果是,Unix/Mac系统下的文件在Windows里打开的话,所有文字会变成一行;而Windows里的文件在Unix/Mac下打开的话,在每行的结尾可能会多出一个符号^M(在Unix下多出一个\r,在Mac下多出一个\n)。

window下,编辑文件

1.txt:

这里写图片描述

用16进制编辑器打开:

这里写图片描述

可以看到,生成了1(32)和1之间插入了\r(0d)\n(0a)

不过在window下,用浏览器运行以下页面:

<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<title>Document</title>
	<script type="text/javascript">
		function test(){
			var t = document.getElementsByTagName("textarea")[0].value;
			console.log(t.length);//3
			console.log(t.replace(/\r\n/mg,'').length);//3
			console.log(t.replace(/\n/mg,'').length);//2
			console.log(t.replace(/\r/mg,'').length);//3
			console.log("-----------------------")
			var span = document.getElementsByTagName("span")[0].innerHTML;
			console.log(span.length);//3
			console.log(span.replace(/\r\n/mg,'').length);//3
			console.log(span.replace(/\n/mg,'').length);//2
			console.log(span.replace(/\r/mg,'').length);//3
		}
	</script>
</head>
<body>
	<textarea onchange="test();"></textarea>
<span>1
2</span>
</body>
</html>

得到的效果是这样的:

这里写图片描述

浏览器在解析处理的时候会自动把\r去掉。

最后,为了保险起见,我们编程的时候如果要匹配换行,最好三者都要匹配(\r\n|\r|\r)。