从零开始的编译原理(1):文法理论
一、前言 一个人进行推理时…… 这种过程如果是用语词进行的,他便是在心中把各部分的名词序列连成一个整体的名词或从整体及一个部分的名词求得另一个部分的名词。 —— 托马斯·霍布斯《利维坦》第一部分 论人类 第五章 论推理与学术 当霍布斯将他的机械唯物主义运用于人的思想时,语言便成为了人脑的齿轮。人的精神当然并非机械,可这种认识却也敏锐地察觉到了语言的一些本质,那就是语言是一些规则,通过这些规则的拼凑,我们得以表述我们的思想。如今,这种规则我们称之为文法。 语言学家的一部分工作是从现有的自然语言中总结文法,让语言成为机械。但是这并不是我们的重点,我们所要探索的是一个更加年轻的领域,这个领域的研究从机械出发,却要去创造千变万化的语言,让机械成为语言。 二、自然语言的文法:一个例子 但是要开始我们的旅程,还需要从自然语言开始。当我们听别人说话,或者阅读一段句子的时候,我们究竟在理解什么?比如说,现在有这样一句话,你知道我的叉子被放在哪里吗。让我们尝试理解这个句子。 这部分默认各位已有了对词性的基本认识,至少知道名词、形容词、动词、副词等等的大致含义。否则的话,这部分内容实难描述。 另外注意对于自然语言的相关表述可能并不完全符合人的认知的真实情况,这一部分只是为了方便理解。 首先需要明确一点,抛开我们所有的经验来看,语言就是符号的序列。也就是说语言是在时间上存在先后顺序的许多符号。这意味着我们的理解过程必定是从前到后的。对于上述句子来说,我们先读到 你,之后才能读到 知,再之后 道、我 等等。 另外,在这样不断读到一个个符号的时候,我们也并非单纯的按照字母或音节分别认识,而是首先明确哪些音节或符号共同组成相同含义,并将其作为一个单词来识别。在自然语言处理领域,这称为“分词”;而对于编译来说,这称为“词法分析”。 我们理解这个句子的过程可能是这样的: 读到 你,这指代一个事物,为名词 读到 知道,这指代一个行为,为动词 读到 我的,这描述了事物的属性,为形容词 读到 叉子,这指代了另一个事物,为名词 形容词 我的 和名词 叉子 组成 我的叉子,也是个名词 读到 被放,这是动词。 读到 在,这表达了一个关系,为介词 读到 哪里,这是名词 介词 在 和 名词 哪里 组成 在哪里,用于描述行为,为副词 动词 被放 和副词 在哪里 组成 被放在哪里,也是个动词。 名词 我的叉子 和动词 被放在哪里 组成 我的叉子被放在哪里,用于陈述一个事实,称为陈述句 名词 你、动词 知道 和句子 我的叉子被放在哪里 组成了 你知道我的叉子被放在哪里,是另一个陈述句。 读到 吗,这是一个疑问语气词,用于表达疑问。 句子 你知道我的叉子被放在哪里 和疑问语气词 吗 组成 你知道我的叉子被放在哪里吗,表达对被陈述的事情真实性的询问,是疑问句。 读完了所有的单词,最后得到的疑问句就是整个句子。 在上述过程中,我们不断将小的句子成分归纳为大的句子成分,在这样归纳的过程中,我们将句子中的每个单词相互关联起来,最终理解句子表达的含义。从中我们可以知道这是一个疑问,想要得到的回答是“你”与“我的叉子被放”两个事物间是否存在“知道”的关系等等。(这样说话好别扭。)...