大家好,欢迎来到IT知识分享网。
研究过程
句法规则涵盖的信息
两种不同的句法结构
依存结构
短语结构
将词组成对应的短语结构,然后将各种嵌套的短语结构混合在一起就变成了句子
句法分析
两个目的
- 判断输入的句子是否符合语法
- 识别句子各部分语法元素,同时生成句法树
两个准备
- 语言的形式化描述
- 句法分析技术
形式语言(详细内容在编译原理中)
形式语言的定义
G = ( N , ∑ , P , S ) G = (N,\sum,P,S) G=(N,∑,P,S),其中 N 是非终结符集合,sum 是终结符集合,P 是规则集合 P = ( α → β ) P = (\alpha \to \beta) P=(α→β),alpha 中至少包含一个非终结符,S 为起始符
推导的定义
如果 α β γ \alpha\beta\gamma αβγ是总词汇表克林闭包中的符号串,且 ( β → ϵ ) ∈ P (\beta \to \epsilon) \in P (β→ϵ)∈P,故 α β γ = > G α ϵ γ \alpha\beta\gamma =>_G \alpha\epsilon\gamma αβγ=>Gαϵγ
$=>^+ 表示传递闭包,也就是 表示传递闭包,也就是 表示传递闭包,也就是X_n 到 到 到X_{n+1}$经过 n(n>=1)步推导
$=>^* 表示自反和传递闭包,也就是 表示自反和传递闭包,也就是 表示自反和传递闭包,也就是X_n 到 到 到X_{n+1}$经过 n(n>=0)步推导
最左,最右和规范推导
没步推导只改写最左边的非终结符,称为最左推导,同理有最右推导,最右推导称为规范推导
句型与句子
α β γ \alpha\beta\gamma αβγ是一个句型,若该句型中不包含非终结符,则称为句子,所有句子构成的集合就被称为语言,记为 L(G),形式化描述为: L ( G ) = { x ∣ x ∈ ∑ , S = > G + x } L(G) = \{x|x \in \sum, S =>^+_Gx \} L(G)={
x∣x∈∑,S=>G+x}
正则文法
A → B x A \to B x A→Bx左线性正则文法,A/B 为非终结符,x 为终结符
A → x B A \to xB A→xB右线性正则文法
上下文无关文法(2 型文法)
A → α A \to \alpha A→α,其中 A 为非终结符,alpha 为单词表的克林闭包
上下文有关文法(1 型)
α A β → α γ β \alpha A \beta \to \alpha \gamma \beta αAβ→αγβ,其中 A 为非终结符,其他几项都属于单词表的克林闭包,gamma 至少包含了一个字符
无约束文法
最基础的 α → β \alpha \to \beta α→β
上下文无关文法的二义性
形式语法
用来规定语言中允许出现的结构的形式化说明,这里我们重点介绍 CFG 上下文无关文法
上下文无关文法的语法 G
CFG 的特性
Chomsky 范式
应用句法规则构建语法树
Cocke-Kasami-Younger Parsing
CYK 的识别矩阵
构造步骤
首先将 t 0 , 0 = 0 t_{0,0} = 0 t0,0=0,然后往主对角线填上所有单词(非终结符)
然后考虑 t i , i + 1 , i = 0 , . . . , n − 1 t_{i,i+1},i = 0,…,n-1 ti,i+1,i=0,…,n−1这一对角线,对于输入句子 x = w 1 w 2 . . . w n x = w_1w_2…w_n x=w1w2…wn开始分析
如果有 A → w i + 1 , 则 t i , i + 1 = A A \to w_{i+1}, 则 t_{i,i+1} = A A→wi+1,则ti,i+1=A,即,对于主对角线上每一个终结符,所有可能推导出他的非终结符写在右边主对角线的上方
然后一层一层向上叠加, A → B C , B ∈ t i , k , C ∈ t k , j = > A ∈ t i , j A \to BC, B \in t_{i,k}, C \in t_{k,j} => A \in t_{i,j} A→BC,B∈ti,k,C∈tk,j=>A∈ti,j
判断句子 x 是由文法 G 产生的充要条件就是 t(0,n)=S
优缺点
几种常见的歧义
词性歧义/名词修饰歧义(形容词修饰的究竟是哪个名词)/介词短语修饰歧义(动作的状态修饰的对象不明)/边界歧义(Jim and Jane from LA)
PCFG 概率上下文无关文法
treebank
参数
假设
上下文无关: P ( N k l j → γ ∣ w o r d s o u t s i d e ( w k , w i ) ) = P ( N k l j → γ ) P(N^j_{kl} \to \gamma|wordsoutside(w_k,w_i)) = P(N^j_{kl} \to \gamma) P(Nklj→γ∣wordsoutside(wk,wi))=P(Nklj→γ)
祖先节点无关: P ( N k l j → γ ∣ a n c e s t o r N o d e ) = P ( N k l j → γ ) P(N^j_{kl} \to \gamma|ancestorNode) = P(N^j_{kl} \to \gamma) P(Nklj→γ∣ancestorNode)=P(Nklj→γ)
HMM 与 PCFG 的比较
定义动态规划表
π ( i , j . , X ) \pi(i,j.,X) π(i,j.,X)由非终结符 X 推导出子串的最大概率
目标是计算: max t ∈ τ ( s ) p ( t ) = π ( 1 , n , S ) \max\limits_{t \in \tau(s)}p(t) = \pi(1,n,S) t∈τ(s)maxp(t)=π(1,n,S)
取 max,可以得到是 V P → V P , P P VP \to VP,PP VP→VP,PP
句法分析的程序化表达
句法分析的评价
依存语法分析
在依存语法理论中,处于支配地位的成分称为支配者,而处于被支配地位的称为从属者;用有向边来表示依存关系,支配者处于发出端,从属者处于接收端
依存树
子节点依存于父节点
依存投射树
依存语法要求
依存句法分析器
分析算法
生成式的分析方法
采用联合概率模型 S c o r e ( x , y ∣ θ ) Score(x,y|\theta) Score(x,y∣θ),生成一系列依存句法树,并且对每一个进行概率打分,最后选择分数最高的分析结果作为输出
e.g.二元词汇亲和模型&选择偏好模型
递归生成模型:每个词的左子节点和右子节点由各自的马尔可夫模型产生,左子节点从右向左产生,直到无法继续获得子节点;右子节点从左向右产生,直到无法获得子节点。这一方法是自顶向下的递归方法。
判别式的分析方法
采用条件概率模型 S c o r e ( x ∣ y , θ ) Score(x|y,\theta) Score(x∣y,θ),使目标函数 ∏ i = 1 n S c o r e ( x i ∣ y i , θ ) \prod\limits^n_{i=1}Score(x_i|y_i,\theta) i=1∏nScore(xi∣yi,θ)最大的 theta 作为模型的参数
e.g.最大生成树模型:整棵句法树的打分是树中各条边打分的加权和
S ( x , y ) = ∑ w ⋅ f ( i , j ) S(x,y) = \sum w \cdot f(i,j) S(x,y)=∑w⋅f(i,j),f(i,j)表示 y 中的依存关系,如果树中 xi 与 xj 有依存关系则为 1,没有为 0. w 为使用样本训练出来的权值
决策式分析方法
基于约束满足的分析方法
依存句法分析器的评价指标
短语结构与依存结构的转换
汉英句法结构对比
语义分析
语义的分类
格语法
三条基本规则
S → M o d a l i t y + P r o p o s i t i o n S \to Modality+Proposition S→Modality+Proposition
P → V + C 1 + . . . + C n P \to V+C_1+…+C_n P→V+C1+…+Cn
C → K + N P C \to K +NP C→K+NP
格表
施事格/工具格/承受格/使乘格/方位格/客体格…
分析步骤
语义网络
概念依存理论
词义消歧
有监督的词义消歧方法
无监督的词义消歧
在本处不做解释,例子有上下文分组辨识,可以寻找其他文章查看
基于词典信息的消歧
语义角色标注
句法分析器-候选论元剪除-论元识别-论元标注-后处理
候选论元剪除
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://haidsoft.com/114310.html





