实体识别
实体识别--分块类型:
- 名词短语分块;
- 标记模式分块;
- 正则表达式分块;
分块的表示方法:标记和树状图;
分块器评估;
命名实体识别;
- 命名实体定义:指特定类型的个体,是一些确切的名词短语,如组织、人、日期等;
- 命名实体识别定义:指通过识别文字中所提及的命名实体,然后确定
NE
的边界和类型;
命名实体关系提取;
文法分析
- 文法定义: 即就是文章的书写规则,一般用来指以文字、词语、短句、句子编排而成的完整语句和文章的合理性组织;
- 文法用途:
- 1、性能超越n-grams;
- 2、确定句子成分结构;
形式语法:一个四元组G=(N, ∑, P, S),各个符号代表的意义如下:
- N:非终结符的有限集合(有事也称为变量级戒句法种类集);
- ∑:终结符号的有限集合;
- V:总词汇表,N∪∑;
- P:一组重写规则的有限集合,P={α→β},其中α,β是V种元素所构成的串,α种至少应该含有一个非终结符号;
- S:S∈N,叫做句子的符戒初始符;
上下文无关文法:
- 解析器:
- 定义:根据文法产生式处理输入的矩阵,同时建立一个或多个符号文法的组成结构;
- 分类:
- 递归下降解析器:自上而下模式;
- 移近-规约解析器:自下而上模式;
- 左角落解析器:自上而下和自下而上两种模式相结合;
- 递归下降和左角落解析都存在一定的缺陷,因此可以才用动态规划的方法进行解析;
依存关系与依存文法:
- 依存文法:关注词与其他词之间的关系;
- 依存关系:中心词与其他从属直接的二元非对称关系;
当前的一些语法困境
- 语言数据与无限可能性;
- 句子构造;
- 句子歧义问题;
自然语言理解
- 智能问答系统;
- 一阶逻辑;
- 补充运算;
- 句子语义理解;
- 段落语义理解;
图灵测试
阿兰·图灵与1950年提出,测试在测试者和被测试者相互隔开的情况下,通过一些简单的装置向被测试者随意提问。通过一些问题之后,若被测试者的答复有超过30%的部分无法让测试者确认出是人还是机器的回答,则此时这台机器通过测试, 且被认为具有人工智能;
命题逻辑
一阶逻辑
- 语法
- 独立变量;
- 独立常量;
- 带不同参数的谓词;
- 非逻辑常量;
- 逻辑常量;
- 存在量词;
- 全称量词;
- 采取约定:<en,t>是由n个e类型的参数所组成而产生一个类型为t的表达式的谓词的类型,此类情况下,则称n为谓词元数;
语句的语义
- 组合原则:整体含义是部分含义与他们的句法相结合方式的函数;
语料库结构
TIMIT的结构
- 内容覆盖:方言,说话者,材料;
TIMIT的设计特点
- 包含语音与字形标注层;
- 在多个维度的变化与方言地区和二元音覆盖范围中找到一个平衡点;
- 将原始语音学时间作为录音来捕捉和标注来捕捉之间的区别;
- 层次结构清晰,结构是树状结构,使用时目的性;
TIMIT的基本数据类型
- 词典
- 文本
语料库的生命周期
- 创建语料库的方案
- 研究过程中逐步形成;
- 实验研究过程中收集;
- 特定语音的参考语料;
- 质量控制
- Kappa系数:衡量两个人的判断类别,然后修正其期望一致性,越大一致性越好;
- windowdiff打分器:衡量两个句子分词的一致性;
- 维护与演变
数据采集
采集方式
- 网上获取;
- 文字处理器文件获取;
- 电子表格和数据库中获取;
- 通过数据格式转换获取;
- 使用Toolbox数据;
标注层
- 分词;
- 断句;
- 分段;
- 词性;
- 句法结构;
- 浅层语义;
- 对话与段落;