博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
自然语言处理NLP(四)
阅读量:7121 次
发布时间:2019-06-28

本文共 1425 字,大约阅读时间需要 4 分钟。

hot3.png

实体识别

实体识别--分块类型:
  • 名词短语分块;
  • 标记模式分块;
  • 正则表达式分块;
分块的表示方法:标记和树状图;
分块器评估;
命名实体识别;
  • 命名实体定义:指特定类型的个体,是一些确切的名词短语,如组织、人、日期等;
  • 命名实体识别定义:指通过识别文字中所提及的命名实体,然后确定NE的边界和类型;
命名实体关系提取;

文法分析

  • 文法定义: 即就是文章的书写规则,一般用来指以文字、词语、短句、句子编排而成的完整语句和文章的合理性组织;
  • 文法用途:
    • 1、性能超越n-grams;
    • 2、确定句子成分结构;
形式语法:一个四元组G=(N, ∑, P, S),各个符号代表的意义如下:
  • N:非终结符的有限集合(有事也称为变量级戒句法种类集);
  • ∑:终结符号的有限集合;
  • V:总词汇表,N∪∑;
  • P:一组重写规则的有限集合,P={α→β},其中α,β是V种元素所构成的串,α种至少应该含有一个非终结符号;
  • S:S∈N,叫做句子的符戒初始符;
上下文无关文法:
  • 解析器:
    • 定义:根据文法产生式处理输入的矩阵,同时建立一个或多个符号文法的组成结构;
    • 分类:
      • 递归下降解析器:自上而下模式;
      • 移近-规约解析器:自下而上模式;
      • 左角落解析器:自上而下和自下而上两种模式相结合;
    • 递归下降和左角落解析都存在一定的缺陷,因此可以才用动态规划的方法进行解析;
依存关系与依存文法:
  • 依存文法:关注词与其他词之间的关系;
  • 依存关系:中心词与其他从属直接的二元非对称关系;

当前的一些语法困境

  • 语言数据与无限可能性;
  • 句子构造;
  • 句子歧义问题;

自然语言理解

  • 智能问答系统;
  • 一阶逻辑;
  • 补充运算;
  • 句子语义理解;
  • 段落语义理解;

图灵测试

阿兰·图灵与1950年提出,测试在测试者和被测试者相互隔开的情况下,通过一些简单的装置向被测试者随意提问。通过一些问题之后,若被测试者的答复有超过30%的部分无法让测试者确认出是人还是机器的回答,则此时这台机器通过测试, 且被认为具有人工智能;

命题逻辑

一阶逻辑
  • 语法
    • 独立变量;
    • 独立常量;
    • 带不同参数的谓词;
    • 非逻辑常量;
    • 逻辑常量;
    • 存在量词;
    • 全称量词;
  • 采取约定:<en,t>是由n个e类型的参数所组成而产生一个类型为t的表达式的谓词的类型,此类情况下,则称n为谓词元数;

语句的语义

  • 组合原则:整体含义是部分含义与他们的句法相结合方式的函数;

语料库结构

TIMIT的结构
  • 内容覆盖:方言,说话者,材料;
TIMIT的设计特点
  • 包含语音与字形标注层;
  • 在多个维度的变化与方言地区和二元音覆盖范围中找到一个平衡点;
  • 将原始语音学时间作为录音来捕捉和标注来捕捉之间的区别;
  • 层次结构清晰,结构是树状结构,使用时目的性;
TIMIT的基本数据类型
  • 词典
  • 文本

语料库的生命周期

  • 创建语料库的方案
    • 研究过程中逐步形成;
    • 实验研究过程中收集;
    • 特定语音的参考语料;
  • 质量控制
    • Kappa系数:衡量两个人的判断类别,然后修正其期望一致性,越大一致性越好;
    • windowdiff打分器:衡量两个句子分词的一致性;
  • 维护与演变

数据采集

采集方式
  • 网上获取;
  • 文字处理器文件获取;
  • 电子表格和数据库中获取;
  • 通过数据格式转换获取;
  • 使用Toolbox数据;
标注层
  • 分词;
  • 断句;
  • 分段;
  • 词性;
  • 句法结构;
  • 浅层语义;
  • 对话与段落;

转载于:https://my.oschina.net/cunyu1943/blog/2222589

你可能感兴趣的文章
<转>C++ explicit关键字详解
查看>>
网络请求之GET、POST请求
查看>>
[I2C]pca9555应用层测试代码
查看>>
用C3P0建立server与数据库的连接
查看>>
3D Slicer Programmatically Set Slice Offset and Intersections 用代码修改Slicer中的切片偏移和交叉点显示...
查看>>
【转】Jenkins怎么启动和停止服务
查看>>
php通过shell调用Hadoop的方法
查看>>
WebGL 权威资源站小聚
查看>>
CodeForces 19D Points(离散化+线段树+单点更新)
查看>>
2-3 树
查看>>
docker注意事项
查看>>
POJ 题目2506Tiling(大数)
查看>>
Android ListView Adapter的getItemViewType和getViewTypeCount多种布局
查看>>
SQL_字符操作函数
查看>>
NLP相关问题中文本数据特征表达初探
查看>>
Spring-boot JMS 发送消息慢的问题解决
查看>>
VS编译 x64版本zlib库
查看>>
Java你可能不知道的事系列1
查看>>
使用 Apache Commons CLI 开发命令行工具示例
查看>>
【剑指Offer学习】【面试题21:包括min 函数的栈】
查看>>