当前位置: 首页 > news >正文

语义分析

一:文本基本处理:
1.1中文分词
a:基于字符串匹配的分词方法,扫描方式可分为:正向最大匹配,反向最大匹配,双向最大匹配,最小切分(最短路径)
b:全切分方法:词条检索(一般用trie存储),以词网络(word lattices)形式表示,接着做路径搜索,基于统计语言模型(例如n-gram[马尔科夫])找到最优路径,最后可能还需要命名实体识别。
c:由字构词的分词方法。可以理解为字的分类,也就是自然语言处理中的sequence(顺序) labeling,通常做法里利用HMM,MAXENT,MEMM,CRF等预测文本串每个字的tag。由于CRF既可以像最大熵模型一样加各种领域feature,又避免了HMM的齐次马尔科夫假设,所以基于CRF的分词目前是效果最好的
d:基于深度学习的分词:对每一个字进行Lookup Table,映射到一个固定长度的特征向量(词向量,boundary entropy,accessor variety);经过一个标准的神经网络,分别是linear,sigmoid,linear层,对于每个字,预测该字属于B,E,I,S的概率;最后输出是一个矩阵,矩阵的行是B,E,I,S 4个tag,利用viterbi算法就可以完成标注推断,从而得到分词结果
1.2一个文本串除了分词,还需要做词性标注,命名实体识别,新词发现等。通常有两种方案,一种是pipeline approaches,就是先分词,再做词性标注;另一种是joint approaches,就是把这些任务用一个模型来完成
二:文本语义分析
2.1:Topic Model主题模型。最常用的主题模型(pLSA,NMF,LDA)
使用variational inference和EM算法进行LDA推断(与pLSA的推断过程类似,E-step采用variational inference),但EM算法可能推导出局部最优解,且相对复杂


http://www.taodudu.cc/news/show-1944666.html

相关文章:

  • 【physx/wasm】在physx中添加自定义接口并重新编译wasm
  • excel---常用操作
  • Lora训练Windows[笔记]
  • linux基础指令讲解(ls、pwd、cd、touch、mkdir)
  • InnoDB 事务处理机制
  • 启明云端ESP32 C3 模组WT32C3通过 MQTT 连接 AWS
  • NLPIR系统的中文语义分析模式介绍
  • 语义结构:依存分析
  • 《图像语义分析》学习笔记 (一)
  • 计算机语言语法语义,程序设计语言语义
  • 自然语言处理 4.语义分析
  • 自然语言处理(NLP)语义分析:“词汇级”语义分析【词义消歧、词义表示和学习】、“句子级”语义分析【浅层语义分析(语义角色标注)、深层语义分析】
  • 语义分析的一些方法
  • 语义分析的方法简述之文本基本处理
  • 《图像语义分析》学习笔记 (二)
  • 语义分析的一些方法(一)
  • python 英文语义分析_python语意分析
  • 潜在语义分析(TF-IDF、LSA)
  • NLPIR的语义分析系统
  • 云WAF之语义分析引擎
  • 语义网络与知识图谱
  • 【NLP】语义分析
  • 四、语义分析
  • LTP 语义依存分析
  • python语义网络图_知识图谱之语义网络篇
  • Python实现共现语义网络
  • 基于Python实现语义分析
  • python语义网络图_语义网络 (Knowledge Graph)知识图谱
  • 浅谈语义网络
  • c++ pdflib 中文乱码解决思路
  • PDFlib+PDI图像和超文本元素提供了许多有用的功能
  • PDFLib去水印办法
  • PDFlib使用(c++)
  • PDFLib9以上版本的去水印办法
  • 怎样使用PDFlib显示简体中文输出中文而不出现空白说明附源码
  • c++ pdflib 生成中文内容