澳门新银河国际网站-www.2G.com【注册登录】
做最好的网站

自然语言处理---文本表示

1. 引言

自然语言处理---文本表示。所谓文本表示既是透过某种格局将文本字符串表示成Computer所能处理的数值向量。那么为何要举行理文件本表示,根本原因是计算机不可能一贯对文本字符串举行管理,由此必要打开数值化可能向量化。不唯有古板的机械学习算法须求以此进程,深度学习也亟需那一个进度,只不过这一个进度或许一向包涵在了纵深学习网络中;同一时间,突出的文本表示格局也得以大幅的提高算法效果。

1.1 表示方法分类

文件表示一如既往都以自然语言管理研商世界中的一个火热难点,总体来说至关心注重要分为二大类,

  • One-hot Representation ,直译是独热编码,但作者不建议去强硬翻译,因为某个时候中文并不一定有方便的词与其对应,这样会有失公正。这种编码格式首先建构八个大局的完备的词典,该词典包涵全体文件中的词,因而该措施表示后的样式为贰个一点都不小的vector,vector中只在该词现身的任务设置为1,表示该词出现,别的全部为0.这种格局的弊病,未思索词序消息,未思考词的上下文新闻,产生维数磨难,出现语义鸿沟现象,仅从向量上无法代表四个词之间是或不是周围。
  • Distributional Representation, 布满式表示。该算法的合计首要依靠一九五一年哈Rees建议的分布式假说,“上下文相似的词,其语义也诚如”,后来又经过Firth对该假说进行演讲和论证,自然语言处理---文本表示。“词的语义由其上下文显著”。该措施的思绪是选用一种格局汇报词的上下文,通过某种模型寻觅词(指标词)与上下文之间的涉及。依据建立模型情势的两样,将遍及式算法归结为三大类,基于矩阵模型,基于聚类模型,基于神经网络模型。下文少禽对各模型中执会考察计算局筹到的算法进行轻便解释。

2. 分布表示算法

2.1 基于矩阵模型

该模型的思绪首若是,根据文件内容营造三个词-上下文矩阵,每一行代表一个词,每一列代表三个文书或然上下文,那么每行就能够看作二个term的表示。

  • 词 -上下文 矩阵构造
    给定一篇小说也许三个语言材质库,首先将其改造为为 自然语言处理---文本表示。term-document 或者是** term-context ** 矩阵
  • 矩阵成分值 表示
    矩阵中每一种成分的value能够是该 term的TF-IDF值,平时此种方法轻松高效,工程中使用也但是常见。
  • 降维
    对于文本数据来说,构造出来的矩阵是高维、萧条矩阵,由此为便利后续的拍卖平常会利用降维方法对矩阵张开降维,保留更有意义的剧情,常用的格局为SVD(Singular Value Decomposition)。为了进一步直观的知道这些算法,通过二个有血有肉的文件数据来感知基于矩阵建立模型的进程。
    首先给定文书档案内容如下:

doc1 : "NBA2K16 视频 设置 存储 位置 _NBA 视频 设置 存储 位置 解析 攻略 玩游戏"
doc2 : "NBA2K16 ncaa 豪门 大学 选择 推荐 NBA ncaa 大学 选择 游戏网 攻略"
doc3 : "NBA2K16 学好 NBA2K16 大学 名校 选择 攻略 攻略 心得 单机"

1)构造 term-document matrix,矩阵的成分为该词在不相同doc里出现的次数

term-DocMatrix ^T= [[1, 1, 0, 2, 0, 0, 0, 2, 0, 0, 0, 1, 0, 1, 2, 1, 2, 0, 0],
                    [1, 1, 2, 0, 0, 0, 2, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 2],
                    [0, 2, 0, 0, 1, 1, 1, 0, 1, 1, 0, 2, 0, 0, 0, 0, 0, 0, 1]] 
term^T = [ nba , nba2k16 , ncaa , 位置 , 单机 ,名校 , 大学 , 存储 , 
学好 , 心得 , 推荐 , 攻略 , 游戏网 , 玩游戏 , 视频 , 解析 , 设置 , 豪门 , 选择]

如上海教室所示,term-DocMatrix 是词-文书档案矩阵,每一列是一个doc,每一行代表各样词在不一样doc中的词频。(本示例中采纳的是分好词的公文,token之间用space隔离)
2) 选择TF-IDF 模型填充term-docMatrix中每种成分值。

term-docValueMatrix^T = [
       [ 0.17322273,  0.1345229 ,  0.        ,  0.45553413,  0.        ,
         0.        ,  0.        ,  0.45553413,  0.        ,  0.        ,
         0.        ,  0.1345229 ,  0.        ,  0.22776707,  0.45553413,
         0.22776707,  0.45553413,  0.        ,  0.        ],
       [ 0.21172122,  0.16442041,  0.55677592,  0.        ,  0.        ,
         0.        ,  0.42344244,  0.        ,  0.        ,  0.        ,
         0.27838796,  0.16442041,  0.27838796,  0.        ,  0.        ,
         0.        ,  0.        ,  0.27838796,  0.42344244],
       [ 0.        ,  0.41900794,  0.        ,  0.        ,  0.35472106,
         0.35472106,  0.26977451,  0.        ,  0.35472106,  0.35472106,
         0.        ,  0.41900794,  0.        ,  0.        ,  0.        ,
         0.        ,  0.        ,  0.        ,  0.26977451]]

3)采用SVD 降维
term-docMatrix = USigmaV

U^T = [[-0.31592434,  0.94651327, -0.06560826],
       [-0.66440088, -0.27006617, -0.6968757 ],
       [-0.67732067, -0.17656981,  0.71418472]]

Sigma^T = [ 1.18821321,  0.97769309,  0.79515131]

V^T = [[-0.16444274, -0.36655279, -0.31132663, -0.12111826, -0.20220269,
        -0.20220269, -0.39055228, -0.12111826, -0.20220269, -0.20220269,
        -0.15566331, -0.36655279, -0.15566331, -0.06055913, -0.12111826,
        -0.06055913, -0.12111826, -0.15566331, -0.39055228],
       [ 0.10921512,  0.00914312, -0.15379708,  0.4410066 , -0.06406206,
        -0.06406206, -0.16568749,  0.4410066 , -0.06406206, -0.06406206,
        -0.07689854,  0.00914312, -0.07689854,  0.2205033 ,  0.4410066 ,
         0.2205033 ,  0.4410066 , -0.07689854, -0.16568749],
       [-0.19984651,  0.22114366, -0.48796198, -0.03758631,  0.31860145,
         0.31860145, -0.12880305, -0.03758631,  0.31860145,  0.31860145,
        -0.24398099,  0.22114366, -0.24398099, -0.01879315, -0.03758631,
        -0.01879315, -0.03758631, -0.24398099, -0.12880305],
       [-0.44741306,  0.03857492,  0.08025905,  0.81630905, -0.00975885,
        -0.00975885,  0.03422628, -0.18369095, -0.00975885, -0.00975885,
         0.02738115, -0.04960114,  0.02738115, -0.09184548, -0.18369095,
        -0.09184548, -0.18369095,  0.02738115,  0.03422628],
       [ 0.01801602, -0.25523251,  0.25570126,  0.02316318,  0.89589932,
        -0.10410068, -0.09155289,  0.02316318, -0.10410068, -0.10410068,
        -0.00814018, -0.12093452, -0.00814018,  0.01158159,  0.02316318,
         0.01158159,  0.02316318, -0.00814018, -0.09155289],
       [ 0.01801602, -0.25523251,  0.25570126,  0.02316318, -0.10410068,
         0.89589932, -0.09155289,  0.02316318, -0.10410068, -0.10410068,
        -0.00814018, -0.12093452, -0.00814018,  0.01158159,  0.02316318,
         0.01158159,  0.02316318, -0.00814018, -0.09155289],
       [-0.02484861, -0.41515297, -0.22222725,  0.03237328,  0.00507016,
         0.00507016,  0.84492088,  0.03237328,  0.00507016,  0.00507016,
        -0.10449028, -0.04616452, -0.10449028,  0.01618664,  0.03237328,
         0.01618664,  0.03237328, -0.10449028, -0.15507912],
       [-0.44741306,  0.03857492,  0.08025905, -0.18369095, -0.00975885,
        -0.00975885,  0.03422628,  0.81630905, -0.00975885, -0.00975885,
         0.02738115, -0.04960114,  0.02738115, -0.09184548, -0.18369095,
        -0.09184548, -0.18369095,  0.02738115,  0.03422628],
       [ 0.01801602, -0.25523251,  0.25570126,  0.02316318, -0.10410068,
        -0.10410068, -0.09155289,  0.02316318,  0.89589932, -0.10410068,
        -0.00814018, -0.12093452, -0.00814018,  0.01158159,  0.02316318,
         0.01158159,  0.02316318, -0.00814018, -0.09155289],
       [ 0.01801602, -0.25523251,  0.25570126,  0.02316318, -0.10410068,
        -0.10410068, -0.09155289,  0.02316318, -0.10410068,  0.89589932,
        -0.00814018, -0.12093452, -0.00814018,  0.01158159,  0.02316318,
         0.01158159,  0.02316318, -0.00814018, -0.09155289],
       [-0.02534448, -0.14532188, -0.2739517 ,  0.0097019 ,  0.05538366,
         0.05538366, -0.05617876,  0.0097019 ,  0.05538366,  0.05538366,
         0.93537401,  0.03011687, -0.06462599,  0.00485095,  0.0097019 ,
         0.00485095,  0.0097019 , -0.06462599, -0.05617876],
       [-0.12581243, -0.37592682,  0.16394342, -0.02115422, -0.09313846,
        -0.09313846, -0.131218  , -0.02115422, -0.09313846, -0.09313846,
        -0.03969872,  0.86028813, -0.03969872, -0.01057711, -0.02115422,
        -0.01057711, -0.02115422, -0.03969872, -0.131218  ],
       [-0.02534448, -0.14532188, -0.2739517 ,  0.0097019 ,  0.05538366,
         0.05538366, -0.05617876,  0.0097019 ,  0.05538366,  0.05538366,
        -0.06462599,  0.03011687,  0.93537401,  0.00485095,  0.0097019 ,
         0.00485095,  0.0097019 , -0.06462599, -0.05617876],
       [-0.22370653,  0.01928746,  0.04012952, -0.09184548, -0.00487943,
        -0.00487943,  0.01711314, -0.09184548, -0.00487943, -0.00487943,
         0.01369058, -0.02480057,  0.01369058,  0.95407726, -0.09184548,
        -0.04592274, -0.09184548,  0.01369058,  0.01711314],
       [-0.44741306,  0.03857492,  0.08025905, -0.18369095, -0.00975885,
        -0.00975885,  0.03422628, -0.18369095, -0.00975885, -0.00975885,
         0.02738115, -0.04960114,  0.02738115, -0.09184548,  0.81630905,
        -0.09184548, -0.18369095,  0.02738115,  0.03422628],
       [-0.22370653,  0.01928746,  0.04012952, -0.09184548, -0.00487943,
        -0.00487943,  0.01711314, -0.09184548, -0.00487943, -0.00487943,
         0.01369058, -0.02480057,  0.01369058, -0.04592274, -0.09184548,
         0.95407726, -0.09184548,  0.01369058,  0.01711314],
       [-0.44741306,  0.03857492,  0.08025905, -0.18369095, -0.00975885,
        -0.00975885,  0.03422628, -0.18369095, -0.00975885, -0.00975885,
         0.02738115, -0.04960114,  0.02738115, -0.09184548, -0.18369095,
        -0.09184548,  0.81630905,  0.02738115,  0.03422628],
       [-0.02534448, -0.14532188, -0.2739517 ,  0.0097019 ,  0.05538366,
         0.05538366, -0.05617876,  0.0097019 ,  0.05538366,  0.05538366,
        -0.06462599,  0.03011687, -0.06462599,  0.00485095,  0.0097019 ,
         0.00485095,  0.0097019 ,  0.93537401, -0.05617876],
       [-0.02484861, -0.41515297, -0.22222725,  0.03237328,  0.00507016,
         0.00507016, -0.15507912,  0.03237328,  0.00507016,  0.00507016,
        -0.10449028, -0.04616452, -0.10449028,  0.01618664,  0.03237328,
         0.01618664,  0.03237328, -0.10449028,  0.84492088]]

4)依据SVD的表明结果,因为独有3个古怪值,我们能够根据解释之后的结果重构原本的term-docMatrix,此时,大家只须要U的前三列U[:,:3],V的前三行V[:3,:],重构结果:

term-DocMatrix^T = [[-0.11278275,  0.33070808, -0.30923603,  0.01264451,  0.35411661,
          0.35411661,  0.03413284,  0.01264451,  0.35411661,  0.35411661,
         -0.15461801,  0.33070808, -0.15461801,  0.00632225,  0.01264451,
          0.00632225,  0.01264451, -0.15461801,  0.03413284],
        [ 0.29332642,  0.1084434 ,  0.64500943,  0.12636854, -0.10103917,
         -0.10103917,  0.4137034 ,  0.12636854, -0.10103917, -0.10103917,
          0.32250471,  0.1084434 ,  0.32250471,  0.06318427,  0.12636854,
          0.06318427,  0.12636854,  0.32250471,  0.4137034 ],
        [ 0.05335364,  0.38241006,  0.05768725,  0.08262001,  0.28866144,
          0.28866144,  0.26340711,  0.08262001,  0.28866144,  0.28866144,
          0.02884362,  0.38241006,  0.02884362,  0.04131001,  0.08262001,
          0.04131001,  0.08262001,  0.02884362,  0.26340711]]

经过svd总计之后再行生成的term-docMatrix中的种种词的象征早就包括了部分语义了,因而得以平昔用来后续NLP任务中。

2.1.1 基于矩阵模型的算法

  • LSA/LSI(Latent Semantic Analysis/ Indexing)
    前一节示范的进度实际上便是LSA 算法的运作进程。LSI能够说是LSA在search场景下的叁个使用,给定三个document collection和四个query,重回query对应的查询。首先将document collection 调换为term-document matrix,term常常来自document的title,keywords list,abstract,同不时常间也将query转变为三个vector,vector瓜月素的值为种种词的平均权重,能够用TF-IDF模型总结得出,进而得以依赖向量计算出query对应的document。
    为什么LSA可以使得解词语同义和多义的主题材料:
    LSA/I 本质是发掘词与词在文书档案层面共现格局,假设八个词平时还要出现,那么她们很容易被清楚为有着同等的语义,同一时间要是五个词的背景上下文平常一样或貌似,他们也被理解为全部同等语义。LSA通过捕获那些共现形式,使得在同贰个主旨中,具备高权重的词聚合在一道,也认证那几个词语义周边。
    优点是能够防止简单语义鸿沟,消除此的歧义难题。弱点是对此大范围语言材质管理时会很耗时,因为文件常常维数较高,
  • HAL
  • GloVe
  • Jones & Mewhort

传闻 聚类格局:

  • Brown Clustering

依靠神经网络:

  • Skip-gram
  • CBOW
  • Order
  • LBL
  • NNLM
  • C&W

2. 每个词向量算法原理斟酌

3. 两样算法相比较

4. 总结

本文由澳门新银河国际网站发布于第一游戏网,转载请注明出处:自然语言处理---文本表示

TAG标签:
Ctrl+D 将本页面保存为书签,全面了解最新资讯,方便快捷。