权重是什么意思网络用语(你知道什么是文本的词权重吗?算法模型是怎么计算词权重的呢?)

总结篇

在本文中,我们将主要讨论单词权重。为什么要讨论这个问题?因为在自然语言处理过程中,我们最重要的目的是试图理解文本的语义,通过算法让计算机掌握文本的语义信息。最重要的是能够提取文本的特征,这些特征本质上离不开词的权重。但本文会主要用通俗的语言来解释,尽量不谈详细的算法。

很多场景下,单词不一定需要计算分数。很多时候,我们只是简单地根据赋给词的其他特征,比如位置坐标、词频,或者训练词的距离来进行替换,来表达词的重要性。那么对于一篇长文来说,权重这个词是怎么来的呢?

1. 词语在自然语聊中的信息。

众所周知,机器学习的各个分支都很吃语料,自然语言处理(NLP)也不例外。在工业界,许多数据库都来自于经过清洗的自然语料库。比如过去10年人民日报和社交媒体上的文章。通过对这些语料的特征提取,如词频统计、idf信息提取和词向量训练,可以得到我们的模型和算法所需要的先验知识。经过训练,我们可以得到每个单词的先验。例如,我们知道“是的,德,哇”这个词在大多数语料库中没有价值。此时,在没有当前文本信息的情况下,我们可以大胆假设这些词在本文中的词权重较低。该算法利用这一特征的优点是无需标注即可轻松获取语料。

2.位置信息。

在文本中,位置是一个非常有价值的特征。比如“小明打小张”和“小张打小明”完全是两码事,前后的字轻重不一样。最大熵模型,或者贝叶斯模型等统计模型,通过数据训练可以很容易的学习到这类特征。当然,我们也可以通过常规算法做硬识别,贴上标签。

一个词在文章的不同位置会有不同的得分。比如出现在标题中的词更重要,出现在副标题中的词比出现在文章中的词更重要。文章开头的词得分也会高很多。

在具体的算法实现中,应该集成这个特性。如果用tfidf来训练单词权重,可以给当前标题的单词一个大于1的系数,以增加其在本文中的重要性。

3. 词频信息。

一个词在一篇文章中出现的次数越多,我们就可以简单的认为这个词越重要。还有一些语气词,助词等。这在所有文章中经常出现,但并不重要。这个分词可以通过idf特征消除。IDF逆文档频率(IDF逆文档频率),通俗地说,包含这个词的文章越多,这个指数就越低。

权重是什么意思

比如一篇文章中反复出现的词就比较重要。但是像“你,我们”这样的词当然在文档中频繁出现,但显然不重要。所以即使这个词的tf高,最终的TFidf值也因为idf低而不高。

4.引用信息。

如果一个词在从相应领域的文章中提取的关键词中被引用的频率更高,则认为该词更重要。这些信息通常使用简单的线性模型来学习一个参数。如果条件不够,也可以考虑调度权重α。这种信息的延伸是专家文档。

5.专家文档信息。

根据引用的资料,我们知道文字也有起源,起源好的文字自然更重要。那么这个出生是怎么来的呢?其实就是领域内的优质文。高质量文本的建立不是由机器学习算法或规则决定的。很多时候都是来自于人工筛选,所以这类文章被称为专家文献,在相应的领域有很高的认可度或者权威性。例如,当我们训练模型时,条件随机场模型、贝叶斯模型等统计模型或lstm+注意力网络结构等深度学习模型都可以使用这种特征作为我们的先验超参数之一来干预我们的输入。

6.网络爬虫信息。

在我们确认了当前文章的标题或主题后,就可以离线使用爬虫进行网络搜索,从搜索结果中提取单词,通过与我们的文本单词交叉来判断哪些单词是重要的。这种方法的难点在于编写一个搜索爬虫,可以快速抓取相应的信息。虽然这种方法有一些技巧,但正是这种方法为我们解决了工业中许多意想不到的情况。而且爬虫还能为我们的模型提供源源不断的最新数据,当然对数据清洗也会有一定的要求。

7. 负采样信息。

以上提到的都是正样。其实通过负抽样,我们还可以调整一些词的词重。比如,通过统计信息和算法计算,我们发现在同类型文章中,有些词设置了较高的权重,但推荐效果或语义理解效果并不好,而在其他样本中,这些词的词权重设置较低,但效果不错。这时候我们可以把那些影响不好的词作为我们当前文本的负样本,为模型设置一些惩罚参数。

在机器学习模型中,负采样往往可以解决一些数据的瓶颈,但由于负样本的缺乏,它不能很好地利用这一特性。

既然知道了词权重的出处和计算来源,我们可以在我们的文本编排中尽量少掉坑里:

1.减少助词和停用词的使用(比如语气词和主语不用太多),尽量提高核心词的合理出现频率。

2.多使用小标题,把我们想要算法识别的核心词或者关键词放到小标题里。

3.尽量使用总分的写法,把重要的词放在文中段落的开头,提高算法的收集和关注度。

4.写一些专业文章的时候,多使用领域内的优质词汇。减少不常用词作为我们的核心词,因为算法很可能不会识别。

5.不要跨越很多领域。如果算法或模型在处理一篇文章时发现需要匹配多个主题,那么就会有很多词的权重分值可能比较集中,无法突出文本的有效语义和特征。

总结:

一般来说,词的权重是自然语言处理中不可或缺的特征。现在在很多工业模型的训练中,我们会发现可能只计算单词向量,剩下的参数都留给模型。这种训练忽略了大量的先验信息,使得最终的训练模型不够准确。

从非技术的角度来说,我们也希望更多的人能够理解权重这个术语,让你在以后的机器学习中更好的理解语义理解的一些机制和方法。

(对机器学习、自然语言处理、聊天机器人、机器翻译感兴趣,请关注我)

您可以还会对下面的文章感兴趣

最新评论

  1. 缘分的天空
    缘分的天空
    发布于:2022-04-27 08:35:00 回复TA
    和特征。总结:一般来说,词的权重是自然语言处理中不可或缺的特征。现在在很多工业模型的训练中,我们会发现可能只计算单词向量,剩下的参数都留给模型。这种训练忽略了大量的先验信息,使得最终的训练模型不够准确。从非技术的角度来说,我们也希望更多的人能够理解权重这个术语,让你在以后的机器学
  1. 着迷岸上的火
    着迷岸上的火
    发布于:2022-04-27 12:46:53 回复TA
    两码事,前后的字轻重不一样。最大熵模型,或者贝叶斯模型等统计模型,通过数据训练可以很容易的学习到这类特征。当然,我们也可以通过常规算法做硬识别,贴上标签。一个词在文章的不同位置会有不
  1. 水手服
    水手服
    发布于:2022-04-27 03:00:46 回复TA
    为专家文献,在相应的领域有很高的认可度或者权威性。例如,当我们训练模型时,条件随机场模型、贝叶斯模型等统计模型或lstm+注意力网络结构等深度学习模型都可以使用这种特征作为我们的先验超参数之一来干预我们的输入。6.网络爬虫信息。在我们确认了当前文章的标题或主题后,就可以离线使用爬虫进行网络搜索,
  1. 范威菊雯
    范威菊雯
    发布于:2022-04-27 02:13:40 回复TA
    第一个青春是上帝给的;第二个青春是靠自我努力的。
  1. 荀倩轮程
    荀倩轮程
    发布于:2022-04-27 02:13:40 回复TA
    给台阶不下就毫不犹豫往下踹。

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

使用微信扫描二维码后

点击右上角发送给好友