中文自然语言处理时,英文单词和数字怎么处理?
这是一个基础的工程性问题。
目前所有的中文自然语言处理任务大致可以归结为「分」、「抽」、「审」、「写」。
「分」指词法分析(Lexical Analysis)、句子分析(Sentence Analysis)、语义分析(Semantic Analysis)、文本分类(Text Classification)、文本聚类(Text Clustering)。
「抽」指信息抽取(Information Extraction)。
「审」指文本纠错(Text Correction)、文本比对(Text Comparison)。
「写」指文本生成(Text Generation),机器翻译(Machine Translation)。
那么,主要在文本纠错、文本分类、文本聚类中需要对英文单词和数字处理。
在文本纠错中,实际需要对英文单词和数字处理,检查日期、单词拼写,这些可以借助正则表达式和词典等方式来处理。
在文本分类中,对于短文本分类,可以选择保留,用于提供额外的文本特征。
对于长文本分类,需要结合实际情况,例如在预测案件的刑期中,可以将涉案金额按照刑法中的规定进行归一化,譬如小于1千元的归一化到「_1000_」,大于1千元小于2000的归一化到「2000_」,英文单词可以直接归一化为「_E_」。
在文本情感分类中,则需要将英文单词保留,像sad,happy这类词和任务相关。
在文本聚类中与文本分类的处理方式类似。
“中文自然语言处理时,英文单词和数字怎么处理?” 的相关文章
原标题:长桌椅标准尺寸是多少 长餐桌吊灯怎么选 很多人觉得长桌椅比圆桌椅更加节省空间,且能够容纳 原标题:长桌椅标准尺寸是多少 长餐桌吊灯怎么选...
小学语文四年级上册第八单元 综合 练习 一、根据拼音写词语。 在一个鸦qu()无声的夜晚,一个小伙子在gun gi()农田,望着mo shng ()的麦苗,他心中非常高兴。忽然,从林边来了一群豺狼h bo()般的恶人,小伙三下五除二就让恶人qi ro()了,小伙子高...
我校成功举办第九届 教职工乒乓球比赛 2022年11月18日,在举国上下认真学习和领会党的二十大会议精神,开拓创新,奋进新征程之际,由校工会、校体委主办,化学化工学院和校教工乒乓球协会承办的第九届教职工乒乓球比赛在体育馆一楼拉开帷幕。校党委副书记、工会主席史健勇,校工会常务...
11月22日,国际乒联官宣了最新一期的男单、女单世界排名,因为亚洲杯男单和女单冠军有500分的积分,肯定夺冠的张本智和、王艺迪受益最大: 张本智和直接超越了马龙、王楚钦,世界排名高居第2! 而同时,各...
乒乓球素来被称为中国的“国球”,是一种世界流行的球类体育项目。如果没有了解比赛的规则的话,可能会存在看不懂的情况,今天小编分享的是乒乓球的比赛规则,一起来看看吧。 1、发球 球放在不持拍手的手掌上,手掌张开伸平。向上抛球高度至少离手掌心16厘米。发球时,抛起后在球的下降期才...
原标题:乒乓球器材发展史 乒乓球器材发展史 乒乓球器材,尤其是乒乓球拍,毫不夸张地说是每一名乒乓球选手的不可或缺的重要武器,是决定乒乓球运动员能否正常发挥甚至一场乒乓球比赛运动的水准高低的重要因素。而随着经济社会不断进步,不仅是专业的乒乓球运动员,甚至每个业余爱好者,随...