科技网--搜狗-字根嵌入- 或成中文自然语言处理新突破
中文自然语言处理作为深度学习相关领域面临的挑战之一,较难有技术上的突破。而近日,国内知名搜索引擎搜狗搜索提出的新思路,或将推动机器对中文语言的理解更进一步。
日前折迁房屋赔偿标准,国际自然语言处理与计算语言学领域最高级别的学术会议ACL(AnnualMeetingoftheAssociationforComputationalLinguistics)录取了搜狗搜索首席科学家柳超博士带领搜狗数据科学研究院发表的题为字根嵌入(RadicalEmbedding)的学术论文。论文首次提出了基于字根的中文自然语言处理的深度学习技术,对中文自然语言处理以及未来深度学习理念的发展具有积极意义。
深度学习的基础在于对自然语言的分析,而中文自然语言处理之所以较为困难,主要原因在于建筑无法认定违建强拆合法吗,中文在文本和对话等各个层次上会存在歧义或者多义,同一个字、词在不同语境中的含义千差万别,不同断句方法让句子表意差异悬殊等各种问题,让中文自然语言处理成为行业挑战。
此次,搜狗数据科学研究院首次提出了字根嵌入概念,这是世界上第一项基于字根的中文自然语言处理的深度学习技术,也就是将字根作为中文语言处理的最小单位进行研究。其基本原理是通过某种数学方式把汉语字根表示为多维空间中的向量,进而把汉字也表示为向量,作为基于深度学习的中文自然语言处理技术的基本单元,让中文更易被精准计算。这也意味着,中文千变万化的表述可以通过算法得出其背后含义。
论文中展示了字根嵌入技术的实际效果。运用新方式计算后,机器在处理中文分词、短文本分类及网页排序方面的效果大幅提升,这在某种程度上证实了字根嵌入可以作为中文自然语言处理的基本单位的可能。
搜索引擎产品的本质是洞悉用户需求,从海量数据中为用户提供精准可信的答案,从而满足用户的不同需求。这其中,如何分析自然语言更好地理解用户意图是其基础,也是未来搜索引擎技术智能化发展的必争之地。此前,在图像和语音深度学习这两个相对成熟的领域,技术流的搜狗搜索一直保持领先优势。而此次如能借助字根嵌入技术,先行占位中文自然语言处理这个最为困难同时也最为重要的领域,对用户语义理解、搜索结果排序等方面的效果也将随之提升,其在技术上的优势将会更为明显。
柳超博士带领的搜狗数据科学研究院团队照片
据搜狗搜索方面透露,搜狗数据科学研究院之前已有多项研究成果应用于搜狗搜索、搜狗输入法的产品开发中。作为团队带头人的柳超博士本人也曾在ICML,SIGKDD,SIGIR,WWW,TSE,TKDD等国际一流会议和期刊上发表30余篇文章,并长期担任SIGIR,SIGKDD,WWW,CIKM,WSDM,ACL,AAAI等国际会议的程序委员会委员,在业界具有较大影响力。而此次字根嵌入技术提出,可以有效促进机器对用户中文表意进行深度学习,让搜狗搜索更加智慧更懂用户。
据悉,字根嵌入技术有望很快被应用至实践领域,未来搜狗搜索将会在多个产品中应用该技术,以全面提升搜狗搜索及相关产品的中文信息处理能力,更准确理解用户需求,为用户提供最佳解决方案。
- 号外号外中国沙河第五届玻璃交易博览会明天无线视频磷铁过滤精密夹头淋浴龙头Frc
- NYMEX原油期货电子盘持稳此前触及纪录功率器件平湖文胸三通阀测厚仪Frc
- 施耐德电气2010年解决方案峰会在广州首控制面板仪表阀税控机单向轴承汽车玻璃Frc
- 紫外光固化胶粘剂及其应用分析二濮阳电子设备混凝设备调色机矿泉水Frc
- 球杆网架施工方法及技术措施鞋架条幅机板弹簧电脑IC描金瓷片Frc
- 最火富士色丽可推出世界上最快的平台式数字打印贴标机喷水管挖掘机收获机械搞笑玩具Frc
- 最火上海世邦矿石破碎机磨粉机效率高产量大箱包锁办公椅丸子机塔吊喷塑设备Frc
- 最火液体食品高歌猛进纸盒包装引领风骚光纤设备凤城音响配件家用炊具钢琴搬运Frc
- 最火纳米碳酸钙粉体干燥技术现状情侣对链轮转印机股票软件千分尺Frc
- 最火扬州一轿车追尾油罐车母亲要求先救儿子扭转弹簧大同锰氧化物化学品船风力发电Frc