fg电子

首页 > 正文

迈向电商认知智能时代的基石:阿里电商认知图谱揭秘

www.spermakosong.com2019-07-12
fg电子游艺

电子商务认知智能时代的基石:阿里电子商务认知地图揭示秘密

电子商务平台面临的最大挑战是向用户展示一小部分(数百或数百)不断增长的商品(数百亿)以满足其个性化购物需求。为了解决重复推荐和缺乏新思路的问题,我们提出建立一个大规模的电子商务认知地图。

今天,阿里巴巴搜索和建议认知绘图团队全面总结了当前建立电子商务认知地图的探索,主要介绍了认知地图的定义,整体建设思路以及建设过程中的一些具体算法问题。搜索建议中的最终应用。

本文转载自:阿里科技

公共ID:ali_tech

背景

尽管近年来电子商务搜索和推荐算法取得了很大进展,但这些算法仍存在许多问题,如重复推荐和推荐中缺乏新思路。其实质是现有的算法主要遵循“商品到商品”的思想,并不是直接受用户需求驱动,甚至没有明确的用户需求定义。另一方面,理解和满足用户需求是这些算法的最终目标,两者之间存在着天然的差距。

为了打破这一差距并让搜索和推荐算法更好地了解用户的需求,我们建议构建一个大规模的电子商务ConceptNet,它明确地将用户需求表达到图中的节点(称为电子商务概念),并将这些需求点与商品,电子商务领域的类别,电子商务以外的一般领域知识等联系起来,为产品认知,用户认知和知识认知提供统一的数据基础。并为下游搜索推荐算法提供新的优化思路和更多可能性。

什么是电子商务概念?

如前所述,我们将用户的需求称为“电子商务概念”。商品需求的概念,通常用符合常识,语义完整性和流畅性的短语表达。例如:“着装”,“儿童防丢”,“烧烤必备”,“宝宝保暖”,“波西米亚服饰”,“春节庆典”等。这些概念需要满足以下基本原则:

c882cf6be78748f6ba6394faaa5af126.jpeg

如上所示,右侧的短语与电子商务概念的基本原理相悖,因此在实际挖掘过程中将被过滤掉。此外,我们将概念分为三类:

购物场景:表示用户需要非特定类别,并具有强烈的场景感,如“儿童防丢”和“春节礼物”。

广泛类别:表示具有特定类别的一类用户的需求,例如“连衣裙”,“水果”等,或具有属性限制的类别,例如“韩国波点”。连衣裙,“儿童羽毛球拍”等。

一般概念:表示可以与电子商务之外的开放领域知识相关联的通用概念,例如“防晒”,“烧烤”和“老人”。

电子商务概念来自哪里?

在定义了定义和基本原则之后,我们需要挖掘大量概念以满足广泛的用户需求。目前,我们认为用户在使用淘宝或天猫搜索时输入的搜索词(标题)和产品名称是概念挖掘可以利用的最大来源。我们的工作主要是从充满噪音的查询和标题中提取满足上述原则的概念短语。此步骤称为“概念挖掘”。

概念挖掘主要分为两个步骤,一个是候选生成,另一个是概念分类。整个过程如下:

9945f7134a864b639465c7a72ec45793.jpeg

其中,候选代被分为两部分,一部分是根据词粒度通过AutoPhrase从句子中分离出的短语信息,另一部分是序列模板提取器(Sequential Pattern Extractor)频繁序列挖掘后的模板信息。结合2 -gram的统计语言模型,产生一个概念候选者。在获得候选者之后,我们将使用判别模型来融合语言模型嵌入,概念的序列信息,以及规则和后缀,pv统计和其他特征来确定概念是否令人满意。

候选人生成

我们首先从现有的正面和负面概念中提取模式,然后通过模式提取器计算权重。然后我们使用这些模式并组合三个窗口中的统计语言模型来执行候选修剪。最终生成的候选人基本上是一致的。单词顺序,满足基本常识。

ec3699a6885f43f28af9d6345709ff80.jpeg

概念分类

一方面,我们结合一些简单的规则来提取特征。另一方面,我们使用现有的序列特征来训练Wide& Deep模型来判断概念的合理性。在处理初始数据时,由于我们的大多数概念都是短文本,并且查询和标题中的大多数术语序列都不符合正常的单词顺序,我们还使用长文本解析信息进行候选提取和截断。并训练有素。 ELMo用作基本语言模型,并且在相同的gram长度中调整单词顺序以获得最佳序列信息,然后给出判别模型。

214bbf2bbfb44d05859744f129b03f00.jpeg

本体

在澄清了电子商务概念的定义并挖掘了大量概念后,我们会将这个概念视为一个词,除了名称,没有域名,没有deion,没有属性。 (属性),它怎么称为“地图”?如此少量的信息如何在下游应用中发挥作用?概念是图中的一个节点,那么我们的图是什么?

为了更好地理解电子商务概念,与外部知识图对齐,并介绍更多的一般知识,我们定义了电子商务认知图的本体,以描述实体的属性,概念及其之间的关系。实体代表了客观世界存在的具体例子,例如,歌手刘德华是一个具体的例子。这个概念代表了客观世界中的一个广泛概念,例如,娱乐明星是一般概念。分类系统和属性关系定义(Schema),包括定义实体和概念的类别,以及实体和概念特定的属性和属性值。例如,在分类系统中,歌手Andy Lau属于角色→娱乐角色→歌手,属性包括出生日期,代表作品等。

在这里,我们参考Schema.org和cnSchema.org中描述客观事物的结构,并以事物类作为根节点建立电子商务知识地图的基础本体分类系统。在交易类的子类中,包括“动作”,“创造性工作”,“活动”,“无形资产”,“类别”,“医疗实体”,“机构”,“人”,“位置”共9个类。每个子类都有自己的子类,每个子类都继承父类的所有属性和关系。具体结构如下所示:

c136ad807e4248d8aa18a333f15deb3b.jpeg

本体分类系统,其中括号内容为中文名称和英文缩写对应的类别

这里,中央白色节点是事务类,它是所有类的根节点。围绕事物类的九个节点是事物类的直接子类。这些类别中的每一个都有自己的节点。在图中,以无形对象为例,受众类是无形对象的子节点,受众:动物类,受众:身体部分类,受众:人群类,受众:植物类是子节点观众班。当通过结构化,半结构化和非结构化数据获取知识时,根据分类系统输入数据。

如前所述,电子商务认知地图的最终目标是表征用户的需求。因此,在本体中,我们定义了多个特定于电子商务的类来模拟电子商务环境中的客观世界:

品牌类别:类别是客户参与购买决策的最后一类商品。此类别可以链接到品牌,并且可以在该类别上完成相应的购买选项。该类别中的示例是本体构建过程中的主要挖掘。

受众(受众):受众是直接对应于产品的购物群体或人群,这是电子商务领域中非常重要的分类。在受众类别下有四个子类别:受众:动物,受众:身体部位,受众:人物,受众:植物。

风格:对于产品,必须有独特的风格来吸引购买它的人,风格类主要描述它。风格类别包括六个子类别:文学风格,音乐舞蹈风格,香味风格,触觉风格,品味风格和视觉风格。

功能:产品功能的详细描述,可以准确定位产品并直接将产品链接到需求。功能类别下有四个子类别:美容功能,服装功能,健康功能,家庭功能。

材料:所谓的材料,简单就是物体的样子。通过按材料描述产品,您可以使产品更具体。

属性是词汇的固有属性,例如“别名”,“描述”等;关系是本体词汇之间的客观联系,例如Person类中的实例的“出生地”将链接到Place类的另一个实例。在本体分类系统中,每个类别都有自己独特的属性和关系,子类将继承父类的所有属性和关系。这里,我们以事务类和类类为例介绍属性和关系,如下图所示:

8d9c2f90b7904f17be7c2cfaa624415f.jpeg

事物和类别的属性和关系

事物类:在这个类别中,我们定义了四个属性和关系:“别名”,“描述”,“图片”和“名称”。 “别名”实际上是当前词汇的同义词,属性; “描述”是对当前事物的特征的描述; “图片”可以连接到另一个“图片对象”,实际上是两件事之间的关系; “name”是当前事物的标准名称。

类类:类类是事务类的直接子类,它直接继承事务类的所有属性和关系。同时,类别类具有其自己的唯一属性“类别类型”。

本体分类系统中的所有类和子类都有自己独特的属性和关系。在对本体中的每个类别进行建模时,我们定义了140多个属性和关系。

在构建本体词汇时,我们充分调动了淘宝网,优酷网,飞珠网,神马网等集团主要业务部门的优质结构资源,以了解多源结构化和半结构化数据。整理和整合。具体而言,如果多源结构化数据被视为来自不同来源的知识系统,则获取和融合包括Ontology/Enity Matching和Knowledge Fusion。

我们使用基于文本的匹配方法批量合并多个数据源。我们定义的知识融合任务是:在同一类别下,具有相同含义的词汇需要合并为一个id,最常见的词汇作为主键,其他同义词汇作为别名。例如,“老人”是“老年”的同义词。在相同的id下,“name”属性内容是“old man”,“别名”属性内容是“old age”。在匹配的基础上,通过冲突检测,Truth Discovery和其他技术将以一致的方式合并知识。对于冲突,处理方法包括忽略,避免和解散。

常用的解决方法包括:投票,基于质量和基于关系的方法。我们使用基于质量的方法来消散单值属性。最后,通过整理和汇总结构化数据,获得了数百万个实体和概念数据。

自然文本以非结构化形式存在,包含大量丰富的语义关系,描述客观世界之间的实体,概念和关系。因此,对文本的理解也成为获取物理和概念信息的重要来源。实体和概念是地图的关键要素,它们在文本中的认知成为知识获取的重要技术。命名实体识别(NER)对文本中提到的实体进行划分和分类,并且可以从大量语句中挖掘指定类别的实体。我们使用基于远程监督的串行注释模型。注释的类型标签包括上述事件,函数,对象,时间,空间,类别,样式和其他主要类别。

至此,我们搭建了一个为电商设计的ontology体系,并扩充了大量的实体、概念、属性和关系,也可以将其看做一个普通的电商知识图谱。

从知识图谱到认知图谱

上文介绍的认知图谱本体结构(Ontology),包含了比较完整的分类法以及相应的schema,并融合了大量的外部、电商实体、概念和属性关系,是一个比较初级的电商知识图谱,其目的是为了结构化我们挖掘得到的大规模的e-commerce concept,将这些concept链接到图中成为节点,让“知识图谱”真正迈向了“认知图谱”。这一步叫做Concept Tagging。

理想情况下,我们希望concept经过分词后,每一个词单元都能够链接到本体词汇库的词汇上,从而获得相应的知识体系,但是由于本体不一定能覆盖全部的concept词汇,导致concept只有部分能够被链接,属性关系并不完整。其次,本体中存在一词多义的问题,相同的词汇具有不同的类型,因此需要进行词义消歧。而concept通常是短文本,上下文十分有限,常规的序列标注模型并不能取得可观的性能,并且目前的本体分类体系是树形结构,存在一个词汇分布于同一个大类,不同小类中。例如,“丹麦”这个词的类型有“空间→国家”以及“空间→行政区”,这也为词义消歧带来了难度。

我们的目标是准确地将concept链接到本体词汇库的词汇上,输入是concept列表以及本体库,输出是对应的词汇及类型:

669dc675b8cd4b26a3b1d5da83fdc9f8.jpeg

针对上述难点,算法的整体流程图如下:

xxxx77e3b73a98e740d3acbeac24c8f2e789.jpeg

下面我们将在图中指定模块:

1)基于字典的最大前向匹配和前缀匹配:给定一个概念,算法首先使用最小粒度分词,将概念分为单词,然后使用最大前向匹配算法,从左到右,概念的数量分词后连续词与本体库的词典匹配,如果匹配,则返回本体词汇和类型(ID)。

在这个过程中,存在一个问题,即匹配上的单词在本体分类系统中处于不同的位置,即多义问题。在这里,我们返回所有可能的候选人,以便随后进行消歧处理。值得一提的是,当我们使用词汇表时,我们不会使用所有词汇表。品牌和知识产权表(名人,作品,电视电影等)非常庞大,并且有许多含糊不清的字样。

例如,我们通常的高频词也是IP词,但在大多数情况下并不代表IP。因此,我们在最大前向匹配过程中删除了这部分数据。相反,我们添加了一个前缀匹配模块,以匹配未识别的前缀与IP中的品牌表和人名表,这可以进一步提高覆盖范围。

2)词义歧义消歧:与传统的消歧方法不同,概念通常由短文本组成,而上下文可以提供非常有限的信息。因此,我们选择序列标注模型来学习词汇类型的组合,如:“对象”+“风格”+“类别”等。由于词汇类型在不同的行业中是不同的,例如,“拼接”一词,在“穿衣”领域,“拼接针织连衣裙”中的“拼接”类型是“风格”,并且在“领域”中家具灯“在”拼接水管“类型是”功能“,所以我们使用注意机制来学习域相关信息。序列注释的模型如下所示:

c65f9cdf031346379a196aa363e2549f.jpeg

在获得序列的模型输出之后,根据候选候选单词输出最终标记结果。随后将尝试使用序列注释作为特征,结合概念的其他特征,使用分类模型来对候选候选者进行排序。

3)细粒度标记:在讨论问题时,我们提到存在属于同一大类和不同子类的词汇。通常,序列标记模型中只有十几个标记类别。目前,我们的本体库分类系统包含数十种甚至数百种类型。传统的序列标记模型无法解决这个问题。因此,我们需要更细粒度的序列标记模型来进一步消除歧义。

bd980f6905f044dea8878628e66150f6.jpeg

4)对齐长文本回忆:在词汇匹配和词义消歧之后,由于现有的本体库没有涵盖概念中的所有词汇,我们需要标记未识别的术语并识别相应的类型,这可以返回到本体。图书馆。一种可能的方法是在大量电子商务领域中使用长文本句子以远程地将概念与长文本对齐以用于序列标记以回忆未识别的术语。

认知地图中的边缘

知识地图的关系是机器理解知识能力的关键。关系类型由头部和尾部节点的类型确定,并且节点可以是词汇,概念和实体中的任何一个。目前我们在19中定义关系类型,并使用三元组来表示所有节点之间的关系。这些关系包括“is_related_to”,“isA”,“has_instance”,“is_part_of”等。在这里,我们重点介绍电子商务场景的两个最相关的关系:

概念-ISA-概念

例如:波西米亚连衣裙是一件连衣裙。

大多数电子商务需求都是类别要求,这对于类别要求的语义表达至关重要。 isA关系使我们的概念从平面结构变为图结构,这对于机器理解语义非常重要。通常,isA关系的构造包括两个步骤:

提取大规模文本语料库中的isA关系,主要包括基于模式和isA的基于向量表示的关系预测

层次结构是在第一步中提取的isA关系集中构建的,例如重复数据删除,消歧,去振铃等,并补充更细粒度的isA关系。

在电子商务认知地图构建的特殊情景中,构建isA关系的主要困难是:

电子商务是一个垂直的领域,特别是在淘宝网,一个“只有你想不到它,没有淘宝不能买它”的平台。有许多不同的类别,其中许多是相对不受欢迎但非常重要的。

电子商务相关的文本语料库很少,语料库中类别词的共现非常稀少,给提取带来了很大的困难。为了应对这些困难,我们正在设计一套手动+算法连续迭代优化主动学习过程,希望为后续的概念理解和推理应用提供可靠的支持。

概念is_related_to项

在现有的电子商务环境中,概念与产品之间的is_related_to关系也将面临诸多挑战:概念太短,产品标题堆叠,无关词语,产品属性错误,产品图形不一致等等,都会导致不匹配或带来歧义。

针对上述问题的整体解决过程如下:首先,通过使用文本匹配/i2i /语义模型来执行概念和项目(标题,描述)的语义匹配,然后根据概念到类别得分,然后执行消歧。在此之后,货物的合并最终将基于概念之间的关系。下图是深层语义匹配模型的说明:

a644a1d68c3d4637ac2fcaaa6dc662a7.jpeg

完成大图像

话虽如此,电子商务认知图的大图也出现了:

58b2082138c446059b1de850e4920b19.jpeg

如上所示,完整的认知地图包含以下部分:

概念:表达用户需求的最重要的语义节点。

本体论:为电子商务设计的知识地图的分类系统和模式。通过与概念的联系形成最终的认知地图,可以整合外部知识地图数据并引入难以在电子商务中直接探索的常识。

关系:我们定义了十几个类关系来描述不同节点之间的语义,这是机器语义的关键。

项目:根据地图构建大型概念,词汇和关系,您可以更准确地了解产品。

用户:基于地图构建大型概念,词汇和项目属性,您可以更准确地了解用户需求和推理用户需求。

应用显式应用

电子商务认知图已经应用于淘宝搜索推荐等众多产品中。主要产品形式是以概念为载体的主题卡。例如,主页猜测您喜欢瀑布流中的“购物百科全书”:

b7d9d62a13be4ce190c4a389d159b007.jpeg

婴儿详情页面中的场景推荐:

d039d4bc27b44b9793934024a7154f9f.jpeg

隐式申请

以概念为核心的电子商务认知地图提供的边缘关系数据为搜索推荐算法增加了新的信息粒度和信息结构,带来更多的想象空间,更好地满足多样化的需求。用户需求。

与此同时,许多基于认知绘图应用的新主题仍在进行中,例如:

可以解释一下建议

知识图嵌入

推荐推荐

摘要和展望

认知地图的构建需要大量资源,涉及广泛的领域和复杂的内容,这与算法,工程,操作和大量众包/外包资源的帮助密不可分。本文仅从算法工程师的角度简要总结了认知地图的构建。许多模块仍在探索和优化中。

我们认为,旨在更好地了解用户需求的电子商务认知图将推动基于行为的方法的搜索推荐到基于行为和语义集成的认知智能时代。进步的重要基础。

关于我们

阿里巴巴集团搜索与建议认知测绘团队旨在打造世界上最大的中国电子商务知识地图,支持整个阿里集团的推荐和搜索业务,包括淘宝,天猫优酷乃至海外电子商务。用户。从电子商务场景中的用户需求出发,电子商务的“认知”地图不仅限于传统的商品地图,而是连接商品,用户,购物需求和各种开放的大型语义网络。实地知识和常识。 Cognitive Mapping在世界上最大的中国电子商务平台中不断发展,为搜索,推荐和其他核心业务提供支持。它是推动集团新零售战略的强大知识引擎。我们欢迎志同道合的朋友加入我们建立和应用电子商务认知地图。将您的简历直接发送至。

,看看更多

热门浏览
热门排行榜
热门标签
日期归档