介绍
什么是相关性分档
相关性分档是评价一个Query与一张图片所表达的内容是否一致或在多大程度上一致。
图片Query相关性分档的任务综述
- 按照文档中提供的4档标准,标注出Query和图片的相关性分档情况。
- 定义见 相关性分档4档的判断标准------分档总体说明
标注需要关注哪些问题?
- 多义Query:如“苹果”,存在若干个属性:手机品牌、一种水果、电影的名字;在标注时,图片与任何一个意思的“苹果”相关,即为相关,不需要考虑需求主次;
- 图片质量:分档标注时, 对于最高档, 需要是清晰高质量大图, 其它档不考虑图片质量(主要是指图片的尺寸大小、图片的清晰程度、图片是否有水印,通俗的说法就是 图片好看不好看,清不清楚),只考虑文字上是否相关;
- 页面内容中的图文不符或者作弊等情况:如果网页文本对图片的描述和图片真实内容不符,需要按照图片内容本身来判断。 例如用户搜杨幂, 该网页文本描述某图片为杨幂, 但是该图片其实不是杨幂, 则判断该图片内容与搜索目的无关
- 当Query是有错别字:就按照用户输入的错别字来判断,不去考虑用户搜索意图和原来正确的字,就按照用户错别字来评;如错别字无法理解,可以抛弃Query;
- 色情Query: 当做普通Query来标注, 无需特殊处理
一些专有名词解释
- Query:也可称查询词、关键词、搜索词,指用户输入到搜索框想要查找的字、词、符号等。
- 作弊:用户或者网站人员出于不同目的,故意将图片的描述写错,如用户在自己的相册中,将一批不是杨幂的图都写上“杨幂”这样的字样描述,此类行为会叫做作弊。
相关性分档4档的判断标准
分档总体说明
小结:2、3档为相关档; 1档为模糊关联档(同属于人物, 建筑等大类, 但与Query特指的内容无关), 0档为完全不相关档,需要牢记相关和不相关的界限:
2、3和0、1档的判断的大原则:图片中未出现Query所表达的内容,则列入0、1档;图片中出现Query所表达的内容,列入2、3档;
分档 含义 举例 3档 最相关,图片与Query完全相关,图片=Query,没有明显的干扰信息 Query:刘欢
2档 较为相关,图片能部分解释Query,或者说图片出现了Query所描述的内容,但是图片上存在另外一些Query未提及的不相关因素的干扰 Query:刘欢
1档 较为不相关,图片与Query存在联系,通过这个图片能联想到Query,但是图片与Query的相互解释的能力较弱;如果搜的是人物, 显示的是其它人物, 则为此档。 Query:刘欢
0档 完全不相关, 搜人物, 出水果这种情况 Query:刘欢
各分档的标注细则说明
下面对各档的典型情况进行分别解释。
3档说明
- Query与obj完全相关,且无其他不相关元素的干扰, 高质量非小图;主观上判断的一个方法是:看到这个图片能否直接联想到这个Query
3档典型case举例:
Query 图片 说明 凯利莱酒店 ? 图片是该Query下典型的图片,从图片得到的信息与Query一致,判为3分;
如果是小图, 则降为2分。恶搞关羽 ? 图片完全符合Query,有恶搞,也有关羽,判为3分。 张宇 ? 图片中的美女叫张宇,符合Query,判为3分;虽然大多数人搜张宇这个Query是为了看明星张宇的图片,但是基础相关性不考虑用户目的 马 ? 不区别对待艺术形式,内容主体就是马,判为3分;类似的,如果是出现马的手工玩具,也是判为3分。 秘密花园 ? 该图是《秘密花园》的经典场面图,判为3分。
影视剧,动漫等Query的海报,经典画面截图都可以判为3分。
2档说明
- 图片描述的是Query代表内容的非典型内容;如查询酒店,提供该酒店的内部装修,而不是酒店门面;
- 图片描述的是Query代表内容的一部分,如搜“北京大学”,图是北京大学一个体育场,一个教室,一个草坪,这类的情况;
- 图片中有其他信息的干扰,即图片中有一部分内容,Query中未提及;例如搜人物出现合影
2档典型case举例:
Query 图片 说明 2ne1 ? Query找的是一个组合的名字,图片出来的其中一个成员,部分满足判为2分;
如果出现的是组合+其他人,也是判为2分;如果出现的是组合中的某个成员跟其他不相关的人的合影,也判为2分。广州证券有限责任公司 ? 图片是该公司的前台,非该公司典型图片,判为2分。 仿制建筑物 ? 图片中有明显的游人干扰,判为2分。 宋祖英的豪宅 ? 图片虽然没有拍清楚,但是宋祖英的豪宅在一片房子中间,出现在图片中,判为2分。 收费站 ? 漫画的形式的收费站在图片中有体现,图片还有其他信息Query未提及,如汽车;判为2分。
1档说明
图片的内容与Query特指内容无关, 但与该特指内容属于一大类事物;
- 图片表达的信息,只与Query中存在类别上的一致性, 但并不包含Query的信息,判为1档;
- Query描述较泛泛,没有精确到具体的事物,是一个范围,则同属于这个范围的obj起码都认为有略微相关;
如,媒体漫画,如果出的是水彩画,判为1;
如,纽维手机游戏,对于xbox, psp游戏,判为1;
- Query描述了具体的需求,如“坦克世界登陆界面”,出飞机着陆图,可以判为1;
1档典型case举例:
Query 图片 说明 小破孩离家出走 ? Query是指离家出走的表情,且是小破孩系列的,最为相关。这张图不是离家出走,但是是小破孩系列的,判为1。 高字 ? 图上是一个塔,和“高字”是2个不同是事物,归入1、0档;但是由于塔形似高字,因此存在一定联系,判为1。 机器猫 纹身 ? 机器猫图案的纹身最为相关,图片不满足 纹身,但是出现了机器猫的图案,因此判为1。 杨幂 ? 非本人,但显示的是人像,判为1分。 华为p1 ? 同为手机,1分, 但是如果出来一盆花, 则为0分
0档说明
图片中未出现与Query相关的或者可联想的内容,则判为0档;
0档典型case举例:
Query 图片 说明 上海厨卫展门票 ? 图片既不是门票,也没有体现出厨卫展相关信息,完全无关,判为0分。 团校队徽 ? 图片与 队徽类、团校都不相关,完全无关,判为0分。 校车
完全无关,判为0分。
- 容易有疑问的几类Query分档说明
- 地名类分档规则说明
对于“中国”、“日本”这类Query,很少有某张图片能直接联想到对应的Query,此类Query下的打分规则如下:
- 该地的地图、国旗、景点(就像北京的故宫,日本的富士山)、建筑、国家领导人、等典型事物,图片上有明显国家语言文字的东西(如汉字书法,日文),判为3分;
- 国家的文化产物(书、电影、电视剧、动漫等)、小的景点、日本的人物、新闻图片等,可以判为2分;Query是图片表达内容的一个形容词,判为2;
- 完全无关的,判为0分。
Query 图片 说明 日本 ? 图片是富士山,是日本的典型景点,判为3; 日本 ? 图片是个“日本料理”,主要说的是食物,日本是这张图片的一个形容词,看到图片不会直接联想到日本,北欧, 中国也有生鱼片,判为2;
- 具体的场所、机构的Query打分规则
类似于“广州证券有限责任公司”、“永昌六中照片”、“玉渊潭公园”这类Query
- 对于典型的、显著的标志性图片,如logo、大门、建筑外观,判为3;
- 场所中的一部分照片,无典型特征,如校园中的一棵树,判为2;
- 公司出产的产品,学校的学生,这些不是直接表现Query,但是有一定联想关系的,判为1分;
- 无关的,判为0分。
Query 图片 说明 湖北开放职业学院 ?学校的校徽
学校的全景,校徽、logo等判为3 湖北开放职业学院 校园一角,能看到校园的一些建筑、教室等信息,但是不典型,判为2 青光中学 ? 图片是青光中学的一个学生,有一定联系,判为2;
关于人物的打分
类似于“杨幂”“苍井空”的单个人物的Query
- 对于典型单人照,符合Query要求的,如海报、写真、活动照片,或者Q版形象等,均可判为3分;
- 从图片中看不出来,但是从网页文字部分可判断的,判为2分;
- 对于她跟别人的合影,则形成干扰,也判为2分;
- 对于显示的是人物,判为1分;
- 无关, 出水果, 建筑,判为0分;
类似于S.H.E”“少女时代”这类组合或者多人的Query
- 对于典型合照,符合Query要求的,如海报、写真、活动照片,或者Q版形象等,均可判为3分;
- 图片的组合人员都在,但是掺杂了其他无关人员的图片,判为2分;
- 图片只有部分成员的,不含无关人员,部分满足Query,判为2分;
- 图片只有部分成员,不齐全,还掺杂了其他无关人员的,判为2分;
- 非演艺或明星人物,判为0分;
Query 图片 说明 徐静蕾 ? 图中除了徐静蕾,还有其他人,未在Query中体现,判为2; 阿sa ? 图片是阿娇,不是阿sa,判为1; 杨幂 ? 图为刘恺威,是绯闻男友,,判为1;
关于楼盘地段的打分
类似“东海闲湖城”“四季花城”这类楼盘街区的Query
- 整体图,规划效果图,均可以判为3分;
- 楼内或者街区内的房子室内图,户型图,可以判为2分;
- 这个楼盘地段上发生的事件图片,判为1分;
- 其他不能从图片看出的,无关的,判为0分。
Query 图片 说明 东海闲湖城 ? 典型的小区效果图,判为3 东海闲湖城 室内图,属于这个楼盘的一部分,只能判为2;
户型图,也只能反映这个楼盘的部分信息,只能判为2;
但是如果不是这个楼盘的, 则为1分东海闲湖城 从来源页更多的信息可以看到,这是一个这个楼盘的售楼场景,图中未体现这个楼盘的相关信息,判为1
关于实物的的打分
类似“汽车”“电脑”这类Query
- 整体的汽车或者能看到绝大部分的外部整体图片,可以打3分;
- 局部图,如车内装饰,座位,底部等,可以打2分;
- 零部件,相关的服务,可以打2分;
- 如果是这些实物是别的物品的点缀,不是主体本身,如衣服上印着一辆汽车的图案,或者品牌不同,判为1分
- 无关的打0分
Query 图片 说明 宝马 ? 源网页在介绍宝马一款车,这张图是一张内饰图,不够典型,判为2; n880s主板 ? Query是指n880这个手机的主板,图片是这款手机,从图上未看到主板的信息,相关度较低,判为1;
关于影视动漫的的打分
类似“步步惊心”“海贼王”这类Query
- 海报,经典画面截图,剧照等,能直观反映Query表达内容的,判为3分;
- 普通截图,没有明显标识的,拍摄花絮照、宣传活动照等,相关联但不是最匹配的,判为2分;
- 相关主演的非剧中照,可以判为1分,
- 无关的打0分。
Query 图片 说明 屋塔房王世子 ? 相关演员的照片,非剧照,与电视剧相关度低,判为1; 屋塔房王世子 ? 是剧照,但是经过ps,且剧照本身也不典型,判为2 金太郎的幸福生活 ? 不是剧照,是电视剧的宣传活动照片,判为2;
关于网站类型Query的打分
- 类似“淘宝”“新蓝网”这类Query
- Logo,主页截图,判为3分;
- 网站物品,相关内容等,是组成Query内容的部分的,判为2分;
- 其它明显网站信息,判为1分;
- 非网站信息,0分
Query 图片 说明 淘宝 ? 淘宝网相关界面,判为3分 淘宝 ? 淘宝网商品,与淘宝相关,却又不是最直接体现的,判为2分 新蓝网 ? 图片为新蓝网内容图片,判为3分
其他说明
并不是所有的图片都有明确的4档之分,对于一些特殊Query,可能只有相关和不相关之分,结果只存在于两个档里面。
标注过程中的注意点强调
图片的信息中含有与Query中同样的文字不一定相关
Query 图片 说明 两个猪头 ? 不是真实的两个猪头,即不包含Query信息(非4分3分),但是是两个被比喻成猪头的人, 有关联, 标1分
需要打开源网页去了解图片信息
分档标注的时对图片内容的了解不能依赖于图片下方的文字描述,因为这部分信息可能提取有误,对本人不了解信息的图片,需要打开源网页了解图片信息。
当Query表达的含义有多义时,与任意一个意思相关,即为相关
分档标注的时候会遇到一词多义的现象,例如人名,不管是明星,还是普通人,只要符合Query的都统一打分。
Query 图片 说明 小葡萄 ? 不知名的叫“小葡萄”的小朋友,判为3 ? 知名的“小葡萄”小朋友,判为3; 植物的小葡萄
植物的“小葡萄”,判为3;
不理解Query意思的情况下下,可以通过多个搜索引擎去看下Query的意思,同时,不要刻意曲解Query表达的原本意义。例如鞋子卡通图片,正常的理解就是“鞋子的卡通画形式的图片”,但是通过某些简单词的补充可能会理解为“鞋子上的卡通图片”,这就产生了偏差。后一种的理解是刻意去扭曲原来的意思的。
这与“小葡萄”这种情况不属于一类,不认为存在多义;仅从“鞋子的卡通画形式的图片”这个方面进行评估。
关于干扰信息的说明
一般图片中会出现其他除了Query所描述内容外的其他内容,需要看图片中的不相关的那部分是否对相关的那部分造成了干扰;
有些Query是需要借助其他东西辅助展示的,有助于Query内容表达,例如衣服,这时候,衣服模特就不成为干扰了。
Query 图片 说明 公交车 ? 图片中的行人信息,对图片描述主体“”造成了干扰,判为2; 外套 ? 服装搭配类Query中,obj中的模特,是帮助表达的,不算干扰,判为3.
转载请注明:思享SEO博客 » 百度搜索Query-图片 质量评估标准