我来教你标签体系如何设计。

标签是内容分析的基础，代表了对视频质量的把握和内容的理解，同时，标签也是反映用户兴趣的重要数据源，这些都为个性化推荐提供了最基本的特征。那我们要怎么才能设计好一套推荐系统标注标签体系？

标签是内容分析的基础，代表了对视频质量的把握和内容的理解，同时，标签也是反映用户兴趣的重要数据源，这些都为个性化推荐提供了最基本的特征。

首先，要保证视频内容的合法性，有对色情和三反视频的识别和过滤能力，保证整个视频推荐服务的安全性。

其次，要帮助推荐系统更好的理解视频内容，为视频的分发构建桥梁，如使用标签进行召回等有效提升推荐系统的效率。

首先，要能够表明视频质量，从而判断该视频是否可用于分发。

其次，要能够明确表达对视频内容的理解及视频本身所具有的特点；

（1）一/二/三级标签：表示视频讲了什么内容以及该内容属于什么种类？

通过对标签进行分层既能够保证标签体系的全面性，同时也能较好的保证代表性。因此，不同层级的标签在设计时需要考虑的内容并不完全相同：

（2）风格类型：有时候，除了视频本身的内容外，视频的风格类型也是我们所关注的，如时政领域需要的正能量视频，下沉用户需要的土味视频和记录博主生活状态的Vlog等。

第三，有些视频只适合在当下或一段时间内进行推荐，而通过机器又很难解决时效性的问题，需要借助人力判断可推荐的时间。

第四，除了视频的客观属性外，还需要引入一些主观情感的判断，如故事性、连贯性等。

该部分涉及到的主观情感的判断较多，需要考虑标注人员的实际理解情况，如可参考是否有主题、是否与文本相关度较高、是否有明确的故事主体、是否内容连贯性或叙事性较好、是否有拍摄成本，另外也可以参考该类内容是否能够引起用户的观看兴趣或转发欲望等

适时抽取一定的标注数据进行质量检查是很有必要的，对于标注数据中出现的问题要进行合理的归类，如果多人多次出现同一问题则说明该部分可能存在两方标准不一致的情况。

对于各个标注项目，简化标注人员的思考过程，尽量以选项形式替代手动输入，对于必须要手动输入的选项如三级标签，做好标签库的维护和联想词提示功能等。

对于使用文字很难直观描述的选项，通过双方共同建设标注样例文档的形式进行解决，罗列出具有代表性或容易出现问题的样例和标注选项，便于标注同学理解。

对于标注系统来说，最理想的情况下当然是对每天全站新增的全部视频都进行标注，但在实际的实现过程中，在时间和资源的限制下，每天只允许对头部视频进行标注；另一方面，每天全站新增的视频也不是每一个都有推荐的价值，如果不能对哪些视频适合标注并推荐进行正确判断的话，势必会造成资源的浪费。

对于标注数据的选取：

首先，要进性合法性的判断，不符合硬性条件的视频直接进行过滤；
其次，标注是对视频进行先验的过程，为了保证标注的及时性及可用性，可以根据与博主或渠道有关的属性进行判断，或者也可以参考该数据在很短时间内的分发及消费情况（需要通过统计来了解视频传播的时间路径）；
第三，要最大程度结合机器和人工，利用模型先对视频进行预识别和判断，结合模型得分和标注顺序来提高标注的效率。

标注系统为视频分发构建了桥梁，使得用户历史行为可以映射到标签上，并可以通过标签来召回视频。

标注数据的应用分为直接和间接两大类。直接应用即根据标注人员所打的标签进行召回并按照一定条件进行排序；间接应用则是根据标注数据训练相应的模型，并根据模型对全站合法视频识别并分发。一般来说，后者能够召回的视频更多，但是准确率较前者可能略有不足。

在数据监控方面，要着重关注以下方面：

本文来自投稿，不代表重蔚自留地立场，如若转载，请注明出处https://www.cwhello.com/215595.html

如有侵犯您的合法权益请发邮件951076433@qq.com联系删除