加入收藏 | 设为首页 | 会员中心 | 我要投稿 广西网 (https://www.guangxiwang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 创业 > 正文

两年后台产品经理工作,我把这些讲给你听(中)

发布时间:2019-11-24 01:55:45 所属栏目:创业 来源:做站长
导读:2017年入职,2019离职,2年社交产品后台的工作,让我对后台产品有了很多思考与总结;汇总成这3万字,分上中下三篇发布,此为中篇。希望能对大家有所帮助。 接上篇,继续讲第二部分:做事节奏。 7. 入库流程模拟 当结果数字被验证方案确定无问题,开始推进

我们在输出分类的时候,会在页面上给审核同学看,为什么机器打上这个分类,如果机器十分确定,置信度高,会标绿;机器不确定,置信度一般,会标黄;机器懵了,置信度低,会标红。绿色人工可以不干预,黄色会在提交的时候闪一下提示你看我一下,红色必须干预去矫正我。

对于视频分类的判断,还会更复杂一些,我们主要去用ASR技术来去识别语音转文字,然后再用NLP接手,有一些视频还会日常带字幕,也会用OCR技术来去识别字幕,用于内容质量打分的服务。

同时由于视频的特殊性,我们的视频博主的审核台与文本类也是不一样的,会将博主的视频以时间轴形式展现,下方呈现一个一个机器识别出的tag,而最上方与博主信息在一起的部分,就是机器认定的博主的分类情况,博主运营也相对方便地修改机器标签。

2. 内容质量分

内容质量分的核心是内容的连贯性,内容质量分主要服务于我们的业务线划定。

我们只有2条业务线,标准化交易业务线,非标交易业务线。对标准化交易业务线的博主内容质量要求不高,基础数据到达一定量级就可以;对非标博主的内容质量要求非常高,因为要帮助客户制作原创创意软文或软广了。

对于微信文本,我们会将连续的低营销度的内容,分类进行串行观察,看是否能在同一点阵聚类;原创标记占比,非原创内容重合度占比;内容的排版是否相似,我们调用第三方的编辑器一起做这项工作;文章长度是否都在某一区间,这些都是用于判定内容质量的特征。

当连贯性大于某个阈值时,比如说0.8,我们就判定博主为高质量原创内容。

对于微博,单从内容判断就很难了,我们需要判定博主的互动情况,结合内容查重;判断互动的比例如何;和他互动者的博主都是谁,头像、昵称、时间轴是否有水号嫌疑;是否会员加V等信息来判断博主质量。

对于视频,仍然从内容质量度去切入。比方说刚刚说的OCR识别字幕,是否每个视频都会带字幕;是否声纹是一致的(调用的百度识别服务);是否出现的主体(人物和场景)都是一致的(百度服务);横屏竖屏、内容长短、视频质量,综合和微信差不多,串连起来判定博主的内容质量分,这就是为什么刚刚举的例子,那个可能不是一个好博主的原因。

3. 营销度分

最后AI会输出这个博主的营销度评分,我们主要来根据这个博主的营销特征判断它的商业化程度,供后续的估值模型影响博主价值和分级。

在业务中,供库存模型进行计算该博主的库存周期和库存数量。

营销特征主要包含:

文本里面提及了文字,像促销、销量、折扣、价格、宝宝们等;还有一些二跳里很明显的像阅读原文URL、二维码、URL、淘口令等;深层一些的比方说小程序的标题名字是否带营销倾向,小程序跳转后的主页是否类电商,对图片的细分判断比如图主体是什么,主要识别角标位置,是否带品牌logo、价格、日期,或一些其他营销类的用语,结合OCR技术;对视频来讲,主要是是否带橱窗,以及ASR转化为文本后,NLP接手,这个过程和文字处理是一样的。

以上都是我们大量数据分析之后的一些结论,不可能穷举,全部的特征词大概上千个。

其实这个过程是线性流程,但是AI是个黑盒,他是一起输出,计算也是一起计算,我们矫正也是一起矫正,所以3组数据之间可以互利互惠。

目前所有数据也都可以为空。一般情况下不会出现为空,一旦为空会稍后重新计算,每个值会最多计算3次,如果最终还是为空,会写入null,并发送短信通知对应的算法工程师,第二天予以排查。

打分情况会影响估值和间接影响登记,若为空则打分与等级也会响应为空,因为没有基础数据供加工计算,此时后续影响的博主分配逻辑也会有异常分支,会将这类博主只派发给一个特殊的组去处理;他们的经验相对丰富,可以脱离机器和自己的主管,客观补全对应的数据。

当AI计算完毕后,将信息更新至数据库,并且公众号会推送通知,通知注册者进行人工填写后续的能力内容,这时候人工需要填写的就是刚刚所说的SKU里面的属性信息,主要是销售属性的能力信息,也就是玩法,行业。页面我就不详细再说了,剩下的非销售属性中的条款,大部分预设条款可以下拉便利填写,一些自定义输入文字的,后续人工会审核。

总之,最终需要收集的结构化的信息就是,哪个博主可以做哪个行业的客户,可以为这个客户提供怎样的内容形式,每一种内容形式编辑特殊条款,条款通用条款是不可修改的,这是平台约束力体现,之后注册者的工作就完成了,会提交进行审核。

与此同时,AI除写入数据库外,还会将结果推送至下一个服务——估价模型。

八、老数据处理策略

当上述完成以后,理论上入库的初始环节也就结束了。

1.新注册博主新填写即可;老库里的博主数据清洗也要进行;

2.历史发生交易的博主,我们利用之前的订单分类,直接赋予相关的能力SKU,结合订单中的权益信息,直接写入,写入完成后通知博主进行检查;

3.没有发生过交易行为的博主,先进入下面的分级模型;

  • 等级过低的博主直接放弃;
  • 一般类型的博主通过短信等通知手段,召回博主进行填写;连续3次召回不填写的博主,也将被放弃。
  • 每次的SKU修改是有锁定期的,双微30天内修改1次,抖音快手7天修改1次。

1. 估价模型

估价模型这是非常重要的一个模型。估价是用于分级的,估价模型是一个通用服务,就是根据AI输出的分类、内容质量分、营销度打分,和基础数据(比如粉丝数、内容平均数据、内容发布频次等),用已有的订单的同类博主的订单价做聚类分析。

估价是十分难控制在一个单点的,我们最终不断调整、不断细化的点就在于不同的三个维度下,控制左右区间的大小,尽可能拟合最终的订单结果,不断调整。

(编辑:广西网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!