为了训练出良好的弱监督模型,对标记函数/源有哪些要求?
中等数量的标签源:标签源需要有足够的数量 – 在某些用例中,最多可达 100 个。
标签源不相关:目前,标签模型 如果标记源为一组不相交的样本 的实现没 如果标记源为一组不相交的 有考虑到强相关性。因此,最好您的领域专家不要提供相互依赖的标签功能。
来源重叠:标记函数/来源需要重叠,以便算法检测一致和冲突的模式。 提供标签,则弱监督方法将无法估计哪个来源应该值得信任。
来源不太稀疏:如果 如果标记源为一组不相交的 所有标记函数仅标记总样本数量的一小部分,这将影响模型性能。
来源优于随机猜测
这是一项很容易满足的要求。只需将手动标记工作 手机号码数据 所使用的逻辑作为规则制定,就可以创建标记功能。
不允许使用对抗性来源:在处理噪声标签时,弱监督比其他机器学习策略灵活得多,即弱标签源比随机猜测要好。尽管如此,弱监督在处理总是错误的弱源时还不够灵活。当其中一个标签函数有缺陷时,这种情况可能会发生,因此比简单的随机猜测更糟糕。在收集 如何将 Facebook 虚拟活动添加到你的发布策略中 弱标签源时,更重要的是要集中精力发现那些“坏苹果”,而不是花时间减少弱标签源矩阵中的整体噪声
展望未来
亲爱的劳拉:数据治理政策怎么样
去年我写了一本书《颠覆数据治理》,因为我坚信 使 新加坡电话列表 用弱 糕的数据治理 (DG) 程序会阻碍数据程序尽可能地成功。在努力挑战数据治理现状的过程中,我收到了很多关于数据治理如何“真正”发挥作用的问题。我将在名为“亲爱的劳拉”的 DATAVERSITY® 博客上开始分享这些问题和答案(嘿,我是数据大师,不是营销大师。