您可以使用“样本”节点来选择记录的子集进行分析,或指定要废弃的记录的比例。受支持的样本类型有许多,其中包括分层、聚类和非随机(结构化)样本。需要使用抽样的原因有以下几点:
通过评估数据子集上的模型提高性能。通过样本评估的模型通常与利用全部数据集得到的模型一样准确,并且如果提高的性能允许您体验尚未尝试的不同方法,那么所得的模型还有可能更为准确。
选择相关的记录或交易组来进行分析,例如选择在线购物车(或市场购物篮)中的所有项目,或特定近邻的所有属性。
指定单元或观测值以进行随机检查,从而确保质量、防止欺诈和保证安全。
注意:如果仅希望将数据分区到训练样本和检验样本以进行验证,那么可以改用“分区”节点。有关更多信息,请参阅分区节点主题。
样本的类型
聚类样本。属于样本组或聚类,而不是单个单元。例如,假设您有一个数据文件,其中每个学生对应一条记录。如果按学校聚类并且样本大小为 50%,那么将选中一半的学校并从每所选定的学校中选出所有学生。而去除未选中学校的学生。一般而言,您可能期望选出大约一半的学生,但由于学校规模不同,百分比也可能不太准确。同样,您可以按交易标识对购物车项目进行聚类,以确保保留所选交易的所有项目。有关按镇对属性聚类的示例,请参阅 complexsample_property.str 样本流。
分层样本。在总体或分层的没有重叠的子组中独立选择样本。例如,您可以确保以同样的比例对男性和女性进行抽样,或者可以确保在城市总体中显示每个地区或社会经济群体。还可以为每层指定一个不同的样本大小(例如,如果您认为一个组在原始数据中被低估了)。有关按县对属性分层的示例,请参阅 complexsample_property.str 样本流。
系统化或 n 中取 1 抽样。如果随机选择难以实现,那么可以系统(以固定间隔)或顺序方式抽取单元。
抽样加权。在绘制复杂样本时会自动计算抽样加权,并且这些加权会与每个抽样单元在原始数据中所表示的“频率”大致对应。因此,样本的加权总和应该可以估计原始数据的大小。
抽样框
抽样框定义将包含在样本或研究中的观测对象的潜在源。在某些情况下,抽样框可以识别总体中的每个单独成员并且可以包含样本中的任何成员 - 例如,对来自某条产品线的产品进行抽样。更普遍的情况是,您将无法访问每一个可能的观测对象。例如,在选举之前,您无法确定谁将在选举中投票。在这种情况下,您可以将选民名册作为抽样框,即使在下列情况下也是如此:有些注册人不会投票,而有些人在您停止注册时还尚未注册,但可能会投票。您无法对抽样框之外的任何人进行抽样。抽样框是否在本质上与您尝试评估的总体足够相似,是必须要为每个现实的观测对象解决的问题。