将数据导入 Orange 并构建树

arafatenzo · Post by **arafatenzo** » Sun Dec 22, 2024 10:30 am

要将数据导入 Orange，我们必须使用“文件”功能并在相应字段中输入我们创建的工作表的地址。

如何将数据导入Orange软件

导入后，我们必须设置“类型”和“角色”字段，如下所示：

在 Orange 软件中澳洲电话号码格式设置“类型”和“角色”字段

随后，我们构建包含所有必要元素的分析树。

我们将使用：

数据表：查看包含处理前后数据的表；
选择行：选择行并过滤不需要的行；
K-Means：对数据进行聚类；

散点图：可视化数据。

分析树

通过“数据表”，我们将看到导入的数据（有助于检查一切是否正确）。

Orange软件的数据表功能

选定的行允许我们进行过滤，以选择最感兴趣的行并消除任何虚假结果。

一个好主意是从以下设置开始（但我们可以根据需要调整过滤器）：

位置在3到10之间；

点击次数 > 10；

展示次数 > 100；

点击率 < 15。

设置建议

K-Means使用同名的聚类算法。在这种情况下，它将根据印象进行聚类，定义一种干预优先级。

我们设置要创建的集群数量（在本例中为 3）。

K-Means：确定簇的数量

图形定位分析——散点图
对于图形表示，我们使用散点图（或散点图或散点图），它允许在笛卡尔空间上表示数据集的变量。

让我们按如下方式设置散点图：

颜色代表使用 K 均值创建的 3 个聚类，有助于更好地识别需要处理的区域。

点击率和展示次数之间的关系使我们能够发现哪些键带来的访问量与其潜力相比较少：位于左上角的键肯定表现不佳，因为在展示次数较多的情况下，点击次数平均较低。

一旦确定了具有最大余量的键，就需要调查低性能背后的原因，例如，这可能源于搜索结果中的非最佳位置或不良的片段优化（标题和第一个中的元描述）。

为了帮助我们进行分析，我们可以添加与点的“大小”相关的第三个维度，该维度可以与 SERP 中距第一个位置的距离相关联。

一旦找到要调查的元素，只需跳过它即可查找与该元素相关的所有信息。根据我们输入的数据我们可以看到：

添加的任何其他字段。