本文共 1599 字,大约阅读时间需要 5 分钟。
文 / Google Big Picture 团队高级软件工程师 James Wexler
要通过机器学习 (ML) 模型取得最佳结果,您需要真正理解您的数据。然而,机器学习数据集可能包含数以亿计的数据点,每个数据点又都包含数百个(甚或数千个)特性,因此,直观地理解整个数据集几乎是不可能的。可视化工具有助于发现大型数据集的微妙之处并从中发现真知灼见。一张图片传达的信息胜过千言万语,而一个直观的可视化工具则更胜一筹。
在执行 PAIR 计划的过程中,我们发布了 Facets,一个用于帮助理解和分析机器学习数据集的开放源代码可视化工具。
可使用 Facets Overview 了解数据的每个具体特性,或使用 Facets Dive 探究个别观察的数据集。这些可视化选择允许您调试您的数据,这在机器学习中与调试您的模型一样重要。您可在 Jupyter notebooks 内部轻松使用它们,也可将其嵌入网页。除开放源代码外,我们还创建了一个 Facets 演示网站:
https://pair-code.github.io/facets
此网站允许任何人直接在浏览器中可视化他们自己的数据集,而不必安装或设置任何软件,甚至不需要数据离开您的计算机。
Facets Overview 自动帮助用户快速理解其数据集特性的值分布。可在同一个可视化视图中比较多个数据集(如训练集和测试集)。妨碍机器学习的常见数据问题被推到前端,例如,异常的特性值、缺失值比例很高的特性、分布不均的特性,以及数据集之间偏态分布的特性。
▲ Facets Overview 以可视化方式显示 UCI 人口普查数据集[1]的六个数字特性。这些特性按照不均匀性排序,分布最不均匀的特性位于顶部。红色的数字表示可能的故障点,在这种情况下,将带有高比例值的数字特性设为 0。右侧的柱状图允许您比较训练数据(蓝色)和测试数据(橙色)之间的分布。
▲ Facets Overview 以可视化方式显示 UCI 人口普查数据集九个分类特性中的两个特性。这些特性按分布间距排序,训练数据集(蓝色)和测试数据集(橙色)之间偏态最显著的特性位于顶部。请注意,在“Target”特性中,由于测试数据集中的值末尾带有句点(“<=50K”与“<=50K.”),训练数据集与测试数据集的标签值存在差异。这个差异可在特性图表中以及表格的“首列”条目中看到。这种标签不匹配性将导致针对该数据进行训练和测试的模型无法得到正确评估。
Facets Dive 提供了一个易于自定义的直观界面,用于探索数据集中不同特性数据点之间的关系。借助 Facets Dive,您可以根据每个数据点的特性值来控制数据点的位置、颜色和视觉表征。如果数据点具有与其关联的图像,则可使用图像作为视觉表征。
▲ Facets Dive 对“Quick, Draw!”数据集中大量面部绘图进行的可视化处理,结果显示了绘图中笔画数与点数之间的关系,同时可使“Quick, Draw!”分类器将这些绘图正确归类为面部。
有趣的事实: 在大型数据集中(如 CIFAR-10 数据集),一个小小的人为标记错误很容易被忽视。我们通过 Dive 检查了 CIFAR-10 数据集,结果发现了一只青蛙猫——一张青蛙图片被错误标记为猫!
▲ 您能找出那只青蛙猫吗?
在 Google 内部,我们已借助 Facets 实现巨大价值,现在,我们期望与全世界分享这些可视化工具。我们希望这些工具能帮助您发现您的数据中的新鲜有趣的事实,进而激发您创建出更强大、更准确的机器学习模型。由于这些工具已开放源代码,因此,您可以根据您的具体需求自定义可视化内容,或为该项目做贡献,以帮助我们更好地理解我们的数据。
转载地址:http://ewkra.baihongyu.com/