Blog of Samperson

论文#2 | iSAX - disk-aware mining and indexing of massive time series datasets

2019-08-08

以下是论文iSAX: disk-aware mining and indexing of massive time series datasets的笔记。

已有方法及改进

[1] 已有方法通过首先对原数据进行符号化来促进时间序列搜索,但是都会引入新的衍生符号定义的距离测量


[2] multi-resolution symbolic representation - indexable Symbolic Aggregate approXimation (iSAX)
用于大数量级数据集的索引,使用符号词对数据进行内部组织和索引,但根据原始数据上的ED检索对象


[3] 证明: 构建基于的索引结构 - 有助于快速精确搜索更快速的近似搜索
利用两种搜索类型的组合作为数据挖掘算法中的子例程,允许精确挖掘真正庞大的数据集,具有数千万个时间序列,占用多达一兆字节的磁盘空间


[4] 分析了位约束环境(bit constrained environment)下时间序列表示的参数敏感性(parameter sensitivity)、近似搜索效率(approximate search effectiveness)和下界比较(lower bound comparisons)


iSAX的优点

[1] 可以动态更改用于评估表示的位数(the number of bits used for evaluation of representation),与desired resolution对应
这种特性允许叶节点上索引零重叠的时间序列(index time series with zero overlap at leaf nodes),同TS树,不同于R树


[2] 不需要使用专门的数据库或文件管理器 - 让索引技术可以轻松采用、复制和扩展
使用标准Windows XP NTFS文件系统磁盘访问
对比:使用复杂的DBMS可能可以达到更快的时间


[3] 具有符号性 - 允许使用对实际值数据没有很好定义的数据结构和算法
包括后缀树、散列、Markov模型


基础: SAX

[1] SAX + 允许扩展散列 => multi-resolution representation

PAA是一种理想的中间表示,因为可以快速降维,提供下边界的距离度量。例子中PAA表示将时间序列的维数从16减少到4。

如果n不能被w整除,求和可以修改为采用分数值。

[2] SAX将PAA作为输入,并将其离散化为一个小的符号字母表。
离散化:通过想象一系列与X轴平行的断点,用离散标签标记断点之间的每个区域。任何落在区域的PAA值都可以映射到适当的离散值。


[3] 如果我们使用有序的数字列表Breakpoints = β1 , … , βa−1,我们可以确保SAX词中几乎等概率的符号,使标准正态分布 N(0,1) 曲线下从 βi 到 βi+1 的面积 = 1/a。β0 和 βa 分别被定义为 −∞ 和 ∞。
基数a = 2 ~ 8时的断点:

[4] SAX(T, w, a) = Ta = {t1, t2, …, tw−1, tw}

时间序列T和S的ED推导:(dist(ti, si)通过查表获得,例如 dist(00, 01) = 0,dist(00, 10) = 0.67)

[5] 通过更多的SAX符号或者更高的基数a可以获得更紧的下界。


iSAX

[1] 使用上标表示基数,从而防止模棱两可:

[2] 比较不同基数的iSAX,需要将较低的基数表示提升为较大的基数表示
思想:基数为X的iSAX的断点是基数为2X的iSAX断点的子集(可以参见表2)
S2 = {0, 0, 1, 1} => S8 = {011, 011, 100, 100}

转化为有损压缩,无法撤回

iSAX的索引

未完待续