论文#2 | iSAX - disk-aware mining and indexing of massive time series datasets

以下是论文iSAX: disk-aware mining and indexing of massive time series datasets的笔记。

已有方法及改进

[1] 已有方法通过首先对原数据进行符号化来促进时间序列搜索，但是都会引入新的衍生符号定义的距离测量

[2] multi-resolution symbolic representation - indexable Symbolic Aggregate approXimation (iSAX)
用于大数量级数据集的索引，使用符号词对数据进行内部组织和索引，但根据原始数据上的ED检索对象

[3] 证明: 构建基于树的索引结构 - 有助于快速精确搜索和更快速的近似搜索
利用两种搜索类型的组合作为数据挖掘算法中的子例程，允许精确挖掘真正庞大的数据集，具有数千万个时间序列，占用多达一兆字节的磁盘空间

[4] 分析了位约束环境(bit constrained environment)下时间序列表示的参数敏感性(parameter sensitivity)、近似搜索效率(approximate search effectiveness)和下界比较(lower bound comparisons)

iSAX的优点

[1] 可以动态更改用于评估表示的位数(the number of bits used for evaluation of representation)，与desired resolution对应
这种特性允许叶节点上索引零重叠的时间序列(index time series with zero overlap at leaf nodes)，同TS树，不同于R树

[2] 不需要使用专门的数据库或文件管理器 - 让索引技术可以轻松采用、复制和扩展
使用标准Windows XP NTFS文件系统磁盘访问
对比：使用复杂的DBMS可能可以达到更快的时间

[3] 具有符号性 - 允许使用对实际值数据没有很好定义的数据结构和算法
包括后缀树、散列、Markov模型

基础: SAX

[1] SAX + 允许扩展散列 => multi-resolution representation

PAA是一种理想的中间表示，因为可以快速降维，提供下边界的距离度量。例子中PAA表示将时间序列的维数从16减少到4。

如果n不能被w整除，求和可以修改为采用分数值。

[2] SAX将PAA作为输入，并将其离散化为一个小的符号字母表。
离散化：通过想象一系列与X轴平行的断点，用离散标签标记断点之间的每个区域。任何落在区域的PAA值都可以映射到适当的离散值。

[3] 如果我们使用有序的数字列表Breakpoints = β1 , … , βa−1，我们可以确保SAX词中几乎等概率的符号，使标准正态分布 N(0,1) 曲线下从 βi 到 βi+1 的面积 = 1/a。β0 和 βa 分别被定义为 −∞ 和 ∞。
基数a = 2 ~ 8时的断点：

[4] SAX(T, w, a) = Ta = {t1, t2, …, tw−1, tw}

时间序列T和S的ED推导：(dist(ti, si)通过查表获得，例如 dist(00, 01) = 0，dist(00, 10) = 0.67)

[5] 通过更多的SAX符号或者更高的基数a可以获得更紧的下界。

iSAX

[1] 使用上标表示基数，从而防止模棱两可：

[2] 比较不同基数的iSAX，需要将较低的基数表示提升为较大的基数表示
思想：基数为X的iSAX的断点是基数为2X的iSAX断点的子集（可以参见表2）
S2 = {0, 0, 1, 1} => S8 = {011, 011, 100, 100}

转化为有损压缩，无法撤回

iSAX的索引

未完待续

Tags: 数据库索引

← 论文#3 | A Data-adaptive and Dynamic Segmentation Index for Whole Matching on Time Series 论文#5 | Workload-Driven Fragment Allocation for Partially Replicated Databases Using Linear Programming →