Главная » cтатьи | форекс

Качество данных

28 марта 2009 Комментариев нет

Качество данных

Плохие данные могут привести любой анализ в состояние полного хаоса,
дать потенциально убыточные заключения и привести к потере драгоцен-
ного времени. Поэтому для проведения тестов требуется применять толь-
ко лучшие из доступных данных. Некоторые прогностические системы, на-
пример основанные на нейронных сетях, могут быть чрезвычайно чувстви-
тельны к нескольким отклонениями, ошибочным данным; в таких случаях
необходимость в чистых данных особенно высока. Время, потраченное на
поиск и окончательную чистку хороших данных, не будет потеряно.
Ошибки данных принимают много различных форм, и некоторые из
них весьма заметны. При торговле в реальном времени порой попадают-
ся тики с откровенно ошибочными, попросту невозможными ценами. В
течение секунды индекс S&P 500 может «упасть» с уровня 952,00 до 250,50!
Это что — гигантский обвал рынка? Нет: спустя пару секунд в следую-
щем тике индекс опять будет на уровне 952,00 или где-то рядом. Что слу-
чилось? Плохой тик — «шумовой выброс» в данных. Такие ошибки, если
они не будут обнаружены и исправлены, могут погубить результаты са-
мой лучшей механической торговой модели. Более опасны, хотя чаще
встречаются и труднее обнаруживаются, обычные мелкие ошибки в уров-
нях цен и других показателях, попадающих к трейдеру от поставщиков
данных. Лучшие из поставщиков неоднократно проверяют свои данные
и сообщают о поправках в случае обнаружения ошибок. Например, по-
чти каждый день Pinnacle Data автоматически сообщает о программных
коррекциях ошибок. Многие из этих мелких обычных ошибок не очень
опасны для тестирования систем, но заранее этого знать нельзя.
В зависимости от чувствительности испытываемой торговой или про-
гностической модели и таких факторов, как доступность программ для
проверки данных, может иметь смысл проводить различные статистичес-
кие исследования для поиска подозрительных данных. Для обнаружения
этих точек, или выбросов, как их иногда называют статистики, существу-
ет ряд методов. Порой встречаются пропущенные, лишние и несоответ-ствующие рыночным реалиям точки данных; их следует находить и кор-
ректировать. Как пример проверки данных, в табл. 1-1 и 1-2 приведены
случаи обработки данных с помощью программы, ищущей выбросы, про-
пуски и ошибочные значения.
Табл. 1-1 изображает результат программы, проверявшей данные по
непрерывным фьючерсам на индекс S&P 500 (дневные данные от Pinnacle
Data Corporation (800-724-4903)). Программа не обнаружила неадекватных
цен или объемов в этом наборе данных; не было примеров максимальной
цены, меньшей, чем цена закрытия, минимальной, большей, чем цена от-
крытия, отрицательного объема и других ложных данных. Два дня, впро-
чем, имели подозрительно высокие значения: один — на 10/19/87 (в отче-
те 871019), а другой — на 10/13/89. Аномальное значение на 10/19/87 не
представляет собой ошибки, а связано с волатильностью, вызванной круп-
ным падением рынка; значение на 10/13/89 также не является ошибкой,
а связано с так называемым юбилейным эффектом. Поскольку эти два
значения не были ошибочными, коррекции не потребовалось. При этом
наличие таких значений в данных должно привлечь внимание к тому фак-
ту, что на рынке случаются события, когда изменения цены достигают
экстремальных пропорций, и система должна быть способна справляться
с такими случаями. Все значения в табл. 1-1 стандартизованы, т.е. вычис-
лены путем деления ценового интервала данного дня на усредненный ин-
тервал 20 предыдущих дней. Как часто бывает с рыночными данными,
распределение таких стандартизованных показателей более «растянуто»,
чем можно было бы ожидать при нормальном распределении, но, тем не
менее, статистически события 10/19/87 и 10/13/89 — исключения. Во всех
остальных случаях распределение давало упорядоченную картину: стан-
дартизованные данные изменялись от 0 до 7 и лишь в отдельных случаях
превышали 10.
Утилита также пометила 5 дней, как имеющие сильные отклонения
цены закрытия. Как и ценовой диапазон дня, отклонение измерялось в
виде распределения значений, с использованием стандартизованного со-
отношения цен закрытия. В данном случае стандартизованное соотноше-
ние вычислялось путем деления абсолютного значения разности цены
закрытия и предшествующей цены на среднее от 20 предыдущих таких
разностей.
При исключении 5 дней с наибольшими отклонениями наблюдается
подобное растянутое распределение изменений цен закрытия от 0 до 7
стандартизованных единиц. Значения, близкие к отклонению, равному
8, отмечались три раза, а значения 10 — только два раза. Рассмотрение
данных торговых дней показывает, что в них имела место аномальная ак-
тивность рынка, а не ошибка. Неудивительно, что два из пяти помечен-
ных дней — те же самые, что выделялись при рассмотрении величины
дневного диапазона цен. В конце концов программа не обнаружила про-
пущенных дней, данных, приходящихся на нерабочие дни, а также дан-ных с повторными или перепутанными датами. Единственные проблем-
ные моменты являются следствием аномалии рынка, а не ошибок. В об-
щем набор данных по S&P можно считать чрезвычайно чистым, что и не-
удивительно, зная о высокой репутации поставщика — Pinnacle Data
Corporation.
Как пример низкого качества данных рассмотрим последовательность
котировок компании Apple Computer (AAPL), полученных авторами от
одного знакомого. Результаты проверки приведены в табл. 1-2.
В отличие от предыдущей выборки, здесь данные за два дня были по-
мечены как имеющие необъяснимые логические ошибки. В одном случае
цена открытия равнялась нулю и была ниже минимальной цены. В дру-
гом случае обнаружилась аномальная величина дневного диапазона цен
(что может быть как ошибкой, так и последствием аномальной торговли).
В нескольких случаях отмечалось сильное отклонение цены закрытия,
возможно ввиду нескорректированных дроблений акций. Повторяющих-
ся или перепутанных дат не обнаружено, но немало дней было пропуще-
но. В данном случае пропущенные точки соответствуют праздникам и, сле-
довательно, просто указывают на разный подход к работе с данными; мы
обычно по ряду причин заполняем праздничные дни данными предыду-
щего дня. При том что последовательность включает котировки только с
1/2/97 по 11/6/98 (котировки S&P 500 — с 1/3/83 по 5/21/98), обнаруже-
ние ряда серьезных ошибок с помощью довольно простой процедуры не
может не настораживать.
Суть в том, что на этих примерах показана важность приобретения
качественных данных от поставщика, имеющего хорошую репутацию и
ведущего серьезную работу. Это сэкономит время, обеспечит надежные,
чистые данные для разработки и тестирования систем и для торговли в
дальнейшем. Более глубокий обзор проблем качества данных, в том числе
и то, как, собственно, создаются рыночные котировки, как их передают и
хранят, можно найти у Джурика (Jurik, 1999).

ГЛАВА 1 ДАННЫЕ 27
Таблица 1—1. Результаты программы по проверке данных непрерывных
фьючерсов на S&P 500 от Pinnacle
Проверяемый файл данных: /data/sp.lng Число полей:7
Значения данных: от 830103 до 980521
Общее количество дней: 4014
Дни с нелогичными ценами или объемами
Дата Открытие Макс Мин Закрытие Объем ОткрИнтер
Число=0
Дни с исключительными максимальными/минимальными параметрами
Дата Открытие Макс Мин Закрытие Объем ОткрИнтер Значение
871019 424.400 429.400 358.400 361.900 162022 172178 10
891013 496.100 497.550 466.950 466.950 62514 125604 10
Число=2
Распределение значений
Значение Количество
1 3838
2 128
3 11
4 6
5 5
6 1
7 0
8 0
9 0
10 2
Дни с отклонениями цены закрытия
Дата Открытие Макс Мин Закрытие Объем ОткрИнтер Значение
860911 413.450 413.450 401.550 402.350 151300 120864 8
871019 424.400 429.400 358.400 361.900 162022 172178 10
891013 496.100 497.550 466.950 466.950 62514 125604 10
911115 507.450 507.450 488.250 492.750 65533 151861 8
971027 960.400 966.300 896.400 896.400 85146 201015 8
Число=5
Распределение отклонений
Относительное отклонение Количество
1 3439
2 352
3 122
4 48
5 16
6 9
7 0
8 3
9 0
10 2
Дни с повторяющимися или перепутанными датами
Дата Открытие Макс Мин Закрытие Объем ОткрИнтер Значение
Число=0
Пропавшие данные или данные, приходящиеся на выходные
Дата Ошибка
Число=0

Таблица 1—2. Результаты программы по проверке данных постоянных
контрактов AAPL
Проверяемый файл данных: ../techstks/aapl.dat Число полей:7
Значения данных: от 970102 до 981106
Общее количество дней: 468
Дни с нелогичными ценами или объемами
Дата Открытие Макс Мин Закрытие Объем ОткрИнтер
981019 0.000* 38.063 35.875 37.500 4248000 О
981030 36.500 36.500* 36.250 37.125 2836100 О
Число=2
Дни с исключительными максимальными/минимальными параметрами
Дата Открытие Макс Мин Закрытие Объем ОткрИнтер Значение
980106 15.938 20.000 14.750 18.938 16191000 0 7
Число=1
Распределение значений
Значение Количество
1 407
2 29
3 6
4 1
5 1
6 0
7 1
8 0
9 0
10 0
Дни с отклонениями цены закрытия
Дата Открытие Макс Мин Закрытие Объем ОткрИнтер Значение
970806 25.250 27.750 25.000 26.313 37430000 0 10
980102 13.625 16.250 13.500 16.250 6411700 0 10
980106 15.938 20.000 14.750 18.938 16191000 0 7
Число=3
Распределение отклонений
Относительное отклонение Количество
1 380
2 40
3 12
4 5
5 2
6 3
7 1
8 0
9 0
10 2
Данные с повторяющимися или перепутанными датами
Дата Открытие Макс Мин Закрытие Объем ОткрИнтер Значение
Число=О
Даты пропавших данных или данных, приходящихся на выходные
Дата Ошибка
970217 Пропущен
970328 Пропущен
970526 Пропущен
970704 Пропущен
970901 Пропущен
971127 Пропущен
971225 Пропущен
980101 Пропущен
980119 Пропущен
980116 Пропущен
980410 Пропущен
980525 Пропущен
980703 Пропущен
980907 Пропущен
Число=14

Оставить комментарий или два

Пожалуйста, зарегистрируйтесь to post a comment.