Игры разума. Размер выборки

18 сентября 2023, 14:38
|
Алексей Бачеров

Картинка получена с помощью сервиса https://fusionbrain.ai/

Очередная игра в выходные на моём Телеграмм Канале. Вопросы и пояснения. Как и в прошлый раз предлагаю попробовать решить задачи, а уже потом переходить к пояснениям.

Преамбула к игре:

Выходные, время немного развлечься и порешать задачки. В этот раз я решил коснуться вопроса, который хорошо бы знать людям, которые занимаются инвестициями, управлением портфелями, создают и тестируют свои торговые стратегии. Но вопросы я придумал из области социального характера, так как математика в них одинаковая.

Поехали!

👇👇👇

Финансовое издание решило провести исследование по финансово-экономически вопросам среди 250-ти эмитентов, чьи акции торгуются на Московской Бирже.

Вопрос 1

По оценкам отдела занимающегося опросами, в лучшем случае из всех представленных эмитентов пройти анкетирование согласятся не более 30%. Какова будет статистическая ошибка полученного исследования если её рассчитать самым простым и быстрым способом?

a) 3,16%

b) 4,92%

c) 5,16%

d) 5,77%

e) 6,32%

Вопрос 2

Сколько финансовому изданию надо потратить дополнительно денег, чтобы уменьшить ошибку исследования на 1,5 процентных пункта, если известно, что себестоимость одного анкетирования составляет 5 тысяч рублей.

a) 285 тысяч

b) 310 тысяч

c) 325 тысяч

d) 350 тысяч

e) 385 тысяч

Вопрос 3

Сможет ли финансовое издание организовать среди эмитентов на Московской бирже исследование, которое бы имело статистическую ошибку меньше 4%, если в исследовании удастся опросить всех эмитентов.

a)Да

b)Нет

Пояснения к задачам от 16.09.2023

Подведём итоги и посмотрим как решались задачи в рубрике «Игры разума» от 16.09.2023.

В задаче 1 предлагалось посчитать статистическую ошибку самым простым и быстрым способом. Для этого нужно было вспомнить чему равна дисперсия (среднеквадратичное отклонение) биноминальной (бинарной) переменной, которая выражается следующей простой формулой:

sigma(S)^2 = variance(S) = n*p*(1-p)

где S — сумма всех успехов в выборке, sigma(S) — среднеквадратичное отклонение, variance(S) — дисперсия, n — количество наблюдений, p — вероятность успеха, (1-p) — вероятность неудачи.

Чтобы посчитать статистическую ошибку, нам нужно было бы получить дисперсию доли:

[sigma(p)]^2 = variance(S/n) = [1/n]^2*variance(S) = p*(1-p)/n

Отсюда статистическая ошибка равна:

sigma(p) = [p*(1-p)/n]^(1/2)

Максимально возможная дисперсия бинарной переменной в схеме Бернулли будет при p=0.5, Вы можете легко это проверить, например, в EXCEL, создав простую формулу из трех ячеек, где в первой будете задавать сам p, во второй будет автоматически считаться 1-p, а в третьей уже будет произведение p*(1-p). Максимально значение произведения при 0<=p<=1 , будет 0,25, при любых других комбинациях оно будет меньше. Тогда получается, что максимальная стандартная ошибка доли по выборке n будет рассчитываться так:

sigma(p-max) = [0.5*(1-0.5)/n]^(1/2) = [0.25/n]^(1/2) = 0.5/(n)^(1/2)

Возвращаясь к Задаче 1 смотрим, сколько максимально по мнению сотрудников отдела, занимающихся опросами, может пройти анкетирование эмитентов:

0,3*250 = 75

Воспользовавшись формулой для стандартной ошибки получим:

sigma = 0.5/(75)^(1/2) = 0.0577… или 5,77% поэтому правильный ответ - 4 (d).

Задача 2 логично связана с задачей 1. Нам нужно было посчитать сколько необходимо опросить компаний, чтобы ошибка уменьшилась до 5,77%-1,5% = 4,27%, из получившегося числа вычесть 75 в задаче 1, и данную дельту умножить на 5000 рублей:

n2 = p*(1-p)/sigma_new^2 = 0.5*0.5/0.0427^2 = 137

dn = n2-n = 137-75 = 62

dBudget = dn * 5000 = 62 * 5 000 = 310 000, таким образом правильный ответ - 2 (b)

Последняя задача была совсем элементарной. Нужно было просто посчитать ошибку, если бы все эмитенты приняли участие:

sigma = 0.5/(250)^(1/2) = 0.0316… или 3,16% поэтому правильный ответ - Да (a).

На практике часто анализируют подобного типа данные: анкетирование или опрос населения, контроль качества продукции и многое другое. Именно поэтому опросы общественного мнения редко превышают 1500-2000 человек, и горе тем крикунам, которые требуют провести опрос среди миллиона. Конечно, качество выборки и её репрезентативность в это случае играют первостепенную роль, но количество будет вполне достаточным. Дисперсию и стандартную ошибку доли используют в расчете приблизительных доверительных интервалов вероятности при проверке статистических гипотез. Несложно догадаться, как эти знания помогают при проверке инвестиционных идей. Достаточно заменить в этом примере опрашиваемых людей на цены, например на конец дня, или количество сделок при проверки торговой стратегии и мы легко получим статистическую ошибку.

Помню лет 5 назад я был на презентации в одной инвестиционной компании (она обманывала людей, а организаторов задержали правоохранительные органы), которая предлагала своим клиентам использовать робота, торгующего на золоте. Весь бэк-тест состоял из 5-ти сделок за год, результат был впечатляющим. Анимация завораживала неподготовленных инвесторов. Но зная, как решаются задачи подобного типа теперь, вас уже будет не так легко провести! Кстати, алгоритмическая стратегия ABIGTRUST не подтасовывает данные и не рисует завораживающих графиков, ничего не имеющих с реальностью.

Данная публикация является личным мнением автора. Мнение владельца сайта может не совпадать с мнением автора.

537 | ★1

1 комментарий

Задумался, будет ли при опросе всех эмитентов (т.е. вроде всей генеральной совокупности) статистическая ошибка, т.е. по сути отклонение параметра выборки от параметра генеральной совокупности?