Эксперимент с размытием внутренностей гистограммы
Вот график ежедневной посещаемости моего сайта за год по версии Яндекс.Метрики:

В правой стороне как будто бы в среднем столбики повыше стали, но может это только так кажется из-за парочки отдельных высоких столбиков? Яндекс даёт смотреть посещаемость не только по дням, но и по неделям или месяцам, но с ними получается примерно такая же рваная картина — трудно увидеть, наметилась ли какая-нибудь тенденция, скажем.
Иногда поверх гистограмм рисуют кривую, изображающую «тренд», но непонятно, как она построена, это напоминает шарлатанство. Трендов в природе не существует, это всегда некая интерпретация фактических данных. И когда нарисована кривая, посчитанная по невидимой формуле, получается, что интерпретацию за тебя сделал кто-то другой. Хотелось что-то сделать с графиком такое, чтобы он остался честным, но тенденцию стало видно без введения вымышленных чисел.
Сначала я попробовал покрасить каждый столбик цветом в зависимости от его собственной высоты. Идея была в том, что если в какой-то части будет больше цветных столбиков, то там вся зона станет «горячее»:

Теперь всю картину под графиком можно размывать с любым радиусом, чтобы увидеть менее или более долгосрочные тенденции:

Если размыть побольше, видно, что правая часть всё равно остаётся заметно более тёплой, чем центральная:

По краям проявился неприятный эффект: график стал уходить в прозрачность (шахматный фон). Сначала я попытался избавиться от этого, добавив размыватору непрозрачности по краям — просто размножил крайние значения. Но тут же понял, что уже ввёл вымышленные числа.
Как же избавиться от этой прозрачности, не сочиняя ничего? Слева легко — нужно просто взять несколько ещё более ранних чисел:

Но справа это сделать невозможно, ведь никто не знает, какая будет посещаемость в будущем. Получается, этот уход в прозрачность — это и есть правда, ничего с ней делать не нужно. Она показывает, что чем ближе к настоящему, тем меньше у нас данных, чтобы говорить о каком-либо «тренде». Если размыть ещё сильнее, эта неопределённость становится больше:

Разумеется, я понятия не имею, что там произошло в районе левого пика, потому что Яндекс.Метрика тупо графики рисует, а какой там за ними смысл — ей по-барабану.