что делает функция count
COUNT(*)
У меня есть подборка простеньких вопросов, которые я люблю задавать при собеседовании. Например, как посчитать общее число записей к таблице? Вроде бы ничего сложного, но если копнуть глубже, то можно много интересных нюансов рассказать собеседнику.
Давайте начнем с простого… Эти запросы отличаются чем-то друг от друга с точки зрения конечного результата?
Большинство отвечали: «Нет».
Реже старались долее детально формировать ответ: «Запросы вернут идентичный результат, но COUNT вернет значение типа INT, а COUNT_BIG – тип BIGINT».
Если проанализировать план выполнения, то можно заметить различия, которые многие упускают из вида. При использовании COUNT на плане будет операция Compute Scalar:
Если посмотреть в свойства оператора, то мы увидим там:
Это происходит потому, что при вызове COUNT неявно используется COUNT_BIG после чего результат преобразуется в INT.
Не сказал бы, что существенно, но преобразования типов увеличивает нагрузку на процессор. Многие, конечно, могут сказать, что этот оператор ничего не стоит при выполнении, но нужно отметить простой факт – SQL Server очень часто недооценивает Compute Scalar операторы.
Еще я знаю людей, которые любят использовать SUM вместо COUNT:
Такой вариант примерно равнозначен COUNT. Мы также получим лишний Compute Scalar на плане выполнения:
Теперь более детально затронем вопросы производительности.…
Если использовать запросы выше, то чтобы посчитать количество записей SQL Server необходимо выполнить Full Index Scan (или Full Table Scan если таблица является кучей). В любом случае, эти операции далеко не самые быстрые. Лучше всего для получения количества записей использовать системные представления: sys.dm_db_partition_stats или sys.partitions (есть еще sysindexes, но оставлен для обратной совместимости с SQL Server 2000).
Если сравнить планы выполнения, то доступ к системным представлениям менее затратный:
На AdventureWorks преимущество от применения системных представлений явно не проявляется:
Время выполнения на секционированной таблице с 30 миллионами записей:
В случае если нужно проверить наличие записей в таблице, то использование метаданных как было показано выше не даст особых преимуществ…
И на практике будет даже капельку медленнее, поскольку SQL Server генерирует более сложный план выполнения для выборки из метаданных.
Еще интереснее становиться, когда нужно посчитать количество записей по всем таблицам сразу. На практике встречал несколько вариантов, которые можно обобщить.
Вариант #1 с применением недокументированной процедуры, которая курсором обходит все пользовательские таблицы:
Вариант #2 – динамический SQL которые генерирует запросы SELECT COUNT(*):
Вариант #3 – быстрый вариант на каждый день:
Уж очень много я выдал дифирамбов, что системные представления такие хорошие. Однако, при работе с ними нас могут подстерегать «приятные» неожиданности.
Помнится, был такой веселый баг, когда при миграции с SQL Server 2000 на 2005 некоторые системные представления некорректно обновлялись. Особо везучим людям, в таком случае, из метаданных возвращались неверные значения о количестве записей в таблицах. Лечилось это все командой DBCC UPDATEUSAGE.
Вместе с SQL Server 2005 SP1 этот баг исправили и все бы ничего… Но подобную ситуацию я наблюдал еще один раз, когда восстановил бекап с SQL Server 2005 SP4 на SQL Server 2012 SP2. Воспроизвести проблему на реальном окружении увы не смогу, поэтому немного обманув оптимизатор:
расскажу на простом примере.
Самый безобидный запрос начал выполняться дольше чем обычно:
Посмотрел на план запроса и увидел там явно неадекватное значение Estimated number of rows:
Заглянул в статистику по кластерному индексу:
Но в системных представления о которых мы говорили ранее:
В запросе не было предикатов для фильтрации и оптимизатор выбрал Full Index Scan. При Full Index/Table Scan ожидаемое количество строк оптимизатор не берет из статистики, а обращается к метаданным (точно не уверен всегда ли это происходит).
Не секрет, что на основе Estimated number of rows SQL Server генерирует план выполнения и вычисляет сколько нужно памяти чтобы его выполнить. Если оценка будет неверной, то может быть выделено больше памяти на выполнение запроса, чем нужно на самом деле.
Вот к чему приводит неверная оценка количества строк:
Проблема решилась достаточно просто:
После рекомпиляции запроса все пришло в норму:
Если системные представления уже не кажутся «спасительной палочкой», то какие варианты у нас остаются? Можно делать все по-старинке:
Но при интенсивной вставке в таблицу я бы не доверял результатам. «Волшебный» хинт NOLOCK тем более не гарантирует правильного значения:
По сути, чтобы получить правильное значение количества строк в таблице, нужно выполнять запрос под уровнем изоляции SERIALIZABLE либо используя хинт TABLOCKX:
И что мы получаем в итоге… монопольную блокировку таблицы на период выполнении запроса. И тут каждый должен решать сам, что ему лучше использовать. Мой выбор — метаданные.
Еще интереснее, когда нужно быстро подсчитать число строк по условию:
Если в таблице не происходят частые операции вставки-удаления, то можно создать индексированное представление:
Для этих запросов оптимизатор будет генерировать идентичный план на основе кластерного индекса вьюхи:
План выполнения с индексным представлением и без:
Этим постом я хотел показать, что идеальных решений на все случаи жизни не бывает. И в каждом конкретной ситуации нужно действовать с индивидуальным подходом.
Все тестировалось на SQL Server 2012 SP3 (11.00.6020).
В качестве выводов… Когда нужно подсчитать общее число строк по таблице, то я использую метаданные — это самый быстрый способ. И пусть Вас не пугает ситуация с старым багом, который я привел выше.
Если нужно быстро подсчитать количество строк в разрезе какого-то поля или по условию — то я стараюсь использовать индексированные представления либо фильтрованные индексы. Все зависит от ситуации.
Когда таблица маленькая или вопросы с производительностью не стоят так остро, то проще уж действительно по-старинке написать SELECT COUNT(*)…
Если хотите поделиться этой статьей с англоязычной аудиторией:
What is the fastest way to calculate the record COUNT?
Oracle PL/SQL •MySQL •MariaDB •SQL Server •SQLite
Базы данных
SQL функция COUNT
В этом учебном материале вы узнаете, как использовать SQL функцию COUNT с синтаксисом и примерами.
Описание
SQL функция COUNT используется для подсчета количества строк, возвращаемых в операторе SELECT.
Синтаксис
Синтаксис для функции COUNT в SQL.
Или синтаксис для функции COUNT при группировке результатов по одному или нескольким столбцам.
Параметры или аргумент
Не все это понимают, но функция COUNT будет подсчитывать только те записи, в которых expressions НЕ равно NULL в COUNT( expressions ). Когда expressions является значением NULL, оно не включается в вычисления COUNT. Давайте рассмотрим это дальше.
В этом примере у нас есть таблица customers со следующими данными:
customer_id | first_name | last_name | favorite_website |
---|---|---|---|
4000 | Justin | Bieber | google.com |
5000 | Selena | Gomez | bing.com |
6000 | Mila | Kunis | yahoo.com |
7000 | Tom | Cruise | oracle.com |
8000 | Johnny | Depp | NULL |
9000 | Russell | Crowe | google.com |
Введите следующий запрос SELECT, которая использует функцию COUNT.
Функция Count (Microsoft Access SQL)
Область применения: Access 2013 | Access 2016
Вычисляет количество записей, возвращенных запросом.
Синтаксис
Count( expr )
Заполнитель expr представляет строковое выражение, определяющее поле, которое содержит данные для подсчета или выражение, выполняющее вычисление с помощью данных в поле. Операнды в expr могут включать имя поля таблицы или функцию (встроенную или определяемую пользователем, но не другую агрегатную функцию SQL). Можно вычислять любой тип данных, включая текст.
Примечания
Чтобы вычислить количество записей в базовом запросе, можно использовать функцию Count. Например, можно использовать функцию Count для вычисления количества заказов, отправленных в определенную страну или регион.
Хотя expr может проводить вычисления с полем, функция Count просто подсчитывает количество записей. Неважно, какие значения хранятся в записях.
Функция Count не учитывает записи, содержащие поля Null, если expr не является подстановочным знаком в виде звездочки (*). Если используется звездочка, функция Count вычисляет общее количество записей, включая записи, содержащие поля Null. Count ( * ) значительно быстрее, чем Count ( [ Имя столбца ] ). Звездочку не нужно заключать в кавычки (‘ ‘).
В приведенном ниже примере вычисляется количество записей в таблице Orders (Заказы):
Если expr определяет несколько полей, функция Count подсчитывает запись только в том случае, если хотя бы одно из полей не равно Null. Если все указанные поля имеют значение Null, запись не учитывается. Имена полей разделяются амперсандом (&). В приведенном ниже примере показано, как можно ограничить подсчет записями, в которых поле ShippedDate или Freight не равно Null:
Функцию Count можно использовать в выражении запроса. Это выражение также можно использовать в свойстве SQL объекта QueryDef или при создании объекта Recordset на основе SQL запроса.
Пример
В этом примере используется таблица Orders (Заказы), чтобы вычислить количество заказов, отправленных в Соединенное Королевство.
В этом примере вызывается процедура EnumFields, которую можно найти в примере оператора SELECT.
См. также
Поддержка и обратная связь
Есть вопросы или отзывы, касающиеся Office VBA или этой статьи? Руководство по другим способам получения поддержки и отправки отзывов см. в статье Поддержка Office VBA и обратная связь.
Функции Count, CountA, CountIf и CountRows в Power Apps
Подсчитывает все записи в таблице или подсчитывает количество записей, удовлетворяющих условию.
Описание
Функция Count подсчитывает количество содержащих число записей в таблице из одного столбца.
Функция CountA подсчитывает количество непустых записей в таблице из одного столбца. При подсчете учитываются пустые текстовые строки («»).
Функция CountIf подсчитывает количество записей в таблице, которые возвращают значение true в результате вычисления логической формулы. Формула может ссылаться на столбцы таблицы.
Функция CountRows подсчитывает количество записей в таблице.
Каждая из этих функций возвращает число.
Вам необходимо включить параметр Расширенное делегирование для Microsoft Dataverse в дополнительных параметров, делегирование функций CountIf и CountRows работало. Чтобы включить этот параметр:
Откройте приложение, в котором вы хотите использовать эти функции.
Выберите Файл > Параметры > Предстоящие функции > Предварительная версия.
Включите параметр Расширенное делегирование для Microsoft Dataverse.
Синтаксис
Count( SingleColumnTable )
CountA( SingleColumnTable )
CountIf( Table, LogicalFormula )
CountRows( Table )
Пример
Импортируйте или создайте коллекцию с именем Inventory, как описано в первом шаге описания показа текста и изображений в коллекции.
Добавьте метку и установите в ее свойстве Текст формулу:
Функция COUNT (Transact-SQL)
Эта функция возвращает количество элементов, найденных в группе. Функция COUNT работает подобно функции COUNT_BIG. Эти функции различаются только типами данных в возвращаемых значениях. Функция COUNT всегда возвращает значение типа данных int. Функция COUNT_BIG всегда возвращает значение типа данных bigint.
Синтаксические обозначения в Transact-SQL
Синтаксис
Ссылки на описание синтаксиса Transact-SQL для SQL Server 2014 и более ранних версий, см. в статье Документация по предыдущим версиям.
Аргументы
ALL
Применяет агрегатную функцию ко всем значениям. Аргумент ALL используется по умолчанию.
DISTINCT
Указывает, что функция COUNT возвращает количество уникальных значений, не равных NULL.
expression
Выражение любого типа, кроме image, ntext и text. Обратите внимание, что функция COUNT не поддерживает агрегатные функции и вложенные запросы в выражении.
*
Указывает, что функция COUNT должна учитывать все строки, чтобы определить общее количество строк таблицы для возврата. Функция COUNT(*) не принимает параметры и не поддерживает использование аргумента DISTINCT. Для функции COUNT(*) не требуется параметр expression, так как по определению она не использует сведения о конкретном столбце. Функция COUNT(*) возвращает количество строк в указанной таблице с учетом повторяющихся строк. Она подсчитывает каждую строку отдельно. При этом учитываются и строки, содержащие значения NULL.
Типы возвращаемых данных
Remarks
Функция COUNT(*) возвращает количество элементов в группе. Сюда входят значения NULL и повторяющиеся значения.
Функция COUNT(ALL expression) вычисляет expression для каждой строки в группе и возвращает количество значений, не равных NULL.
Функция COUNT(DISTINCT expression) вычисляет expression для каждой строки в группе и возвращает количество уникальных значений, не равных NULL.
COUNT — это детерминированная функция, если она используется без _ предложений OVER и ORDER BY. Она не детерминирована при использовании _ с предложениями OVER и ORDER BY. Дополнительные сведения см. в статье Детерминированные и недетерминированные функции.
Примеры
A. Использование функции COUNT и параметра DISTINCT
В этом примере функция возвращает количество различных должностей, которые может иметь сотрудник Компания Adventure Works Cycles.
Б. Использование функции COUNT(*)
В этом примере функция возвращает общее количество сотрудников Компания Adventure Works Cycles.
В. Использование функции COUNT(*) совместно с другими статистическими функциями
Г. Использование предложения OVER
Примеры: Azure Synapse Analytics и Система платформы аналитики (PDW)
Д. Использование функции COUNT и параметра DISTINCT
В этом примере функция возвращает количество различных должностей, которые может иметь конкретный сотрудник компании.