Сегодня мы анонсируем семейство моделей Claude 3, которое устанавливает новые отраслевые стандарты для широкого спектра когнитивных задач. В семейство входят три современные модели в порядке возрастания возможностей: Claude 3 Haiku, Claude 3 Sonnet и Claude 3 Opus. Каждая последующая модель обеспечивает все более высокую производительность, позволяя пользователям выбирать оптимальный баланс интеллекта, скорости и стоимости для их конкретного применения.
Opus и Sonnet теперь доступны для использования в claude ai, а API Claude теперь общедоступен в 159 странах .
Семейство моделей Claude 3
Новый стандарт интеллекта
Opus, наша самая интеллектуальная модель, превосходит аналоги по большинству распространенных тестов для оценки систем искусственного интеллекта, включая экспертные знания на уровне бакалавриата (MMLU), экспертное мышление на уровне выпускника (GPQA), базовую математику (GSM8K) и многое другое. Он демонстрирует почти человеческий уровень понимания и беглости в решении сложных задач, лидируя на переднем крае общего интеллекта.
Все модели Claude 3 демонстрируют расширенные возможности анализа и прогнозирования, создания детального контента, генерации кода и общения на неанглийских языках, таких как испанский, японский и французский.
Ниже приведено сравнение моделей Claude 3 с моделями наших аналогов по нескольким критериям [1] возможностей:
Почти мгновенные результаты
Модели Claude 3 могут использоваться в интерактивных чатах с клиентами, автозаполнении и задачах извлечения данных, где ответы должны быть немедленными и в режиме реального времени.
Haiku — самая быстрая и экономичная модель на рынке в своей категории интеллекта. Он может прочитать исследовательскую работу с большим объемом информации и данных на arXiv (~ 10 тыс. токенов) с диаграммами и графиками менее чем за три секунды. После запуска мы ожидаем дальнейшего улучшения производительности.
Для подавляющего большинства рабочих нагрузок Sonnet в 2 раза быстрее, чем Claude 2 и Claude 2.1, с более высоким уровнем интеллекта. Он превосходно справляется с задачами, требующими быстрого реагирования, такими как поиск знаний или автоматизация продаж. Opus обеспечивает скорость, аналогичную Claude 2 и 2.1, но с гораздо более высоким уровнем интеллекта.
Сильные возможности зрения
Модели Claude 3 обладают развитыми возможностями машинного зрения наравне с другими ведущими моделями. Они могут обрабатывать широкий спектр визуальных форматов, включая фотографии, диаграммы, графики и технические диаграммы. Мы особенно рады предоставить эту новую возможность нашим корпоративным клиентам, у некоторых из которых до 50% баз знаний закодированы в различных форматах, таких как PDF-файлы, блок-схемы или слайды презентаций.
Меньше отказов
Предыдущие модели Клода часто допускали ненужные отказы, что предполагало отсутствие контекстуального понимания. Мы добились значительного прогресса в этой области: Opus, Sonnet и Haiku значительно реже отказываются отвечать на запросы, выходящие за рамки системы, чем модели предыдущих поколений. Как показано ниже, модели Claude 3 демонстрируют более тонкое понимание запросов, распознают реальный вред и гораздо реже отказываются отвечать на безобидные подсказки.
Повышенная точность
Предприятия всех размеров полагаются на наши модели для обслуживания своих клиентов, поэтому крайне важно, чтобы результаты наших моделей сохраняли высокую точность в масштабе. Чтобы оценить это, мы используем большой набор сложных фактических вопросов, нацеленных на известные слабые места текущих моделей. Мы классифицируем ответы на правильные ответы, неправильные ответы (или галлюцинации) и признание неуверенности, когда модель говорит, что не знает ответа, вместо того, чтобы предоставлять неверную информацию. По сравнению с Claude 2.1, Opus демонстрирует двукратное улучшение точности (или правильных ответов) на эти сложные открытые вопросы, а также снижает уровень неправильных ответов.
Помимо создания более достоверных ответов, мы вскоре разрешим цитирование в наших моделях Claude 3, чтобы они могли указывать на точные предложения в справочных материалах для проверки своих ответов.
Длинный контекст и почти идеальное запоминание
Семейство моделей Claude 3 изначально будет предлагать контекстное окно размером 200 000 при запуске. Однако все три модели способны принимать входные данные, превышающие 1 миллион токенов, и мы можем сделать это доступным для избранных клиентов, которым требуется повышенная вычислительная мощность.
Для эффективной обработки длинных контекстных подсказок модели требуют надежных возможностей отзыва. Оценка «Иголка в стоге сена» (NIAH) измеряет способность модели точно извлекать информацию из огромного массива данных. Мы повысили надежность этого теста, используя одну из 30 случайных пар «игла/вопрос» для каждой подсказки и тестируя разнообразный корпус документов, полученных из краудсорсинга. Claude 3 Opus не только достиг почти идеального запоминания, точность которого превысила 99%, но в некоторых случаях даже выявил ограничения самой оценки, признав, что «игольное» предложение, по-видимому, было искусственно вставлено в исходный текст человеком. .
Ответственный дизайн
Мы разработали семейство моделей Claude 3, чтобы они были максимально надежными. У нас есть несколько специализированных групп, которые отслеживают и смягчают широкий спектр рисков, начиная от дезинформации и CSAM и заканчивая биологическим злоупотреблением, вмешательством в выборы и навыками автономного репликации. Мы продолжаем разрабатывать такие методы, как конституционный ИИ , которые повышают безопасность и прозрачность наших моделей, а также настраиваем наши модели для смягчения проблем конфиденциальности, которые могут возникнуть в результате новых модальностей.
Устранение предвзятостей во все более сложных моделях — это постоянная работа, и с этой новой версией мы добились успехов. Как показано на карточке модели, Claude 3 демонстрирует меньше предвзятостей, чем наши предыдущие модели, согласно тесту Bias Benchmark для ответов на вопросы (BBQ) . Мы по-прежнему привержены развитию методов, которые уменьшают предвзятость и способствуют большей нейтральности в наших моделях, гарантируя, что они не перекошены в сторону какой-либо конкретной партийной позиции.
Хотя семейство моделей Claude 3 продвинулось вперед по ключевым показателям биологических знаний, кибер-знаний и автономности по сравнению с предыдущими моделями, оно остается на уровне безопасности ИИ 2 (ASL-2) в соответствии с нашей политикой ответственного масштабирования . Наши оценки красной команды (проведенные в соответствии с нашими обязательствами Белого дома и Исполнительным указом США от 2023 года ) пришли к выводу, что на данный момент модели представляют незначительный потенциал катастрофического риска. Мы продолжим внимательно следить за будущими моделями, чтобы оценить их близость к порогу ASL-3. Более подробную информацию о безопасности можно найти в карточке модели Claude 3 .
Легче использовать
Модели Claude 3 лучше выполняют сложные, многоэтапные инструкции. Они особенно искусны в соблюдении принципов бренда и реагирования на них, а также в разработке опыта взаимодействия с клиентами, которому наши пользователи могут доверять. Кроме того, модели Claude 3 лучше подходят для создания популярного структурированного вывода в таких форматах, как JSON, что упрощает обучение Claude для таких случаев использования, как классификация естественного языка и анализ настроений.
Детали модели
Claude 3 Opus — наша самая интеллектуальная модель с лучшими на рынке показателями производительности при выполнении очень сложных задач. Он может ориентироваться в открытых подсказках и невидимых сценариях с поразительной беглостью и человеческим пониманием. Opus показывает нам внешние границы возможностей генеративного ИИ.
Стоимость [Вход $/миллион токенов | Вывод $/миллион токенов] | 15 долларов | 75 долларов США |
Контекстное окно | 200 тыс.* |
Возможное использование | Автоматизация задач: планируйте и выполняйте сложные действия с помощью API и баз данных, интерактивное кодирование.НИОКР: обзор исследований, мозговой штурм и выработка гипотез, открытие лекарств.Стратегия: расширенный анализ диаграмм и графиков, финансовых показателей и рыночных тенденций, прогнозирование. |
Дифференциатор | Более высокий интеллект, чем у любой другой доступной модели. |
*1 млн токенов доступны для конкретных случаев использования, обращайтесь по запросу.
Claude 3 Sonnet обеспечивает идеальный баланс между интеллектом и скоростью, особенно для корпоративных рабочих нагрузок. Он обеспечивает высокую производительность при меньших затратах по сравнению с аналогами и рассчитан на высокую надежность в крупномасштабных развертываниях искусственного интеллекта.
Стоимость [Вход $/миллион токенов | Вывод $/миллион токенов] | 3 доллара | 15 долларов США |
Контекстное окно | 200 тыс. |
Возможное использование | Обработка данных: RAG или поиск и извлечение огромных объемов знаний.Продажи: товарные рекомендации, прогнозирование, таргетированный маркетингЗадачи, экономящие время: генерация кода, контроль качества, анализ текста из изображений |
Дифференциатор | Более доступный, чем другие модели с аналогичным интеллектом; лучше для масштаба. |
Claude 3 Haiku — наша самая быстрая и компактная модель, обеспечивающая практически мгновенное реагирование. Он отвечает на простые запросы и запросы с непревзойденной скоростью. Пользователи смогут создавать комплексные возможности искусственного интеллекта, имитирующие взаимодействие людей.
Стоимость [Вход $/миллион токенов | Вывод $/миллион токенов] | 0,25 доллара США | 1,25 доллара США |
Контекстное окно | 200 тыс. |
Возможное использование | Взаимодействие с клиентами: быстрая и точная поддержка при живом общении, переводыМодерация контента: выявите рискованное поведение или запросы клиентовЗадачи по экономии средств: оптимизация логистики, управление запасами, извлечение знаний из неструктурированных данных. |
Дифференциатор | Умнее, быстрее и доступнее, чем другие модели в своей интеллектуальной категории. |
Доступность модели
Opus и Sonnet уже сегодня доступны для использования в нашем API, который теперь общедоступен, что позволяет разработчикам зарегистрироваться и немедленно начать использовать эти модели. Хайку скоро будет доступна. Sonnet обеспечивает бесплатный доступ на claude.ai, а Opus доступен подписчикам Claude Pro.
Sonnet также доступен сегодня на Amazon Bedrock и в частной предварительной версии в Vertex AI Model Garden от Google Cloud, а Opus и Haiku скоро появятся для обоих.
Умнее, быстрее, безопаснее
Мы не считаем, что интеллектуальные возможности моделей достигли своих пределов, и планируем выпускать частые обновления семейства моделей Claude 3 в течение следующих нескольких месяцев. Мы также рады представить ряд функций, расширяющих возможности наших моделей, особенно для корпоративных сценариев использования и крупномасштабных развертываний. Эти новые функции будут включать в себя использование инструментов (также известное как вызов функций), интерактивное кодирование (также известное как REPL) и более продвинутые агентские возможности.
Расширяя границы возможностей искусственного интеллекта, мы в равной степени стремимся обеспечить, чтобы наши меры безопасности соответствовали этому скачку производительности. Наша гипотеза заключается в том, что быть на переднем крае развития ИИ — это наиболее эффективный способ направить его траекторию к положительным социальным результатам.
Мы рады видеть, что вы создаете с помощью Claude 3, и надеемся, что вы дадите нам обратную связь, чтобы сделать Claude еще более полезным помощником и творческим компаньоном. Чтобы начать работу с Клодом, посетите claude3.ru.