Искусственный интеллект: есть ли шанс создать новый ByteDance или Pinduoduo?
По сравнению с предыдущими годами, особенностью WAIC в этом году стало то, что специалисты больше не ограничиваются обсуждением базовых крупных моделей, а появляется все больше продуктов для вертикальных сценариев применения. Это показывает, что мышление технических разработчиков становится все более четким, а ИИ все ближе к жизни обычных людей.
С момента выпуска ChatGPT в конце 2022 года прошло всего полтора года. Чжуан Минхао, вице-президент и главный стратег Quzhan Technology, вспоминает, что год назад обсуждения все еще ограничивались применением ИИ в языке и тексте, но сегодня появление хитов в области изображений, видео, аудио, музыки и других мультимодальных секторах доказывает жизнеспособность новой волны.
В этой волне ИИ, где тысячи парусов соревнуются, как стартапы, так и малые и средние компании снова получили возможность конкурировать с гигантами - как на арене, созданной мобильным интернетом более десяти лет назад.
Чжуан Минхао описывает нынешнюю ситуацию фразой "ИИ - это скрытая карта для предпринимателей и открытая карта для крупных компаний".
"Открытая карта для крупных компаний" означает, что для всех крупных компаний сегодня работа с ИИ - это обязательство, необходимость для расширения возможностей существующего бизнеса, которую они планомерно и ритмично выполняют. "Скрытая карта для предпринимателей" означает, что для стартапов определение направления предпринимательства в ИИ - это вопрос догадок и предположений.
Однако новое поколение гигантов часто скрывается в возможностях игры со скрытыми картами. "В 2010 году, когда крупные компании занимались беспроводной трансформацией своего бизнеса, никто не мог представить, что через несколько лет появятся такие компании, как Pinduoduo и Douyin", - говорит Чжуан Минхао. "Только открытые карты не создают игру, только в лесу могут вырасти высокие деревья, только в сложной экосистеме могут появиться выдающиеся компании".
Десять лет назад Quzhan Technology поймала эту "скрытую карту", выпустив TT Voice и заполнив пробел на рынке мобильной голосовой связи. Десять лет спустя, в новом раунде пересечения открытых и скрытых карт, почему Quzhan Technology имеет право сесть за игровой стол? Чжуан Минхао приводит три причины.
Во-первых, Quzhan уже десять лет глубоко работает в вертикальных областях, таких как развлечения, и имеет глубокое понимание экосистемы и пользователей в этой сфере. "Мы, компании, занимающиеся бизнесом, по сути, всегда работаем для удовлетворения пользовательских сценариев, удовлетворения потребностей пользователей, всегда близки к потребностям пользователей - это всегда было миссией стартапов и бизнес-компаний", - говорит Чжуан Минхао.
Во-вторых, в разработке вертикальных моделей Quzhan имеет долгосрочные инвестиции в собственные технологические разработки и накопление высококачественных данных, которых нет у других. В области ИИ важность данных намного выше, чем моделей, и компании, обладающие уникальными данными, будут иметь большее конкурентное преимущество.
Наконец, Quzhan имеет высокоактивные экспериментальные сценарии с высокой степенью вовлеченности. Как упоминалось ранее, благодаря наличию популярных надежных продуктов, инновационные технологии Quzhan могут быстро выйти из лаборатории, пройти проверку и доработку пользователями и рынком, и как можно раньше войти в положительный цикл развития "разработка - повышение эффективности - увеличение доходов".
Сначала стать специалистом, затем искать новые возможности в своей области
Когда в 2011 году начался бум мобильного интернета, известный партнер венчурной компании Джон Дорр предложил концепцию "SoLoMo", то есть Social (социальный), Local (локальный) и Mobile (мобильный). Когда эта концепция была предложена, многие признали ее будущим трендом развития интернета, и она стала стандартным ответом, направляющим многие компании вперед.
Возвращаясь к текущему моменту, ИИ все еще находится на ранней стадии развития, и тот стандартный ответ, которого все ждут, еще не появился. Как крупные компании, так и стартапы постоянно экспериментируют и исследуют, выбирают и балансируют, многие вещи все еще находятся в размытом и хаотичном состоянии. Но для некоторых компаний этот "хаос" не бездна, а именно лестница.
По сравнению с крупными компаниями, которые "закручивают" универсальные большие модели и крупных клиентов, Quzhan Technology больше похожа на "специалиста с мышлением универсала", который лучше умеет решать сложные задачи и находить новые пути в вертикальных сценариях. Это врожденное преимущество и уверенность Quzhan, и она уже доказала свои способности.
"Быстро развивающееся состояние отрасли и быстрая итерация возможностей базовых больших моделей создают проблемы для компаний, работающих на инженерном и прикладном уровнях", - говорит Чжуан Минхао. Это приводит к тому, что компании, формирующие продукты на основе больших моделей, часто "тянутся" за ними, часто только что адаптировавшись, как базовая модель снова меняется, что затрудняет обеспечение стабильности услуг.
Подход Quzhan Technology заключается в разработке вертикальных "малых" моделей на основе своих глубоких знаний в области голоса и развлечений, самостоятельном обучении и формировании пути развития "параллельного продукта и модели". "В этой области мы можем гарантировать, что эта модель относительно стабильна и не будет особенно подвержена влиянию быстрой итерации базовых универсальных больших моделей", - говорит Чжуан Минхао.
На данный момент вертикальные большие модели, разработанные Quzhan Technology, уже охватывают области аудио, музыки, диалогов и более специализированы и удобны в использовании для мультимодального понимания, генерации и взаимодействия. В ранее опубликованном "Исследовательском отчете о конкурентоспособности 100 ведущих предприятий в области больших моделей искусственного интеллекта в Китае в 2024 году" большая модель Quzhan также вошла в топ-100.
Например, в области ИИ-музыки Quzhan Technology разработала первую в мире мультимодальную большую модель для создания музыки, способную генерировать музыку из текста, аудио и даже видео, поддерживающую ИИ-написание текстов, автоматическое сочинение, аранжировку, микширование и т.д., способную решить все проблемы пользователей в процессе создания музыки, позволяя обычным любителям музыки действительно создавать музыку с нулевым порогом входа.
ИИ-музыка - это новая область без стандартных ответов. Когда Suno, "ChatGPT в мире музыки", появился из ниоткуда и привлек внимание всего мира к этому небольшому сектору, Quzhan Technology уже работала над этим в течение многих лет. Можно сказать, что Quzhan Technology также является одной из первых компаний в отрасли, разработавших большие музыкальные модели и нативные ИИ-приложения.
Кроме того, на основе самостоятельно разработанных генеративных больших моделей движения и аудио, Quzhan Technology разработала комплексные корпоративные решения, такие как цифровые люди и многоязычный перевод. Помимо обслуживания игровых компаний, MCN-агентств для создания видеоконтента и зарубежного бизнеса в своей производственной цепочке, эти решения также применяются в таких сценариях, как умные клиентские службы, местная жизнь, кино и туризм, охватывая рыночный масштаб в триллионы юаней, а партнерами являются известные предприятия, такие как China Telecom.
Почти все крупные продукты начинаются с вертикальной аудитории, а затем постепенно расширяются и в конечном итоге становятся национальными продуктами. ИИ структурно изменит пользовательский опыт и промышленную экосистему, и широкие коммерческие возможности, порождаемые вертикальными сценариями применения, очевидны.
"Демократизация" ИИ дает всем право стоять на одной стартовой линии. Но для стартапов путь Quzhan, заключающийся в "параллельном развитии продукта и модели" в вертикальных отраслях, возможно, можно использовать как ориентир, но нельзя просто скопировать, ведь ключевым является накопление данных и отраслевых ноу-хау, и чем дольше накопление, тем выше барьер.
Использование "простой формулы" для захвата якоря определенности
В эпоху ИИ, когда волны смывают песок, как предприятиям ухватиться за определенность в неопределенности? Чжуан Минхао считает, что решающим фактором всегда остается "правильная банальность" - "близость к потребностям пользователей".
"Наша миссия всегда заключалась в том, чтобы решать неудовлетворенные потребности пользователей с помощью инновационных технологий и продуктов", - говорит Чжуан Минхао. Независимо от того, как меняются технологии, как меняется капитальная среда, делаете ли вы X+AI или AI Native, эта базовая логика никогда не изменится.
От самостоятельной разработки вертикальных больших моделей до создания полностью интегрированной экосистемы технологий взаимодействия с ИИ, Quzhan Technology всегда придерживается подхода, основанного на потребностях пользователей, отдавая приоритет типичным вертикальным сценариям в качестве пилотных проектов для прорыва, а затем копируя успешный опыт в другие сценарии после успеха пилотного проекта, тем самым снижая неопределенность в трансформации ИИ. Благодаря этому "делать немного больше" удалось добиться того, чтобы пользователи и клиенты были "немного стабильнее" и "немного удобнее". Используя этот пошаговый "глупый метод", постепенно была выведена "простая формула" один порождает два, два порождают три.
В то же время, сталкиваясь с ИИ, который кажется всемогущим, Quzhan Technology также подчеркивает "чувство границ" в его использовании. Эти границы включают как определение границ интеграции ИИ и бизнес-сценариев, так и понимание границ того, что ИИ может технически сделать на данном этапе.
"Конференция WAIC этого года напомнила мне ощущения, когда я участвовал в конференциях по мобильному интернету более десяти лет назад", - говорит Чжуан Минхао. Атмосфера в огромном выставочном зале рядом с пекинским стадионом "Птичье гнездо" тогда была идентична нынешнему состоянию, когда WAIC вызывает ажиотаж в Шанхае.
Столкнувшись с еще более жесткой конкурентной средой, Quzhan Technology уже создала определенные барьеры и преимущества в вертикальных областях, получив приоритетный билет на волну эпохи ИИ. Что нового принесут пионеры отрасли ИИ в следующем году? Как компаниям накопить больше "боеприпасов"?
Чжуан Минхао верит, что отрасль ИИ в течение года-двух достигнет момента, когда будет определен победитель. А сейчас мы как будто идем по темному лесу, зажигаем факел в каком-то месте леса, освещая только ближайшее окружение, но постепенно продвигаясь вперед, мы увидим слабый свет в некоторых местах, обнаружим больше себе подобных, пока не соединим эти огни вместе и вместе