Нет абстрактных «баз знаний», модель не обучается на всяком хламе, это ОЧЕНЬ дорого, датасет предварительно подготавливается таким образом, чтобы он отвечал задаче модели.
Есть датасеты с картинками цифр для обучения модели распознавать цифры.
Есть датасеты для обучения модели программированию, которые содержат примеры рабочего кода, и не важно, кем он написан, ИИ или человеком, важно, чтобы модель правильно сформировала веса.
Есть датасеты для обучения модели русскому языку, в основе которых лежит, например, литература. Если дообучить модель на русской литературе, она станет экспертом в русской литературе, в такой модели не будет данных, сгенерированных ИИ, поскольку датасет, на котором её обучали, содержит только произведения русской литературы.




