BookCorpus

BookCorpus (также иногда называемый Toronto Book Corpus) представляет собой набор данных, состоящий из текстов около 11 000 неопубликованных книг, извлеченных из Интернета. Это был основной корпус, использовавшийся для обучения начальной версии GPT OpenAI, он также использовался в качестве обучающих данных для других ранних больших языковых моделей, включая BERT от Google. Набор данных состоит примерно из 985 миллионов слов, а книги, входящие в его состав, охватывают целый ряд жанров, включая романы, научную фантастику и фэнтези.

Корпус был представлен в статье 2015 года исследователей из Университета Торонто и Массачусетского технологического института под названием «Сопоставление книг и фильмов: на пути к сюжетным визуальным объяснениям путем просмотра фильмов и чтения книг». Авторы описали его как состоящий из «бесплатных книг, написанных ещё неопубликованными авторами». Набор данных изначально размещался на веб-странице Университета Торонто. Официальная версия исходного набора данных больше не является общедоступной, хотя была создана по крайней мере одна замена, BookCorpusOpen. Хотя это и не было задокументировано в оригинальной статье 2015 года, сайт, с которого были извлечены книги корпуса, теперь известен как Smashwords.

Имя:*
E-Mail:
Комментарий: