Различие между версиями «Викисловарь:Работа для бота»

Материал из Викисловаря
[отпатрулированная версия][отпатрулированная версия]
Содержимое удалено Содержимое добавлено
Jcwf (обсуждение | вклад)
Нет описания правки
Строка 5: Строка 5:
{{Новые сверху}}
{{Новые сверху}}
<!-- Добавляйте новые темы под этим предложением -->
<!-- Добавляйте новые темы под этим предложением -->
== Dutch conjugations / Нидерландские спражения ==

Sorry for the English. Typing/writing Russian is too cumbersome for me. I have been creating templates for as full a set of verb forms -including the many auxiliary compound ones- for Dutch verbs and I made a Russian version [[:template:Conjugation nl]]. A good example for what the results looks like is [[aanbieden/спражение]]. I deliberately used the same parameter structure we used at nl.wikt and that means that most items on [[:nl:Categorie:Vervoeging in het Nederlands]] could be imported here by a bot.
:I do say ''most'', because it would only be the ones that carry the template -nlverb-, not the ones that have -nlverb-reflex- or -nlverb-onpers-. They have different parameters and I have not translated that yet. That would still leave most of the 11,000 or so. Maybe 9000-10,000 or so. I have a bunch of questions:
#Is there anyone that can/would like to do help me with this?
#Does the community want it? It does mean that you have thousands of conjugations of verbs that have no description yet. Generating those will take a long time. In fact I still have not finished that even at nl. #Does the page need a header like -nl- (I left that out because we don't have that at the Dutch wiktionary?
#Some of the data have a template hebben-zijn implanted. This codes for verbs that can be both transitive and ergative. Here I split that up into two description pages. We could leave them as they are for the moment and do the splitting later or we could simply not import them.
[[Участник:Jcwf|Jcwf]] ([[Обсуждение участника:Jcwf|обсуждение]]) 06:09, 28 мая 2014 (UTC)
== Удаление лишнего ==
== Удаление лишнего ==
* Могу я удалить такие вставки в старые статьи: <code><nowiki>{{?|who=TrudoBot|what=ссылки+тип слова}}</nowiki></code>? <br/> У меня складывается впечатление, что они не несут никакой полезной информации. — [[Участник:Vitalik|Vitalik]] <sup style='line-height: 1em'>[[Обсуждение участника:Vitalik|обс]]</sup> 20:57, 15 мая 2014 (UTC)
* Могу я удалить такие вставки в старые статьи: <code><nowiki>{{?|who=TrudoBot|what=ссылки+тип слова}}</nowiki></code>? <br/> У меня складывается впечатление, что они не несут никакой полезной информации. — [[Участник:Vitalik|Vitalik]] <sup style='line-height: 1em'>[[Обсуждение участника:Vitalik|обс]]</sup> 20:57, 15 мая 2014 (UTC)

Версия от 06:09, 28 мая 2014

Данная страница является разделом форума Викисловаря и предназначена для обсуждения массовых правок и других автоматизированных задач.

Внимание! Для обсуждения других вопросов предназначены отдельные страницы:

  • Викисловарь:Лингвистические и лексикографические вопросы — обсуждение содержательных вопросов, связанных с лингвистикой и лексикографией (что значит и как переводится то или иное слово, как оно склоняется или спрягается, к какому семантическому классу принадлежит и т. п.);
  • Викисловарь:Организационные вопросы — обсуждение организационных вопросов (структура и оформление Викисловаря, изменение статуса участников и страниц, претензии, разрешение конфликтов, действия относительно вандализма и т. п.);
  • Викисловарь:Технические вопросы — обсуждение технических вопросов (детали программирования, создание ботов, использование синтаксиса разметки, механизм функционирования шаблонов и категорий и т. п.);
  • Викисловарь:Вопросы общения — обсуждение вопросов общения, взаимодействия участников проекта (прежде всего викивстречи и викиконференции);
  • Викисловарь:Лицензионные вопросы — обсуждение лицензионных вопросов (статус используемых материалов);

Общий архив обсуждения: 2004—2006 | 2006 | 2012 | 2013 | 2014 | 2015 | 2016 | 2017 | 2018 | 2019 | 2020 | 2021 | 2022 | 2023 
Архивы более старых обсуждений: 2014—2015 | 2016 


Пожалуйста, добавляйте новые темы сверху. Добавить…

См. также:


Просьба: новые темы снабжать заголовком (== ==) и добавлять под этими рекомендациями, но над прежними темами.


Короткая ссылка-перенаправление ВС:РДБ

Пожалуйста, добавляйте новые темы сверху. Добавить…

Dutch conjugations / Нидерландские спражения

Sorry for the English. Typing/writing Russian is too cumbersome for me. I have been creating templates for as full a set of verb forms -including the many auxiliary compound ones- for Dutch verbs and I made a Russian version template:Conjugation nl. A good example for what the results looks like is aanbieden/спражение. I deliberately used the same parameter structure we used at nl.wikt and that means that most items on nl:Categorie:Vervoeging in het Nederlands could be imported here by a bot.

I do say most, because it would only be the ones that carry the template -nlverb-, not the ones that have -nlverb-reflex- or -nlverb-onpers-. They have different parameters and I have not translated that yet. That would still leave most of the 11,000 or so. Maybe 9000-10,000 or so. I have a bunch of questions:
  1. Is there anyone that can/would like to do help me with this?
  2. Does the community want it? It does mean that you have thousands of conjugations of verbs that have no description yet. Generating those will take a long time. In fact I still have not finished that even at nl. #Does the page need a header like -nl- (I left that out because we don't have that at the Dutch wiktionary?
  3. Some of the data have a template hebben-zijn implanted. This codes for verbs that can be both transitive and ergative. Here I split that up into two description pages. We could leave them as they are for the moment and do the splitting later or we could simply not import them.

Jcwf (обсуждение) 06:09, 28 мая 2014 (UTC)[ответить]

Удаление лишнего

  • Могу я удалить такие вставки в старые статьи: {{?|who=TrudoBot|what=ссылки+тип слова}}?
    У меня складывается впечатление, что они не несут никакой полезной информации. — Vitalik обс 20:57, 15 мая 2014 (UTC)[ответить]

Параллельная викификация

Возможно выделять викификацию именно отдельной задачей не стоит, т.к. это будут многие тысячи правок. Поэтому я собираюсь дополнительно нагрузить викификацией все последующие бото-задачи. Т.е. с некоторой действительно необходимой задачей будет параллельно происходить викификация. Частично я это уже опробовал на задаче "adv" (там параллельно викифицировались заголовки).

Создал этот раздел, чтобы обсудить, какие возможные викификации стоит добавить к боту.

Мои предложения:

  • викификация заголовков (т.е. добавление одного пробела между знаком равенства и текстом заголовка)
  • добавление пробела для пустого элемента списка (т.е. после единственного в строке символа '*' или '#')
  • добавление пустой строки перед заголовками (т.е. перед символами "=", находящимися в начале строки)

Есть ли еще какие-нибудь действия, которые приходится делать со старыми статьями, или которые автоматически делает викификатор, которые можно было бы поручить боту в нагрузку? — Vitalik обс 19:26, 25 апреля 2014 (UTC)[ответить]

Дополнительные небольшие задачи на параллельную викификацию:

Старая незавершённая работа

Как быть с оставшимся {{cat|||lang=}} и {{cat|Глаголы||lang=}}? --- Vesailok 17:33, 20 апреля 2014 (UTC)[ответить]

Ой, не знал о такой вариации названия шаблона.
Таких полных пустышек — около пяти с половиной тысяч в ВС, бот их обработает.
А вот как лучше быть с частично заполненным (Глаголы без языка)? Тоже привести к стандартному виду? И если да, то какие при этом затрагивать? — Vitalik обс 17:40, 20 апреля 2014 (UTC)[ответить]
Без языка, значит, русский. Или ты имел в виду что-то другое? --- Vesailok 17:42, 20 апреля 2014 (UTC)[ответить]
Я имел в виду надо ли приводить их к общему (понятному для новичков) виду: "{{Категория|язык=ru|Глаголы||}}"? — Vitalik обс 17:44, 20 апреля 2014 (UTC)[ответить]
Думаю, что надо. Хотя давным-давно была задумка: слово Глаголы добавлять чем-то вроде: Глаголы движения. --- Vesailok 17:47, 20 апреля 2014 (UTC)[ответить]
Еще одно уточнение: это касается только шаблона {{cat}} с незаполненным языком или и {{categ}} тоже? — Vitalik обс 17:48, 20 апреля 2014 (UTC)[ответить]
Начать с cat. А потом categ - там другая комбинация обычно. --- Vesailok 17:52, 20 апреля 2014 (UTC)[ответить]
"categ" вроде бы полностью аналогично использовался (судя по: Организационные вопросыЗамена Категория: в статьях).
Кстати, обращаю внимание Infovarius на это обсуждение, т.к. он в нём явно заинтересован. — Vitalik обс 18:07, 20 апреля 2014 (UTC)[ответить]

Ошибки или недочёты в разделе "Значение"

Новая задачка от soshial :)

Занесение отдельно стоящей пометы внутрь списка значений (как здесь: [3]), при этом отдельно стоящую строчку {{прото}} трогать не следует (как здесь: взять).

Попробую объединить эту задачу с другими моментами. Если есть какие-то замечания, пишите, к написанию бота я еще не приступал. — Vitalik обс 17:07, 20 апреля 2014 (UTC)[ответить]

Дополнительные подзадачи: добавление "#" в начале строки, а также добавление "{{пример|}}", если он отсутствует. — Vitalik обс 17:35, 20 апреля 2014 (UTC)[ответить]
  • По основной задаче нашёл пока такие кандидаты:
адряс, барщинный, бестягольный, благолепие, благонамеренный, блудница, блудный, боярин, боярский, боярыня, бурса, гуглер, катран, кутейник, благостыня, бр, бранчливый, влёгкую, пшикать, ц-ц-ц, адъютантик, архитекторша, амбарное, беспонтовый, бараш, мумбо-юмбо, амбарщина, смотрибельный, дрисня, кумбия, балдёжный, солоп, додик, вехотка, безвыгодно
Просьба проглядеть, точно ли в них можно просто взять и перенести "общую" помету в каждый элемент списка? — Vitalik обс 21:34, 20 апреля 2014 (UTC)[ответить]

Использование шаблона "adv ru"

soshial подсказал новую задачу: использование шаблона {{adv ru}} вместо текстового описания вида "Наречие, неизменяемое" в русских наречиях. Пример правки: [4]
Собираюсь в ближайшем времени написать и запустить соответствующего бота. — Vitalik обс 11:11, 19 апреля 2014 (UTC)[ответить]

  • Хорошо, давай только вставлять шаблон в полном варианте с незаполненными параметрами «класс», «тип», «степень», «или», «или-кат».--Cinemantique (обсуждение) 12:36, 19 апреля 2014 (UTC)[ответить]
    Хорошая мысль. Попробовал исследовать, как обычно заполняют параметры наречий. Как правило все они идут в отдельных строках и в таком порядке:
{{adv ru
|слоги={{по-слогам|слово}}
|тип=
|класс=
|степень=
|или=
|или-кат=
}}
Годится? — Vitalik обс 14:18, 19 апреля 2014 (UTC)[ответить]

 Обработано 137 случаев (и еще несколько вручную)

Избавление от шаблонов существительных с пометкой "-" в названии

Cinemantique, подсказал что от шаблонов с пометкой "-" (трудности с образованием мн. ч.) постепенно избавляются.
При этом вместо дефиса в названии шаблона - достаточно в словарную статью добавить параметры "|st=1" и "|затрудн=1".

После некоторого исследования это можно сделать с помощью бота. — Vitalik обс 09:37, 13 апреля 2014 (UTC)[ответить]

  • За. В шаблоне существительных минус означает «множественное число предположительно»; тот же результат дают включённые параметры st и затрудн. Ниже приведён образец замены:
Код Результат
{{сущ ru f ina 1b-
|основа=белиберд
|основа1=белибе́рд
}}
падеж ед. ч. мн. ч.
Им. белиберда́  —
Р. белиберды́  —
Д. белиберде́  —
В. белиберду́  —
Тв. белибердо́й
белибердо́ю
 —
Пр. белиберде́  —
{{сущ ru f ina 1b
|основа=белиберд
|основа1=белибе́рд
|st=1
|затрудн=1
}}
падеж ед. ч. мн. ч.
Им. белиберда́ *белиберды́
Р. белиберды́ *белибе́рд
Д. белиберде́ *белиберда́м
В. белиберду́ *белиберды́
Тв. белибердо́й
белибердо́ю
*белиберда́ми
Пр. белиберде́ *белиберда́х

--Cinemantique (обсуждение) 10:01, 13 апреля 2014 (UTC)[ответить]

Спасибо
 Готово. Следующие шаблоны можно удалять (они больше нигде не используются):
Vitalik обс 16:47, 13 апреля 2014 (UTC)[ответить]


Боюсь, придется возвращать назад. Когда программистская логика сталкивается с лексикографической, предпочтение надо отдавать последней. Гораздо проще иметь дело с несколькими простыми шаблонами, чем с одним универсальным, но сложным. Здесь уже много лет действует вот это руководство: Викисловарь:Использование словаря Зализняка. С его помощью сделаны сотни и тысячи статей, и столько же еще предстоит сделать. Идея проста: если Зализняк пишет 1b-, лексикографу логично и естественно делать то же самое. Это касается как pluralia tantum, так и singularia tantim. Используемые у нас средства для создания статей (как стандартные, так и с помощью подстановки шаблонов семейства NEW) завязаны именно на такую логику: нужно указать только индекс, в котором зашита вся необходимая информация, и не заморачиваться с эзотерическими параметрами. В принципе это чисто внутреннее дело, читатель в результате в обоих вариантах видит на странице одно и то же, а вот редактору не все равно. Если бы авторы идеи, прежде чем удалять "ненужные" шаблоны, удосужились заполнить все лакуны (красные ссылки и пустышки без описания морфологии), создали бы сами все недостающие статьи о словах с таким словоизменением, разговор выглядел бы более серьезно, а в нынешнем состоянии -- извините. Если мне понадобится шаблон со сложным индексом и я его не нейду, я просто восстановлю удаленное. Когда создатели инстументария, не очень активные в плане создания статей, говорят создателям статей: "Вы тут годами что-то делали, но ваши инструменты не годятся, мы их выкинем, пользуйтесь теперь нашими, только теперь вместо одного действия вам придется делать три", - это не есть хорошо. --Al Silonov (обсуждение) 12:15, 15 апреля 2014 (UTC)[ответить]
Простота индекса Зализняка немного преувеличена. Каким образом вы внедрите через индекс в книжке «родительный множественного затруднён» или «множественного нет»? Вы будете пользоваться тем же дополнительным параметром или выдуманным дополнением к индексу, который не напечатан у Зализняка (вспомним также про глаголы с этими «-ся», «СВ» и всяческими нигде не объяснёнными «-т» и «-л»).--Cinemantique (обсуждение) 12:53, 15 апреля 2014 (UTC)[ответить]
Я согласен с Cinemantique: мы всё-таки должны приспосабливать систему Зализняка так, чтобы и нам было удобно, и чтобы лишние сущности не плодить. И схемы pluralia tantum или sing. tantum по сути ялвяются теми же схемами склонения, что и без дефисов/скобок. Какова полезность создавания лишних шаблонов, у которых просто красными выделено ед./мн. число? DonRumata тоже переносил со старых шаблонов с минусом на новые, а я к нему присоединился в какой-то момент. PS. Правда, мне не совсем ясна причина использования сочетания двух параметров ("|st=1" и "|затрудн=1"), когда можно было бы обойтись одним ("|stЗатрудн=1"). — soshial@ 13:43, 15 апреля 2014 (UTC)[ответить]
To Soshial: Рассуждение насчет "плодить сущности" некорректно: дополнительные параметры в шаблоне не в меньшей степени являются сущностями, чем дополнительные шаблоны. Кому-то, возможно, удобнее работать с такими сущностями, кому-то - с эдакими. Какова полезность доп. шаблонов - я уже пояснял: логика нашей системы создания статей такова, что манипулировать индексом гораздо удобнее, чем параметрами. Проще добавить один значок в индексе названия шаблона, чем ввести один-два параметра внутри шаблона. Да и любому это проще, меньше телодвижений (в случае st я хочу добавлять только минус, это одно движение, а с доп. параметром надо лазить по шаблону и проставлять параметр; в случае pt - взять индекс в скобки, тоже в сумме меньше телодвижений). Кроме того, близость к системе обозначений Зализняка - тоже важный фактор. Дополнять то, что он не уточнил, логично, а удалять то, что у него уже есть - менее логично, мне кажется (подсмотрел в словаре - скопировал с максимальным соответствием). --Al Silonov (обсуждение) 15:56, 15 апреля 2014 (UTC)[ответить]
Речь тут идет об именном словоизменении, и там более или менее хватало индексов той сложности, которая использовалась все эти годы. Если нужно, то да, сделаем новые шаблоны с расширенными индексами, пускай как можно больше система работает автоматом, чтобы не надо было дополнительных параметров. Для глаголов - то же. Они у ААЗ прописаны хуже, поэтому добавлений больше. --Al Silonov (обсуждение) 13:41, 15 апреля 2014 (UTC)[ответить]
  • Согласен с Элом, зря удаляете... Во французском викисловаре была похожая история с шаблонами, только они сначала сделали три больших

шаблона для глаголов, а в них параметры. В итоге редактировать и использовать всё это было очень затруднительно. И теперь там отдельные шаблоны. --Grenadine (обсуждение) 20:41, 29 апреля 2014 (UTC)[ответить]

Аннигиляция заголовка "Аналоги"

Используется только в статьях о словообразовательных единицах (примеры: -ист, -дер).

Старый отчёт: Участник:Vitalik/Отчёты/Заголовки/Неизвестные/Частые#=== Аналоги === (276)

Предложение: переименовать раздел в "Синонимы" (пример использования: -енько, архе-).

Vitalik обс 19:28, 9 апреля 2014 (UTC)[ответить]

Если возражений нет, то я переименую. Тем более в шаблоне {{new-ru-morph}} именно так и сделано, и такой подход уже широко распространён. — Vitalik обс 19:55, 11 апреля 2014 (UTC)[ответить]
 ГотовоVitalik обс 16:29, 13 апреля 2014 (UTC)[ответить]

Добавление параметра "|lang=xx" или просто "|xx"

Уже неоднократно поднимался вопрос о добавлении информации о языке в пометы, в шаблон {{длина слова}} и пр.

Уточняющие вопросы:

  • Надо ли одновременно с этим добавлять языковую информацию и в другие места? Например, в шаблон {{unfinished}}? Куда-нибудь еще?
  • Применять эти изменения только для помет внутри подраздела "Значение" или и внутри других подразделов тоже?

Vitalik обс 18:49, 9 апреля 2014 (UTC)[ответить]

Еще одно уточнение.
В качестве языка надо всегда устанавливать "ru" (т.е. это для случаев, когда язык вообще указан не был) или использовать язык раздела, в котором находится помета или шаблон? — Vitalik обс 19:06, 9 апреля 2014 (UTC)[ответить]

Надо бы сначала решить вопрос, где мы будем считать количество букв. И если через шаблон, то: 1) обычно остались непомеченными именно русские слова, поэтому ru ставить безопасно (немногочисленные исключения потом вычистятся руками); 2) к unfinished желательно добавлять строчку типа "p=1|m=1|e=1|t=1|ru", ибо полный список недостатков почему-то часто не указывали. Впрочем, их я собираюсь уточнить по всем статьям оптом, так что для начала можно код языка поставить. --Infovarius (обсуждение) 07:49, 10 апреля 2014 (UTC)[ответить]
Не следует считать количество букв в lang-е. Следует считать количество символов (знакомест) и только в однословных статьях. Внимательно отнестись к различным апострофам, которые увеличивают почему-то длину слова. Часть статей, в которых должен быть шаблон, не имеет данного шаблона. Всё это нужно учесть и запустить бота на добавление к пустому lang= всего-то ru. Или же после цифры с последующими }} поставить |lang=ru. Если нужен список таких слов - могу подготовить. --- Vesailok 10:15, 20 апреля 2014 (UTC)[ответить]
Infovarius прав в том, что лучше было бы сначала решить вопрос в теме: Организационные вопросыДлина слова.
Однако в виду того, что этот вопрос уже несколько месяцев висит в воздухе, можно пойти по более длинному пути. Вначале навести порядок с использованием шаблона {{длина слова}}, а уже потом (надеюсь всё-таки придём к этому) приводить в жизнь различные облегчающие улучшения и автоматизации. — Vitalik обс 11:58, 20 апреля 2014 (UTC)[ответить]

Заливка русских названий минералов

Пробный камень, проверка реакции. Недавно я провёл пробную серию созданий статей про названия минералов на букву А, они были совсем единообразными. Сейчас подготовлен список по всему алфавиту. Я хочу попробовать извлечь из разных сайтов более конкретное определение, этимологию, и переводы. Прошу голосовать: (А) кто за то, чтобы закончить заливку в первоначальном виде? (Б) или извлечь автоматизированно вышеуказанную информацию (могут быть проблемы с авторским правом и неточностью переводов); (В) закончить, ничего не делать. --Infovarius (обсуждение) 09:06, 7 апреля 2014 (UTC)[ответить]

  • Сам я за (Б). --Infovarius (обсуждение) 09:06, 7 апреля 2014 (UTC)[ответить]
  • Я тоже за (Б) вариант. Неточности и проблемы можно будет решать после заливки, либо даже до заливки (но после попытки извлечь информацию), я в свою очередь могу предложить свою помощь, если потребуется.
    P.S. А можно ссылку на пример оформления минерала на букву А? — Vitalik обс 09:20, 7 апреля 2014 (UTC)[ответить]
  • Однословные переводы, я считаю, можно залить, если есть надёжный источник. Мы в любом случае должны использовать АИ. А как пересказать своими словами однословный перевод? Никак. Дальше не совсем ясно. Каким образом будет составляться этимология, откуда браться определения? Хотелось бы увидеть образцы. У меня есть сомнения по поводу морфемного разбора в заливке. Если не ошибаюсь, там выделялся только один конечный суффикс, всё остальное записывалось как корень. Но там есть сложные слова.--Cinemantique (обсуждение) 09:29, 7 апреля 2014 (UTC)[ответить]
  • Заливка "А" была не очень качественная (все-таки одно и то же определение для сотен разных слов -- не совсем солидно), но для первичной стадии -- приемлемая, можно и дальше продолжать так, а потом вручную дорабатывать. А с морфемным разбором и этимологией я бы не торопился, боту это не по силам, мне кажется, это для ручной работы. --Al Silonov (обсуждение) 10:12, 7 апреля 2014 (UTC)[ответить]
В том-то и дело, что добавлять более конкретные определения можно вручную. Не понимаю, почему не запустить бота? --- Vesailok 10:18, 20 апреля 2014 (UTC)[ответить]

Начало работы форума

Предлагаю все массовые действия обсуждать здесь. Причём, чтобы не возникало конфликтов, массовые правки (скажем, от 500) должны получить одобрение как минимум 3 активных участников. Голосуем :) --Infovarius (обсуждение) 06:52, 7 апреля 2014 (UTC)[ответить]

Хорошая идея. В некоторых случаях это может несколько замедлить работу, но зато будет меньше поводов к необоснованным нападениям в дальнейшем, а это хорошо.
По существу: для немассовых правок (менее 500) нужно ли одобрение 3 участников или достаточно одного-двух? — Vitalik обс 09:00, 7 апреля 2014 (UTC)[ответить]
Да, только я бы считал массовыми действия начиная от 20. В любом случае, прежде чем вынести инициативу на обсуждение, инициатор должен сам тщательно проверить свой проект на соответствие правилам/стандартам. --Al Silonov (обсуждение) 10:15, 7 апреля 2014 (UTC)[ответить]

Обсуждаемые в других местах работы

Здесь собираем ссылки на важные обсуждения в других местах.

Заливка словоформ

Заголовки

Графический раздел

Унификация уровней и не только

Смотреть также

Слогоделение

Коды языков

Шаблоны словоизменений