app/youtube/lib.py

   1 import re
   2 import requests
   3 from urllib.parse import urlparse
   4
   5 from ..common.common import video_metadata
   6 from ..common.innertube import prepare_infocards, prepare_endcards, G
   7
   8 def prepare_metadata(metadata):
   9     meta = metadata['videoDetails']
  10
  11     # Note: we could get subtitles in multiple formats directly by querying
  12     # https://video.google.com/timedtext?hl=en&type=list&v=<VIDEO_ID> followed by
  13     # https://www.youtube.com/api/timedtext?lang=<LANG_CODE>&v=<VIDEO_ID>&fmt={srv1|srv2|srv3|ttml|vtt},
  14     # but that won't give us autogenerated subtitles (and is an extra request).
  15     # we can still add &fmt= to the extracted URLs below (first one takes precedence).
  16     try: # find the native language captions (assuming there is only 1 audioTrack) (any level might not exist):
  17         default_track = metadata.get('captions',{}).get('playerCaptionsTracklistRenderer',{}).get('defaultAudioTrackIndex', 0)
  18         main_subtitle = metadata['captions']['playerCaptionsTracklistRenderer']['audioTracks'][default_track]['captionTrackIndices']
  19     except:
  20         main_subtitle = -1
  21     subtitles = sorted([
  22         {'url':cc['baseUrl'],
  23          'code':cc['languageCode'],
  24          'autogenerated':cc.get('kind')=="asr",
  25          'name':cc['name']|G.text,
  26          'default':i==main_subtitle,
  27          'query':"fmt=vtt&"+urlparse(cc['baseUrl']).query} # for our internal proxy
  28         for i,cc in enumerate(metadata|G('captions')
  29             |G('playerCaptionsTracklistRenderer')
  30             |G('captionTracks') or [])
  31     # sort order: default lang gets weight 0 (first), other manually translated weight 1, autogenerated weight 2:
  32     ], key=lambda cc: (not cc['default']) + cc['autogenerated'])
  33
  34     endcards = prepare_endcards(metadata)
  35
  36     thumbs = meta['thumbnail']['thumbnails']
  37     poster = sorted(thumbs, key=lambda t: t['width'], reverse=True)[0]['url']
  38
  39     return {
  40         **video_metadata(metadata),
  41         'description': meta['shortDescription'],
  42         'unlisted': not meta['isCrawlable'],
  43         'poster': poster,
  44         'endcards': endcards,
  45         'all_cards': endcards,
  46         'subtitles': subtitles,
  47     }
  48
  49 def channel_exists(feed_id):
  50     feed_type = "channel_id" if re.match(r"^UC[A-Za-z0-9_-]{22}$", feed_id) else "user"
  51     r = requests.head("https://www.youtube.com/feeds/videos.xml", params={
  52         feed_type: feed_id,
  53     })
  54     return r.ok
  55
  56 def microformat_parser(metadata):
  57     """ parses additional metadata only available with get_video_info(metaOnly=True) """
  58     # WARN: breaks if metadata == None (e.g. invalid video id)
  59     meta2 = metadata.get('microformat',{}).get('playerMicroformatRenderer',{})
  60     all_countries = """AD AE AF AG AI AL AM AO AQ AR AS AT AU AW AX AZ BA BB BD
  61         BE BF BG BH BI BJ BL BM BN BO BQ BR BS BT BV BW BY BZ CA CC CD CF CG CH
  62         CI CK CL CM CN CO CR CU CV CW CX CY CZ DE DJ DK DM DO DZ EC EE EG EH ER
  63         ES ET FI FJ FK FM FO FR GA GB GD GE GF GG GH GI GL GM GN GP GQ GR GS GT
  64         GU GW GY HK HM HN HR HT HU ID IE IL IM IN IO IQ IR IS IT JE JM JO JP KE
  65         KG KH KI KM KN KP KR KW KY KZ LA LB LC LI LK LR LS LT LU LV LY MA MC MD
  66         ME MF MG MH MK ML MM MN MO MP MQ MR MS MT MU MV MW MX MY MZ NA NC NE NF
  67         NG NI NL NO NP NR NU NZ OM PA PE PF PG PH PK PL PM PN PR PS PT PW PY QA
  68         RE RO RS RU RW SA SB SC SD SE SG SH SI SJ SK SL SM SN SO SR SS ST SV SX
  69         SY SZ TC TD TF TG TH TJ TK TL TM TN TO TR TT TV TW TZ UA UG UM US UY UZ
  70         VA VC VE VG VI VN VU WF WS YE YT ZA ZM ZW""".split()
  71     whitelisted = sorted(meta2.get('availableCountries',[]))
  72     blacklisted = sorted(set(all_countries) - set(whitelisted))
  73     regions = (
  74         'all' if not blacklisted else
  75         'none' if not whitelisted else
  76         f"not in {' '.join(blacklisted)}" if len(blacklisted) < len(whitelisted) else
  77         f"only in {' '.join(whitelisted)}"
  78     )
  79     try:
  80         poster = sorted(meta2['thumbnail']['thumbnails'], key=lambda t: t['width'], reverse=True)[0]['url']
  81     except: poster = None
  82     infocards = prepare_infocards(metadata)
  83     endcards = prepare_endcards(metadata)
  84     # combine cards to weed out duplicates. for videos and playlists prefer
  85     # infocards, for channels and websites prefer endcards, as those have more
  86     # information than the other.
  87     # if the card type is not in ident, we use the whole card for comparison
  88     # (otherwise they'd all replace each other)
  89     ident = { # ctype -> ident
  90         'VIDEO': 'video_id',
  91         'PLAYLIST': 'playlist_id',
  92         'CHANNEL': 'channel_id',
  93         'WEBSITE': 'url',
  94         'POLL': 'question',
  95     }
  96     getident = lambda c: c['content'].get(ident.get(c['type']), c)
  97     mkexclude = lambda cards, types: [getident(c) for c in cards if c['type'] in types]
  98     exclude = lambda cards, without: [c for c in cards if getident(c) not in without]
  99
 100     allcards = exclude(infocards, mkexclude(endcards,  ['CHANNEL','WEBSITE'])) + \
 101                exclude(endcards,  mkexclude(infocards, ['VIDEO','PLAYLIST']))
 102
 103     return {
 104         'published': meta2.get('publishDate'),
 105         #'uploaded': meta2.get('uploadDate'),
 106         #'infocards': infocards,
 107         #'endcards': endcards,
 108         'all_cards': allcards,
 109         'poster': poster,
 110         'regions': regions,
 111     }