Recherche avancée

Médias (91)

Autres articles (72)

  • La file d’attente de SPIPmotion

    28 novembre 2010, par

    Une file d’attente stockée dans la base de donnée
    Lors de son installation, SPIPmotion crée une nouvelle table dans la base de donnée intitulée spip_spipmotion_attentes.
    Cette nouvelle table est constituée des champs suivants : id_spipmotion_attente, l’identifiant numérique unique de la tâche à traiter ; id_document, l’identifiant numérique du document original à encoder ; id_objet l’identifiant unique de l’objet auquel le document encodé devra être attaché automatiquement ; objet, le type d’objet auquel (...)

  • MediaSPIP v0.2

    21 juin 2013, par

    MediaSPIP 0.2 est la première version de MediaSPIP stable.
    Sa date de sortie officielle est le 21 juin 2013 et est annoncée ici.
    Le fichier zip ici présent contient uniquement les sources de MediaSPIP en version standalone.
    Comme pour la version précédente, il est nécessaire d’installer manuellement l’ensemble des dépendances logicielles sur le serveur.
    Si vous souhaitez utiliser cette archive pour une installation en mode ferme, il vous faudra également procéder à d’autres modifications (...)

  • Mise à disposition des fichiers

    14 avril 2011, par

    Par défaut, lors de son initialisation, MediaSPIP ne permet pas aux visiteurs de télécharger les fichiers qu’ils soient originaux ou le résultat de leur transformation ou encodage. Il permet uniquement de les visualiser.
    Cependant, il est possible et facile d’autoriser les visiteurs à avoir accès à ces documents et ce sous différentes formes.
    Tout cela se passe dans la page de configuration du squelette. Il vous faut aller dans l’espace d’administration du canal, et choisir dans la navigation (...)

Sur d’autres sites (8456)

  • dnn/native : add native support for 'add'

    10 avril 2020, par Guo, Yejun
    dnn/native : add native support for 'add'
    

    It can be tested with the model file generated with below python script :

    import tensorflow as tf
    import numpy as np
    import imageio

    in_img = imageio.imread('input.jpg')
    in_img = in_img.astype(np.float32)/255.0
    in_data = in_img[np.newaxis, :]

    x = tf.placeholder(tf.float32, shape=[1, None, None, 3], name='dnn_in')
    z1 = 0.039 + x
    z2 = x + 0.042
    z3 = z1 + z2
    z4 = z3 - 0.381
    z5 = z4 - x
    y = tf.math.maximum(z5, 0.0, name='dnn_out')

    sess=tf.Session()
    sess.run(tf.global_variables_initializer())

    graph_def = tf.graph_util.convert_variables_to_constants(sess, sess.graph_def, ['dnn_out'])
    tf.train.write_graph(graph_def, '.', 'image_process.pb', as_text=False)

    print("image_process.pb generated, please use \
    path_to_ffmpeg/tools/python/convert.py to generate image_process.model\n")

    output = sess.run(y, feed_dict=x : in_data)
    imageio.imsave("out.jpg", np.squeeze(output))

    Signed-off-by : Guo, Yejun <yejun.guo@intel.com>

    • [DH] libavfilter/dnn/dnn_backend_native_layer_mathbinary.c
    • [DH] libavfilter/dnn/dnn_backend_native_layer_mathbinary.h
    • [DH] tools/python/convert_from_tensorflow.py
    • [DH] tools/python/convert_header.py
  • Improving Google Cloud Speech-to-Text accuracy

    6 juillet 2020, par lr_optim

    I'm working on a project where I need to perform these steps :

    &#xA;

      &#xA;
    1. Record a voice call (.webm -file)
    2. &#xA;

    3. Split the webm -file into chunks with ffmpeg and convert the file into wav
    4. &#xA;

    5. Transcribe the chunks using SpeechRecognition -library and Google Cloud API
    6. &#xA;

    &#xA;

    I've faced problems with the transcription accuracy and wondering if there is something I could do to improve it. At the time I'm splitting the original file into 30s chunks. I thought there might be one problem, that I might be missing words because of splitting so I've tried also with longer chunks under 60s but didn't notice any improve in accuracy.&#xA;Reading trough the speechRecognition docs I decided to set r.energy_threshold = 4000, I also tried to set the energy_treshold dynamically like this :

    &#xA;

    with sr.AudioFile(name) as source:&#xA;    r.dynamic_energy_threshold = True&#xA;    r.adjust_for_ambient_noise(source, duration = 1)&#xA;    audio = r.record(source)&#xA;

    &#xA;

    I've also tested en-US and en-GB to see if there's some difference but there isn't as much as I'd want. The program is supposed to work with english language spoken by nordic people. If someone has experience about choosing a right language model for people speaking with accent, please let me know.

    &#xA;

    This is the ffmpeg command is use to split the webm file into chunks : command = [&#x27;ffmpeg&#x27;, &#x27;-i&#x27;, filename, &#x27;-f&#x27;, &#x27;segment&#x27;, &#x27;-segment_time&#x27;, &#x27;30&#x27;, parts_dir &#x2B; outputname &#x2B; &#x27;%09d.wav&#x27;]

    &#xA;

    Is there somethig I could do better ? I'm wondering if the quality is not good enough an Google is having hard time because of that ?

    &#xA;

    The main problem is I'm getting bad results (lots of wrong words) from Google and wondering if there is something I could do about it.

    &#xA;

  • How to make ffmpeg remux an iPhone MOV (HEVC) that works on Apple products ?

    21 janvier 2024, par Mikael Finstad

    I want to remux a HEVC file (without encoding). I have tried most options, even removing audio, but I cannot get an output file that plays smoothly with Apple products.

    &#xA;&#xA;

    First I AirDrop any MOV from an iPhone recorded with the camera in HEVC.

    &#xA;&#xA;

    Then run :

    &#xA;&#xA;

    ffmpeg -i IMG_4605.MOV -c copy out.mov&#xA;

    &#xA;&#xA;

    Then if I send out.mov back to the iPhone and try to play it back, it plays back with glitches while seeking, like this : (original to the right)

    &#xA;&#xA;

    Result&#xA;Original

    &#xA;&#xA;

    When I try to drag the file into a new iMovie project and try to play it back, it freezes the whole iMovie app and needs a force quit.

    &#xA;&#xA;

    Doing the same with the original causes no issues, so obviously there is something wrong with the way ffmpeg remuxes it, or something wrong with Apple's software.

    &#xA;&#xA;

    ffmpeg -i IMG_4605.MOV &#xA;ffmpeg version 4.2.2 Copyright (c) 2000-2019 the FFmpeg developers&#xA;  built with Apple clang version 11.0.0 (clang-1100.0.33.17)&#xA;  configuration: --prefix=/usr/local/Cellar/ffmpeg/4.2.2_2 --enable-shared --enable-pthreads --enable-version3 --enable-avresample --cc=clang --host-cflags= --host-ldflags= --enable-ffplay --enable-gnutls --enable-gpl --enable-libaom --enable-libbluray --enable-libmp3lame --enable-libopus --enable-librubberband --enable-libsnappy --enable-libtesseract --enable-libtheora --enable-libvidstab --enable-libvorbis --enable-libvpx --enable-libwebp --enable-libx264 --enable-libx265 --enable-libxvid --enable-lzma --enable-libfontconfig --enable-libfreetype --enable-frei0r --enable-libass --enable-libopencore-amrnb --enable-libopencore-amrwb --enable-libopenjpeg --enable-librtmp --enable-libspeex --enable-libsoxr --enable-videotoolbox --disable-libjack --disable-indev=jack&#xA;  libavutil      56. 31.100 / 56. 31.100&#xA;  libavcodec     58. 54.100 / 58. 54.100&#xA;  libavformat    58. 29.100 / 58. 29.100&#xA;  libavdevice    58.  8.100 / 58.  8.100&#xA;  libavfilter     7. 57.100 /  7. 57.100&#xA;  libavresample   4.  0.  0 /  4.  0.  0&#xA;  libswscale      5.  5.100 /  5.  5.100&#xA;  libswresample   3.  5.100 /  3.  5.100&#xA;  libpostproc    55.  5.100 / 55.  5.100&#xA;Input #0, mov,mp4,m4a,3gp,3g2,mj2, from &#x27;IMG_4605.MOV&#x27;:&#xA;  Metadata:&#xA;    major_brand     : qt  &#xA;    minor_version   : 0&#xA;    compatible_brands: qt  &#xA;    creation_time   : 2019-12-29T10:20:56.000000Z&#xA;    com.apple.quicktime.location.ISO6709: &#x2B;01.3602&#x2B;103.9897&#x2B;024.438/&#xA;    com.apple.quicktime.make: Apple&#xA;    com.apple.quicktime.model: iPhone 11&#xA;    com.apple.quicktime.software: 13.3&#xA;    com.apple.quicktime.creationdate: 2019-12-29T18:20:56&#x2B;0800&#xA;  Duration: 00:00:09.00, start: 0.000000, bitrate: 24882 kb/s&#xA;    Stream #0:0(und): Video: hevc (Main) (hvc1 / 0x31637668), yuv420p(tv, bt709), 3840x2160, 24659 kb/s, 29.99 fps, 29.97 tbr, 600 tbn, 600 tbc (default)&#xA;    Metadata:&#xA;      rotate          : 90&#xA;      creation_time   : 2019-12-29T10:20:56.000000Z&#xA;      handler_name    : Core Media Video&#xA;      encoder         : HEVC&#xA;    Side data:&#xA;      displaymatrix: rotation of -90.00 degrees&#xA;    Stream #0:1(und): Audio: aac (LC) (mp4a / 0x6134706D), 44100 Hz, stereo, fltp, 192 kb/s (default)&#xA;    Metadata:&#xA;      creation_time   : 2019-12-29T10:20:56.000000Z&#xA;      handler_name    : Core Media Audio&#xA;    Stream #0:2(und): Data: none (mebx / 0x7862656D), 0 kb/s (default)&#xA;    Metadata:&#xA;      creation_time   : 2019-12-29T10:20:56.000000Z&#xA;      handler_name    : Core Media Metadata&#xA;    Stream #0:3(und): Data: none (mebx / 0x7862656D), 0 kb/s (default)&#xA;    Metadata:&#xA;      creation_time   : 2019-12-29T10:20:56.000000Z&#xA;      handler_name    : Core Media Metadata&#xA;    Stream #0:4(und): Data: none (mebx / 0x7862656D), 17 kb/s (default)&#xA;    Metadata:&#xA;      creation_time   : 2019-12-29T10:20:56.000000Z&#xA;      handler_name    : Core Media Metadata&#xA;

    &#xA;&#xA;

    ffmpeg -i out.mov&#xA;ffmpeg version 4.2.2 Copyright (c) 2000-2019 the FFmpeg developers&#xA;  built with Apple clang version 11.0.0 (clang-1100.0.33.17)&#xA;  configuration: --prefix=/usr/local/Cellar/ffmpeg/4.2.2_2 --enable-shared --enable-pthreads --enable-version3 --enable-avresample --cc=clang --host-cflags= --host-ldflags= --enable-ffplay --enable-gnutls --enable-gpl --enable-libaom --enable-libbluray --enable-libmp3lame --enable-libopus --enable-librubberband --enable-libsnappy --enable-libtesseract --enable-libtheora --enable-libvidstab --enable-libvorbis --enable-libvpx --enable-libwebp --enable-libx264 --enable-libx265 --enable-libxvid --enable-lzma --enable-libfontconfig --enable-libfreetype --enable-frei0r --enable-libass --enable-libopencore-amrnb --enable-libopencore-amrwb --enable-libopenjpeg --enable-librtmp --enable-libspeex --enable-libsoxr --enable-videotoolbox --disable-libjack --disable-indev=jack&#xA;  libavutil      56. 31.100 / 56. 31.100&#xA;  libavcodec     58. 54.100 / 58. 54.100&#xA;  libavformat    58. 29.100 / 58. 29.100&#xA;  libavdevice    58.  8.100 / 58.  8.100&#xA;  libavfilter     7. 57.100 /  7. 57.100&#xA;  libavresample   4.  0.  0 /  4.  0.  0&#xA;  libswscale      5.  5.100 /  5.  5.100&#xA;  libswresample   3.  5.100 /  3.  5.100&#xA;  libpostproc    55.  5.100 / 55.  5.100&#xA;Input #0, mov,mp4,m4a,3gp,3g2,mj2, from &#x27;out.mov&#x27;:&#xA;  Metadata:&#xA;    major_brand     : qt  &#xA;    minor_version   : 512&#xA;    compatible_brands: qt  &#xA;    encoder         : Lavf58.29.100&#xA;  Duration: 00:00:09.00, start: 0.000000, bitrate: 24860 kb/s&#xA;    Stream #0:0: Video: hevc (Main) (hvc1 / 0x31637668), yuv420p(tv, bt709), 3840x2160, 24659 kb/s, 29.99 fps, 29.97 tbr, 19200 tbn, 19200 tbc (default)&#xA;    Metadata:&#xA;      rotate          : 90&#xA;      handler_name    : Core Media Video&#xA;      encoder         : HEVC&#xA;    Side data:&#xA;      displaymatrix: rotation of -90.00 degrees&#xA;    Stream #0:1: Audio: aac (LC) (mp4a / 0x6134706D), 44100 Hz, stereo, fltp, 192 kb/s (default)&#xA;    Metadata:&#xA;      handler_name    : Core Media Audio&#xA;

    &#xA;&#xA;

    If I open out.mov in QuickTime and do a trim and export it, then it it still "broken", so I'm thinking there's nothing wrong with the actual muxing into MOV, because QuickTime is passing the error on.

    &#xA;&#xA;

    I noticed that out.mov has different parameters 19200 tbn, 19200 tbc (vs original 600 tbn, 600 tbc). However, if I force set these to 600 with -video_track_timescale 600 the output file is still broken.

    &#xA;&#xA;

    Anyone got some insights ?

    &#xA;